top


総投稿数 本 
no_

スポンサーサイト

 --------
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
カテゴリ :スポンサー広告 トラックバック(-) コメント(-)
no_1332

SEO対策 ツール自作:SEO対策ツールを自作?そんな簡単じゃないよ:1回目(サイトの情報取得)エピソード1 ・・・ 【SEO対策 ツール自作しよ】

 2010-04-25
 まだまだ、かなり修行が足りないようで。
 「SEO対策ツールを自作
 ・SEO対策 ツール自作:SEO対策ツールを自作する:1回目(サイトの情報取得) ・・・ 【SEO対策 ツール自作しよ】
  始めたのはいいけれど・・・

 検証していて、そんな簡単ではないぞよ、と。
 まだ1回目の検証中。
 エピソードとして、その 追試の記録を書いておこ。


 ◆SEO対策ツール自作:1回目(サイトの情報取得)
  エピソード1:
   □タイトル取得 と
    header情報で、きりきり舞い・・・の巻


  追記に  ▼


FC2ブログランキング にほんブログ村 IT技術ブログ Webサイト構築へ ブログ王ランキング 人気ブログランキング 人気ホームページランキングへ


more

************************************************
◎  SEO対策ツール自作:エピソード1
 ・タイトル取得 と header情報で、きりきり舞い・・・の
            :SEO対策 ツール自作しよ

************************************************


 ※修正点を淡々と・・・。

 ■第1回
  サイト情報の取得


 

  □タイトル取得
   ■タグの大文字小文字を区別しないよう
    preg_match_all ではなく、
    preg_match の iオプションを使用する。
$data = file_get_contents($url);
$tempparse = "<title>(.*?)<\/title>";
$tempstrs = preg_match("/".$tempparse."/i", $data, $titles);
$title = $titles[1];
 これで、
  ・(まだまだ多い)大文字タグのサイトのtitleタグを得ることができる。

 

  □header取得
   ※サーバーによって随分送られてくる情報が違うものだ。
$mod = get_headers($url, 1);
 確かに、これで、header情報は得られるのだが・・・
   少し勉強しないと、な。
   コメントは引用転載。謝謝。
HTTP Header Fields
□[0] => HTTP/1.1 200 OK
  # レスポンス
□[Date] => Sun, 25 Apr 2010 08:30:30 GMT
  # メッセージが生成された日付・時刻
  # グリニッジ標準時刻 (GMT)
□[Expires] => -1
  # 新鮮で無くなる{stale} と考えられる時点の日付/時刻
  # レスポンスのキャッシュを望まない場合は、現時点の時刻
   しばらくの間十分に有効であるという事を示す場合は
   1年後の値?
□[Cache-Control] => private, max-age=0K
  # キャッシュに対して、その振る舞いを決定するための指示子
□[Pragma] => no-cache
  # HTTP/1.1 では、キャッシュへの指示のために
   Cache-Control という専用のヘッダフィールド
□[Content-Type] => text/html; charset=Shift_JIS
  # メッセージボディのメディアタイプを記述するためのフィールド
   > メディアタイプ
□[Content-Length] => bytes
  # メッセージボディの大きさを記述するためのフィールド
   (単位はバイト)
□[Server] => Apache
  # リクエストを処理するオリジンサーバが使っている
   ソフトウェアについての情報
□[X-Powered-By] => PHP/5.2.9
  # プログラム情報
   (あれば、消すべきでしょう・・)
□[Accept-Ranges] => bytes
  # Range対応もしくは非対応を示すためのレスポンス
   (対応:bytes、非対応:none)
□[If-Modified-Since] => Sun, 25 Apr 2010 17:08:53 GMT
  # 指定した時刻以降に更新されているかどうかを尋ねる、
   条件付き GET を発行
   (ここに指定する時刻は、HTTP 日付)
□[Last-Modified] => Thu, 08 Apr 2010 12:29:49 GMT
  # リソースの最終更新時刻を記述するためのフィールド
   ・ファイルである場合、そのファイルシステムの最終更新時刻
   ・データベースゲートウェイの場合、
    レコードの最終更新時刻のタイムスタンプ
   ・仮想オブジェクトの場合、内部状態が変化した最終時刻
 他にもあるでしょうが、今回の目的のためには
 このあたりが、押さえ、かな。

 これらを元に、
 ・header情報からの情報取得を見直す。
  [Server][X-Powered-By]
   ・この辺りは値が得られれば、隠すよう促してあげねば。
  [Last-Modified][If-Modified-Since]
   ・この辺りが更新されているかどうか 判断の鍵。
  [Content-Length]
   ・これは、ファイルサイズとも関係ある?かな。


  また・・・
  □whois情報取得
   ■対象レジストリサーバーの整備が必要。
    ・とりあえず、whois.gonbei.jp 追加。


 「道は楽しけれど険し」

commentsコメント
興味深くブログを拝見させていただきました。
また来ます★
【2010/05/09 00:30】 | SEO対策 #dq1BtA8s | [edit]
SEO対策さん、こんにちは。
コメントありがとうございます。
続きが遅れてますが、直アップします。
何かありましたら、お教えください。
ありがとうございました。
【2010/05/09 12:45】 | metaboy #- | [edit]
comment_post












管理者にだけ表示を許可する
commentトラックバック
トラックバックURL:
http://metaboy.blog23.fc2.com/tb.php/1332-ce2ade5c
ようこそ
Add to Google 創るmetaboy:RSSフィード
My Yahoo!に追加
最新記事のRSS | 問い合わせ

仕事検索、アルバイト検索、依頼仕事の検索ポータル - 仕事検索.COM - www.jobkensaku.com ツクルン

創るmetaboy - WEB創る、サイト創る、何創る - 創ったmetaboy

 

リンク集

 

最近の記事

 

ブロとも申請フォーム
Sponserd by

さくらのレンタルサーバ さくらのレンタルサーバ
大容量・高機能レンタルサーバー heteml 大容量・高機能レンタルサーバー heteml
XREA (ValueDomain)
お名前.com お名前.com
名づけてねっと名づけてねっと
ムームードメインムームードメイン

 

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。