Last-Update: $Date: 1998/09/04 19:46:08 $
本自動更新検出のページについて 色々な情報をまとめておきました。 よろしければ参考にしてください。
[AUD Top Page] [金龍-R Top Page]
そこで、気に入ったページのうち、 最近変更されたものだけをリストアップする仕組みを考えました。 それがこの自動更新検出(以下AUD)の始まりです。
自薦・他薦を問わず、リクエストを歓迎いたしますが、 他薦の場合、 非公開のページやリンクを許可していないページなどのURLを お送りにならないようご注意お願い致します。
なお、 「ロボット」の定義によりますが、 AUDは実際にはいわゆる「ロボット」ではありません。 つまり、指定したURL以外のページへ、 勝手にリンクを辿っていくというようなことはありません。
これらの定期的な実行とは別に、 場合によっては臨時の更新チェックを行うこともありえます。 これは主にメンテナンス上の理由によるものです。
また、この2種類のそれぞれについて、2つの形式のページが利用できます。 一つは対象ページのバナーなどを配した、グラフィック指向のページです。 もう一つは、そうしたグラフィックをなるべく使わないようにした、 テキストのみのページです。
最近のグラフィカルなブラウザを使う場合は、 多少「重く」なっても、 バナー付のページの方が見やすいかもしれません。 一方、テキストしか扱えないブラウザ(Lynxなど)や、 TABLEタグの処理に問題のあるブラウザ(Mosaicの特定の版など)では、 テキスト版の方が便利かもしれません。
以上の各ページは、 Daily Report Indexのページから 辿ることができます。
AUDの各ページは自由にリンクしてくださってかまいません。 ただし、各Daily Reportは、一定の日数が過ぎると自動的に消去されますので、 Daily Reportへのリンクは避けた方がよろしいかと思います。 おそらくリンクを張って便利なのは、次の場所のいずれかです。
対象ページが更新されたと見なされると、 "Modified"という表示とともに、 チェックした時刻が記載されます。 なお、この「時刻」は、AUDの動作開始時刻であり、 実際にページをチェックした時刻とは異なります。 もちろん、ページが実際に更新された日時とも異なります。 また、AUDに新たな対象ページが登録されると、 そのページは"New page"と表示されます。 以前から登録してあるページであっても、 URLが変更されたりすると、 "New page"と表示される場合があります。
"repeat count"というのは、 過去に何回連続「更新されたとみなされた」かを表します。 この値が大きいということは、 対象ページがほぼ毎日更新されていることを意味するのかもしれませんし、 実際には更新されていないのに、 AUDが誤ってアクセスカウンタなどに反応してしまっていることを 意味するのかも知れません。 なお、daily reportでは、 最も最近の2回以上のチェックで共に更新が検出できた場合のみ、 repeat countを表示します。 全リストでは、最も最近のチェック(1回以上)で更新が検出できれば、 repeat countを表示します。
"indirect"と表示されている場合、 更新検出対象としているページと、 出力結果のページに載っているリンクが、 同一URLでないことを意味しています。 例えば、 トップページ以外が検出対象として設定されている場合 であっても、リンクはほとんどの場合トップページのみへ張られるので、 そのような場合は、この"indirect"の状態になります。 この他、例えば「成年向け」のページが検出対象になっている場合、 リンクは直接そのページへ張らずに、 未成年者等への警告ページへ張られる場合があります。 このような時も"indirect"と表示されます。
"dynamic page"とか "static page"とか表示されているのは、 対象ページにアクセスカウンタなどの動的部分が含まれているかどうかの区別です。 "dynamic page"と書いてあれば、 AUDは対象ページに動的部分があると判断しています。 なお、アクセスカウンタがインラインイメージになっていて、 テキスト専用ブラウザなどではカウントされないような仕組みになっている場合は、 例えアクセスカウンタがあっても、"static page"とみなされる場合があります。 また、AUD側の特殊設定で動的部分をマスクしてしまっている場合にも、 "static page"と表示される場合があります。 普通に使う分には表示されても意味のない情報ですが、 AUDの挙動がおかしいと思う場合には、その原因を知る糸口となる場合があるので、 管理者の都合で載せています。
「全リスト」では、最近更新されたページほど、 リストの先頭に近くなるように並べられています。
「全リスト」と「Daily Report」のどちらのページでも、 repeat countが小さい方が先頭に近くなります。
更新日時もrepeat countも同じなら、 各ページは主にURLで決まる一定の順序で並びます。 実際のルールはややこしいのですが、 直感的には、URL中の"~"に続く 文字列(多くの場合、ページの作者のユーザ名)の 辞書的順序で並べられていると思っていただけば良いかと思います。 URLに"~"が含まれていない場合なども、自動的にそれなりの判断で、 それに近い文字列を取り出して、順序を決めます。 自動処理なので、URLによっては間違う場合もあります。
トップページだけでは更新状況が分からない場合に、 トップページ以外のページを更新検出対象として設定する場合があります。 このようなときには、 一見同じページが複数並べて出力されているように見えることがあります。
なお、トップページ以外が更新検出対象になる場合があると言っても、 トップページ以外へのリンクが勧められていない場合は、 検出対象に関わらず、リンクは常にトップページへと張られます。 また、トップページがフレームを使用していて、 更新検出対象としてフレーム内のページを指定している場合なども、 混乱を避けるために、リンクはトップページのURLへ張っています。
同様に、BBSなどについても、 頻繁に「書き込み」が行われる場合は、 更新とみなさないように設定する場合があります。
念のためお断りしておくと、 決して、日記やBBSの内容を軽視しているというわけではありません。
「AUDって何ですか?」の項目に書いた通り、 「いきつけ」のページが対象になっているという発想ですので、 タイトルやバナーを見れば、 それがどんなページかは「思い出せる」と仮定しています。 そういうわけで、対象ページを内容によって細かく分類したり、 紹介文を書いたりということを敢えてしていません。
とはいえ対象ページが多くなってきたり、 多くの方がAUDのページを閲覧してくださるようになってくると、 より細かい分類や紹介文なども必要なのかなあとも思ってきています。 もしリクエストやご意見などありましたら、 当方までお知らせ下さい。
これはどういうことかというと、 更新チェックのために対象ページを転送しようとした時に、 エラーが発生したりしたために、 「更新があった」とも「更新がなかった」とも 言えない状態が発生したということです。 現在の実装では、このようなときにrepeat countはそのままリセットされません。 ですから、次にエラーなく転送に成功し、しかも更新が発見されれば、 repeat countが増えた状態で載ることになります。
もともとrepeat countは、 アクセスカウンタなどに不必要に反応していないかどうかを 確認する目的で計測しています。 もしかするとエラーの場合はrepeat countをリセットするように 変更すべきなのかも知れませんが、 混んでいるなどでエラーの多いサイトのページに対して、 この確認機能が働かなくなるのも困ります。 そういうわけで、現状ではエラーの際もrepeat countはリセットされません。 ご了承下さい。
検出対象ページはほとんどHTMLによるテキストであり、 そうしたデータは多くの場合それほど大きくありませんから、 対象ページのあるサイトに大きな負荷をかけるなどということは無いと 作者は考えています。
なお、バナーが登録してあるページについては、 約10日間に1度程度の頻度で、 バナーとなっている画像ファイルを見に行くようにしてあります。 通常、バナーはデータ自体小さく作ることがほとんどだと思いますので、 定期的に取り出したとしても、 この程度の頻度ではほとんど負荷とはみなされないであろうと期待しています。 実際この程度の頻度であれば、 通常のブラウザによる参照の負荷と比べて、 極めて小さいと見なせると思っています。
なお、画像の縦横のサイズを調べるのは、 そのサイズをリストのIMGタグのWIDTH, HEIGHT属性に設定しておくためです。 これがないと、多くのブラウザでリストの表示が極端に遅くなってしまいますので。
AUDは主にHTMLページを取得して更新検出を行う部分と、 バナー画像を取得して大きさを記録する部分に分かれます。
前者については、HTTPのrequest headerの"Agent"として、 httpchkdiff/versionを用い、 後者ではhcdbanners/versionを用います。 versionの部分は、それぞれ適当なバージョン番号が入ります。 AUDプログラムのバージョンアップに従って、 これらのバージョン番号は変更される場合があります。
もしAUDによる検索を見分ける必要がある場合には、 上記の情報を使うことができます。 例えば、AUDによるアクセスをアクセスカウンタに含めないなどというような 使い方ができるかと思います。
しかし、AUDによる検索に対してのみ異なる情報を返すとか、 あるいは接続を拒否するなどというような設定を行うのでしたら、 どうかその前に 当方までご連絡ください。 (Agentを見て拒否するくらいでしたら、登録削除しますので。)
なお、AUDはいわゆる「ロボット」ではありませんので、 robot.txtは読みません。
主な変更点は次のようなものです。
[AUD Top Page] [金龍-R Top Page]