[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:1581] Re: 国立国会図書館によるインターネット資料の収集について
- Date: Wed, 10 Feb 2010 16:03:44 +0900
- Importance: Normal
北山@鹿大です。
三角さん、
> 例えばGoogleで
> ”複数でワイワイと学習できるスペース”
> で、検索すると、ぼくがうちのリポジトリにアップロードしたPDFファイルが
> ヒットします。
確かに、検索は掛けてくれてますよね。
ただ、ヒットはしますが、これって、PDFファイルそのものを取っているというよりも、PDFファイル
への直リンクの記述を取得してるだけようにも見えますが、知らない間にフルテキストも持って行
かれてるんでしょうか?
#Googleだったら何でも出来てしまいそうではありますが。
NDLの自動収集=>フルテキストそのものを取得して、NDLのサーバにコピーを置く。
Googleさん=>よくわからんけど、少なくとも全文ファイルへのリンクは表示している。
と言う事で、微妙に違うものなのかと思っていました。
例のNDLの文書が、よそへ行ってしまって手元にないので、その辺りの確認はしてませんし、
NDLのロボットの仕様も私にはよく判りません。
土屋先生、
> データベース(=NDL的にはdeep web)の態を成していないので、自動収集できる
> はずです(Googleがフルテキストをもっていっているのでは?)。
1.Googleには出来るが、NDLには出来ない。
2.出来る事は出来るけど、精度が低いため網羅できない=技術的に困難、と表現している。
・・・・のどちらかではなかろうかと思ってました。
ロボットというのは確か、起点となるサイトからリンクを辿っていって、順次走っていくものであり、
その動作だけでは、リポジトリの中のコンテンツをどの程度の精度・深度で持っていけているか、
Googleを検索した結果だけからはよく判りません。
NDLも、ロボット走らせてみてから「リポジトリからは採らないつもりだったけど、採れちゃいました」
っていうケースは、ありそうな気がします。ロボットを走らせないリンク先、というものを明示して走査
出来るのなら話は別ですが。
ただ、仮に「うっかり」採れてしまった場合でも、法律的には問題はないわけですよね。
--
北山信一(iria @ xxxxxxxxxxxxxxxxxxxxx)
_/_//_//_//_//_//_//_//_//_/_//__//__//
鹿児島大学学術情報部
情報企画管理課情報システム管理係
TEL:099-285-7406 or 099-285-7171
FAX:099-285-7413
http://www.lib.kagoshima-u.ac.jp/
http://ir.kagoshima-u.ac.jp/
/_//_//_//_//_//_//_//_//__//__//__//
─―────────────────────────────
↓↓DRFイベント続々開催!詳細&参加申込はWebで↓↓
http://drf.lib.hokudai.ac.jp
◆DRF-KanNihonkai 2月17、18日@金大
◆DRF-Tosa 2月19日@高知工科大
―─────────────────────────────
DRF mailing list
DRF @ xxxxxxxxxxxxxxxx
https://ml.hines.hokudai.ac.jp/mailman/listinfo/drf