[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1581] Re: 国立国会図書館によるインターネット資料の収集について



北山@鹿大です。


三角さん、

> 例えばGoogleで
> ”複数でワイワイと学習できるスペース”
> で、検索すると、ぼくがうちのリポジトリにアップロードしたPDFファイルが
> ヒットします。

確かに、検索は掛けてくれてますよね。

ただ、ヒットはしますが、これって、PDFファイルそのものを取っているというよりも、PDFファイル
への直リンクの記述を取得してるだけようにも見えますが、知らない間にフルテキストも持って行
かれてるんでしょうか?
 #Googleだったら何でも出来てしまいそうではありますが。



NDLの自動収集=>フルテキストそのものを取得して、NDLのサーバにコピーを置く。
Googleさん=>よくわからんけど、少なくとも全文ファイルへのリンクは表示している。

と言う事で、微妙に違うものなのかと思っていました。
例のNDLの文書が、よそへ行ってしまって手元にないので、その辺りの確認はしてませんし、
NDLのロボットの仕様も私にはよく判りません。




土屋先生、

> データベース(=NDL的にはdeep web)の態を成していないので、自動収集できる

> はずです(Googleがフルテキストをもっていっているのでは?)。



1.Googleには出来るが、NDLには出来ない。

2.出来る事は出来るけど、精度が低いため網羅できない=技術的に困難、と表現している。



・・・・のどちらかではなかろうかと思ってました。



ロボットというのは確か、起点となるサイトからリンクを辿っていって、順次走っていくものであり、

その動作だけでは、リポジトリの中のコンテンツをどの程度の精度・深度で持っていけているか、

Googleを検索した結果だけからはよく判りません。






NDLも、ロボット走らせてみてから「リポジトリからは採らないつもりだったけど、採れちゃいました」

っていうケースは、ありそうな気がします。ロボットを走らせないリンク先、というものを明示して走査

出来るのなら話は別ですが。



ただ、仮に「うっかり」採れてしまった場合でも、法律的には問題はないわけですよね。



--
北山信一(iria @ xxxxxxxxxxxxxxxxxxxxx)
_/_//_//_//_//_//_//_//_//_/_//__//__//
鹿児島大学学術情報部
情報企画管理課情報システム管理係
TEL:099-285-7406 or 099-285-7171
FAX:099-285-7413
http://www.lib.kagoshima-u.ac.jp/
http://ir.kagoshima-u.ac.jp/
/_//_//_//_//_//_//_//_//__//__//__//
 		 	   		  
─―────────────────────────────
   ↓↓DRFイベント続々開催!詳細&参加申込はWebで↓↓
        http://drf.lib.hokudai.ac.jp
  ◆DRF-KanNihonkai 2月17、18日@金大
  ◆DRF-Tosa 2月19日@高知工科大
―─────────────────────────────
DRF mailing list
DRF @ xxxxxxxxxxxxxxxx
https://ml.hines.hokudai.ac.jp/mailman/listinfo/drf