[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:1582] Re: 国立国会図書館によるインターネット資料の収集について
- Date: Wed, 10 Feb 2010 17:22:28 +0900
鹿児島大学 北山さま
三角@山形大です。
>三角さん、
>> 例えばGoogleで
>> ”複数でワイワイと学習できるスペース”
>> で、検索すると、ぼくがうちのリポジトリにアップロードしたPDFファイルが
>> ヒットします。
>確かに、検索は掛けてくれてますよね。
>ただ、ヒットはしますが、これって、PDFファイルそのものを取っているというよりも、PDFファイル
>への直リンクの記述を取得してるだけようにも見えますが、知らない間にフルテキストも持って行
>かれてるんでしょうか?
> #Googleだったら何でも出来てしまいそうではありますが。
原理的に考えて、PDFファイルの中身まで全文検索させるためには、一度はPDFファイルを
Google側のマシーンのメモリ上で「開いて」るだろうし、索引付けしたあとでPDFファイルを
ディスクに保存しているか破棄しているかは知らないけれど、保存することは簡単でしょう。
>NDLの自動収集=>フルテキストそのものを取得して、NDLのサーバにコピーを置く。
>Googleさん=>よくわからんけど、少なくとも全文ファイルへのリンクは表示している。
>と言う事で、微妙に違うものなのかと思っていました。
いやぁ〜スタートポイントの設定の仕方は違うにしても、技術的にはファイルにたどり着く
ところまでは大して変わらないんじゃないでしょうか?HTMLだろうがPDFだろうが一度は
マシーン上で開いて、そのあとの処理はURLのリンクを探し出して辿るとか、索引付する
とか違うでしょうけど。
>2.出来る事は出来るけど、精度が低いため網羅できない=技術的に困難、と表現している。
これはデータベースの一般論で言えば、技術的に困難だろうと思います。
しかしDspaceについては結構簡単にできちゃうと思います。データをどう言う風に見せてる
かによるんでしょうが、コミュニティからコレクションまでを階層的に表示して
(学部>学科>雑誌論文とか)検索しないでも順番にリンクを辿っていけば網羅的に
コンテンツにたどりつけるようになってませんか?鹿児島大学さまのリポジトリもそう
なっているようですが、そう言う見せ方をしていればクローラーはリンクを辿って
いけば網羅的にコンテンツを収集できてしまうと思います。
>ただ、仮に「うっかり」採れてしまった場合でも、法律的には問題はないわけですよね。
そりゃないでしょう。そんな事言ったらオープンアクセスじゃなくなってしまう(笑)。
# それを公開するとなると話は別ですが。
━━━━━━━━━━━━━━━━━━
┃ 三 角 太 郎(Misumi Taro)
┃ misumi @ xxxxxxxxxxxxxxxxxxxxxx
┃──────────────────
┃ 山形大学 小白川図書館
┃──────────────────
┃Tel:023(628)4914 Fax:023(628)4915
┃ http://www.lib.yamagata-u.ac.jp/
─―────────────────────────────
↓↓DRFイベント続々開催!詳細&参加申込はWebで↓↓
http://drf.lib.hokudai.ac.jp
◆DRF-KanNihonkai 2月17、18日@金大
◆DRF-Tosa 2月19日@高知工科大
―─────────────────────────────
DRF mailing list
DRF @ xxxxxxxxxxxxxxxx
https://ml.hines.hokudai.ac.jp/mailman/listinfo/drf