[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1582] Re: 国立国会図書館によるインターネット資料の収集について



鹿児島大学 北山さま

三角@山形大です。

>三角さん、
>> 例えばGoogleで
>> ”複数でワイワイと学習できるスペース”
>> で、検索すると、ぼくがうちのリポジトリにアップロードしたPDFファイルが
>> ヒットします。
>確かに、検索は掛けてくれてますよね。
>ただ、ヒットはしますが、これって、PDFファイルそのものを取っているというよりも、PDFファイル
>への直リンクの記述を取得してるだけようにも見えますが、知らない間にフルテキストも持って行
>かれてるんでしょうか?
> #Googleだったら何でも出来てしまいそうではありますが。

原理的に考えて、PDFファイルの中身まで全文検索させるためには、一度はPDFファイルを
Google側のマシーンのメモリ上で「開いて」るだろうし、索引付けしたあとでPDFファイルを
ディスクに保存しているか破棄しているかは知らないけれど、保存することは簡単でしょう。

>NDLの自動収集=>フルテキストそのものを取得して、NDLのサーバにコピーを置く。
>Googleさん=>よくわからんけど、少なくとも全文ファイルへのリンクは表示している。
>と言う事で、微妙に違うものなのかと思っていました。

いやぁ〜スタートポイントの設定の仕方は違うにしても、技術的にはファイルにたどり着く
ところまでは大して変わらないんじゃないでしょうか?HTMLだろうがPDFだろうが一度は
マシーン上で開いて、そのあとの処理はURLのリンクを探し出して辿るとか、索引付する
とか違うでしょうけど。


>2.出来る事は出来るけど、精度が低いため網羅できない=技術的に困難、と表現している。

これはデータベースの一般論で言えば、技術的に困難だろうと思います。
しかしDspaceについては結構簡単にできちゃうと思います。データをどう言う風に見せてる
かによるんでしょうが、コミュニティからコレクションまでを階層的に表示して
(学部>学科>雑誌論文とか)検索しないでも順番にリンクを辿っていけば網羅的に
コンテンツにたどりつけるようになってませんか?鹿児島大学さまのリポジトリもそう
なっているようですが、そう言う見せ方をしていればクローラーはリンクを辿って
いけば網羅的にコンテンツを収集できてしまうと思います。


>ただ、仮に「うっかり」採れてしまった場合でも、法律的には問題はないわけですよね。

そりゃないでしょう。そんな事言ったらオープンアクセスじゃなくなってしまう(笑)。
# それを公開するとなると話は別ですが。

 ━━━━━━━━━━━━━━━━━━
┃ 三 角 太 郎(Misumi Taro)                        
┃ misumi @ xxxxxxxxxxxxxxxxxxxxxx    
┃──────────────────  
┃ 山形大学 小白川図書館     
┃──────────────────
┃Tel:023(628)4914 Fax:023(628)4915 
┃ http://www.lib.yamagata-u.ac.jp/  

 
─―────────────────────────────
   ↓↓DRFイベント続々開催!詳細&参加申込はWebで↓↓
        http://drf.lib.hokudai.ac.jp
  ◆DRF-KanNihonkai 2月17、18日@金大
  ◆DRF-Tosa 2月19日@高知工科大
―─────────────────────────────
DRF mailing list
DRF @ xxxxxxxxxxxxxxxx
https://ml.hines.hokudai.ac.jp/mailman/listinfo/drf