[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1035] 既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツール



DRFのみなさま

北海道大学附属図書館 野中です。

既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツー
ルを平成20年度のCSI委託事業中で開発しましたのでお知らせいたします。
(ただし繰り返しますがDspace専用です。)

このツールは以前本MLで本学杉田係長の
  [drf:549] 既存画像PDFからのOCRテ キスト抽出を大量に一括で
 http://drf.lib.hokudai.ac.jp/drfml/msg00543.html
をきっかけとしています。この際にご助言いただいたたくさんの方ありがとう
ございました。(と杉田係長も申しております。)

  *現状では機関リポジトリ搭載文献へのアクセスのほとんどは「googleを代
    表とするサーチエンジン経由」という結果が出ています。
    *例えば
      佐藤翔. "誰が、何を読んでいるのか:アクセスログに基づく機関リポ
      ジトリの利用実態". SPARC-Japanセミナー2008 「日本における最適な
      オープンアクセスとは何か?」. 東京, 2008-10-14, SPARC-Japan, 
      2008
   http://www.nii.ac.jp/sparc/event/2008/20081014.html

    このような状況を踏まえ,PDFにOCR処理されていることは可視性に影響が
    あるだろうということから開発しました。(北大HUSCAPでは約28,000アイ
    テムのうち,20,000アイテム程度が画像PDFであることもあり)

    *ただしアクセス元のほとんどを占めるgoogleは以前NIIの杉田さんから
      の情報のとおり画像PDFでもクロールしてくれるとのことですが…。  
      
        [drf:736] Google、スキャン文書も検索対象 に
    http://drf.lib.hokudai.ac.jp/drfml/msg00730.html


詳しい内容,導入方法等についてはDRFページ内の下記ページをご参照くださ
い。(ページ内の「OCR処理支援ツール」)
http://drf.lib.hokudai.ac.jp/drf/index.php?RepositorySoftwares

ご興味のあるDspace使用機関にもご活用いただければ幸いです。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
北海道大学附属図書館学術システム課
システム管理担当

Mail
   nonaka @ xxxxxxxxxxxxxxxxx
TEL
   011-706-4025
               野中雄司
 
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~