[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:1035] 既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツール
- Date: Thu, 16 Apr 2009 16:46:08 +0900
DRFのみなさま
北海道大学附属図書館 野中です。
既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツー
ルを平成20年度のCSI委託事業中で開発しましたのでお知らせいたします。
(ただし繰り返しますがDspace専用です。)
このツールは以前本MLで本学杉田係長の
[drf:549] 既存画像PDFからのOCRテ キスト抽出を大量に一括で
http://drf.lib.hokudai.ac.jp/drfml/msg00543.html
をきっかけとしています。この際にご助言いただいたたくさんの方ありがとう
ございました。(と杉田係長も申しております。)
*現状では機関リポジトリ搭載文献へのアクセスのほとんどは「googleを代
表とするサーチエンジン経由」という結果が出ています。
*例えば
佐藤翔. "誰が、何を読んでいるのか:アクセスログに基づく機関リポ
ジトリの利用実態". SPARC-Japanセミナー2008 「日本における最適な
オープンアクセスとは何か?」. 東京, 2008-10-14, SPARC-Japan,
2008
http://www.nii.ac.jp/sparc/event/2008/20081014.html
このような状況を踏まえ,PDFにOCR処理されていることは可視性に影響が
あるだろうということから開発しました。(北大HUSCAPでは約28,000アイ
テムのうち,20,000アイテム程度が画像PDFであることもあり)
*ただしアクセス元のほとんどを占めるgoogleは以前NIIの杉田さんから
の情報のとおり画像PDFでもクロールしてくれるとのことですが…。
[drf:736] Google、スキャン文書も検索対象 に
http://drf.lib.hokudai.ac.jp/drfml/msg00730.html
詳しい内容,導入方法等についてはDRFページ内の下記ページをご参照くださ
い。(ページ内の「OCR処理支援ツール」)
http://drf.lib.hokudai.ac.jp/drf/index.php?RepositorySoftwares
ご興味のあるDspace使用機関にもご活用いただければ幸いです。
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
北海道大学附属図書館学術システム課
システム管理担当
Mail
nonaka @ xxxxxxxxxxxxxxxxx
TEL
011-706-4025
野中雄司
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~