[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:1084] Re: 既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツール
- Date: Thu, 21 May 2009 10:01:17 +0900
お茶大さま、みなさま、
北大 杉田です。
インストール日記を拝見しました。
お使いいただいたようでありがとうございます!
一部注意点があるようですね、すみません。
DRFの同ツールの情報のところからリンクしていいですか?
js @ xxxxxxxxxxxxxxxxx さんは書きました:
> DRFのみなさま
>
> 北海道大学附属図書館 野中です。
>
> 既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツー
> ルを平成20年度のCSI委託事業中で開発しましたのでお知らせいたします。
> (ただし繰り返しますがDspace専用です。)
>
> このツールは以前本MLで本学杉田係長の
> [drf:549] 既存画像PDFからのOCRテ キスト抽出を大量に一括で
> http://drf.lib.hokudai.ac.jp/drfml/msg00543.html
> をきっかけとしています。この際にご助言いただいたたくさんの方ありがとう
> ございました。(と杉田係長も申しております。)
>
> *現状では機関リポジトリ搭載文献へのアクセスのほとんどは「googleを代
> 表とするサーチエンジン経由」という結果が出ています。
> *例えば
> 佐藤翔. "誰が、何を読んでいるのか:アクセスログに基づく機関リポ
> ジトリの利用実態". SPARC-Japanセミナー2008 「日本における最適な
> オープンアクセスとは何か?」. 東京, 2008-10-14, SPARC-Japan,
> 2008
> http://www.nii.ac.jp/sparc/event/2008/20081014.html
>
> このような状況を踏まえ,PDFにOCR処理されていることは可視性に影響が
> あるだろうということから開発しました。(北大HUSCAPでは約28,000アイ
> テムのうち,20,000アイテム程度が画像PDFであることもあり)
>
> *ただしアクセス元のほとんどを占めるgoogleは以前NIIの杉田さんから
> の情報のとおり画像PDFでもクロールしてくれるとのことですが…。
>
> [drf:736] Google、スキャン文書も検索対象 に
> http://drf.lib.hokudai.ac.jp/drfml/msg00730.html
>
>
> 詳しい内容,導入方法等についてはDRFページ内の下記ページをご参照くださ
> い。(ページ内の「OCR処理支援ツール」)
> http://drf.lib.hokudai.ac.jp/drf/index.php?RepositorySoftwares
>
> ご興味のあるDspace使用機関にもご活用いただければ幸いです。
>
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> 北海道大学附属図書館学術システム課
> システム管理担当
>
> Mail
> nonaka @ xxxxxxxxxxxxxxxxx
> TEL
> 011-706-4025
> 野中雄司
>
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
>
--
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館学術システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp