[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1042] OCRソフトを使用したデジタル化に関する調査報告です(Re: [drf:1035] )



北海道大学附属図書館
    野中さま

DRFの皆さま

関東学院大学の外崎です。

北海道大学で提供される方法と同じようなサービスを本学でも検討中
です。今後の画像PDFの登録において、OCRソフトを利用した透明テキ
スト付与を行い、全文検索の可能なコンテンツを増やすことでDBの品
質向上をめざします。

平成20年度CSI委託事業の中で、機関リポジトリ登録論文のデジタル化
に関して、市販のOCR ソフトにて作成した透明テキストデータの比較
検討を行いました。調査結果をリポジトリに登録しましたので興味を
お持ちの方は参考にしてください。OPACからでもリポジトリからでも
ご覧いただけます。

http://opac.kanto-gakuin.ac.jp/cgi-bin/retrieve/sr_bookview.cgi/U_CHARSET.EUC-JP/NI90000004/Body/OCR-Report.pdf

解像度を変えてPDFを作成し、OCRソフトを用いてテキスト化した時の
精度やファイルサイズを比較調査しております。

結果として本学においては調査結果を踏まえて「デジタル化において
400dpiでPDF 化し、Adobe Acrobat 8 Professional にてOCR処理する
方法を標準とする」という指針を提示します。

サーバ上で動作するOCRツールで安価で優秀なものが見当たりません。
本学もパソコン側でOCR化処理を行う方向で考えています。

以上、ご報告です。
                           20090427

On Thu, 16 Apr 2009 16:46:08 +0900
js @ xxxxxxxxxxxxxxxxx wrote:

> 
> DRFのみなさま
> 
> 北海道大学附属図書館 野中です。
> 
> 既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツー
> ルを平成20年度のCSI委託事業中で開発しましたのでお知らせいたします。
> (ただし繰り返しますがDspace専用です。)
> 
> このツールは以前本MLで本学杉田係長の
>   [drf:549] 既存画像PDFからのOCRテ キスト抽出を大量に一括で
>  http://drf.lib.hokudai.ac.jp/drfml/msg00543.html
> をきっかけとしています。この際にご助言いただいたたくさんの方ありがとう
> ございました。(と杉田係長も申しております。)
> 
>   *現状では機関リポジトリ搭載文献へのアクセスのほとんどは「googleを代
>     表とするサーチエンジン経由」という結果が出ています。
>     *例えば
>       佐藤翔. "誰が、何を読んでいるのか:アクセスログに基づく機関リポ
>       ジトリの利用実態". SPARC-Japanセミナー2008 「日本における最適な
>       オープンアクセスとは何か?」. 東京, 2008-10-14, SPARC-Japan, 
>       2008
>    http://www.nii.ac.jp/sparc/event/2008/20081014.html
> 
>     このような状況を踏まえ,PDFにOCR処理されていることは可視性に影響が
>     あるだろうということから開発しました。(北大HUSCAPでは約28,000アイ
>     テムのうち,20,000アイテム程度が画像PDFであることもあり)
> 
>     *ただしアクセス元のほとんどを占めるgoogleは以前NIIの杉田さんから
>       の情報のとおり画像PDFでもクロールしてくれるとのことですが…。  
>       
>         [drf:736] Google、スキャン文書も検索対象 に
>     http://drf.lib.hokudai.ac.jp/drfml/msg00730.html
> 
> 
> 詳しい内容,導入方法等についてはDRFページ内の下記ページをご参照くださ
> い。(ページ内の「OCR処理支援ツール」)
> http://drf.lib.hokudai.ac.jp/drf/index.php?RepositorySoftwares
> 
> ご興味のあるDspace使用機関にもご活用いただければ幸いです。
> 
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> 北海道大学附属図書館学術システム課
> システム管理担当
> 
> Mail
>    nonaka @ xxxxxxxxxxxxxxxxx
> TEL
>    011-706-4025
>                野中雄司
>  
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

---
KGU Library<library @ xxxxxxxxxxxxxxxxxx>
045-786-7024
http://library.kanto-gakuin.ac.jp
http://opac.kanto-gakuin.ac.jp