[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1084] Re: 既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツール



お茶大さま、みなさま、

北大 杉田です。

インストール日記を拝見しました。
お使いいただいたようでありがとうございます!
一部注意点があるようですね、すみません。
DRFの同ツールの情報のところからリンクしていいですか?

js @ xxxxxxxxxxxxxxxxx さんは書きました:
> DRFのみなさま
> 
> 北海道大学附属図書館 野中です。
> 
> 既にDspaceに登録されているOCR未処理のPDFにOCRを追加するための補助ツー
> ルを平成20年度のCSI委託事業中で開発しましたのでお知らせいたします。
> (ただし繰り返しますがDspace専用です。)
> 
> このツールは以前本MLで本学杉田係長の
>   [drf:549] 既存画像PDFからのOCRテ キスト抽出を大量に一括で
>  http://drf.lib.hokudai.ac.jp/drfml/msg00543.html
> をきっかけとしています。この際にご助言いただいたたくさんの方ありがとう
> ございました。(と杉田係長も申しております。)
> 
>   *現状では機関リポジトリ搭載文献へのアクセスのほとんどは「googleを代
>     表とするサーチエンジン経由」という結果が出ています。
>     *例えば
>       佐藤翔. "誰が、何を読んでいるのか:アクセスログに基づく機関リポ
>       ジトリの利用実態". SPARC-Japanセミナー2008 「日本における最適な
>       オープンアクセスとは何か?」. 東京, 2008-10-14, SPARC-Japan, 
>       2008
>    http://www.nii.ac.jp/sparc/event/2008/20081014.html
> 
>     このような状況を踏まえ,PDFにOCR処理されていることは可視性に影響が
>     あるだろうということから開発しました。(北大HUSCAPでは約28,000アイ
>     テムのうち,20,000アイテム程度が画像PDFであることもあり)
> 
>     *ただしアクセス元のほとんどを占めるgoogleは以前NIIの杉田さんから
>       の情報のとおり画像PDFでもクロールしてくれるとのことですが…。  
>       
>         [drf:736] Google、スキャン文書も検索対象 に
>     http://drf.lib.hokudai.ac.jp/drfml/msg00730.html
> 
> 
> 詳しい内容,導入方法等についてはDRFページ内の下記ページをご参照くださ
> い。(ページ内の「OCR処理支援ツール」)
> http://drf.lib.hokudai.ac.jp/drf/index.php?RepositorySoftwares
> 
> ご興味のあるDspace使用機関にもご活用いただければ幸いです。
> 
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> 北海道大学附属図書館学術システム課
> システム管理担当
> 
> Mail
>    nonaka @ xxxxxxxxxxxxxxxxx
> TEL
>    011-706-4025
>                野中雄司
>  
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> 


-- 
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館学術システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp