[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:555] Re: 既存画像PDFからのOCRテキスト抽出を大量に一括で
- Date: Fri, 06 Jun 2008 11:22:50 +0900
みなさま、
ご助言ありがとうございます。
いろいろツールがあるのですね!
(北大加藤さん)
・http://okwave.jp/qa1347159.html
富士ゼロックスの「DocuWorks」など
・http://www.sourcenext.com/products/pdf_todata/
「いきなりPDF to Data」
(山口大深川さん)
・HG/PscanServ
(指定のフォルダ内の指定形式(PDFも可)に対して,バッチ処理的にOCR処理)
(京都大大西さん)
・Acrobat Proffessional 8の標準機能で一括処理
DSpace投入前の段階でこういうのをかけておけばよかった。
これから投入する分についてはアドバイス頂いた各種方法を検討
したいと思います。
(スキャンをOCR込みで外注することも考えたことがありますが、
経費的には、手厚い手動補正を求めるのでなければ、スキャンし
たあとでこういうツールを確保してテキスト抽出するほうが安上
がりかもしれませんね)
SUGITA Shigeki さんは書きました:
> 北大 杉田です。
>
> アドバイスください。
>
> 紙資料をスキャンするとき、OCRをかけず、画像オンリーのPDFにし
> ています。これを、あとからテキスト抽出して、そのPDFファイルに
> 格納することを大量にバッチ的にできるものでしょうか。
>
> 1点1点Acrobatに読み込んで、「文書」メニューから、「OCRを使用
> してテキストとして認識」というのはやったことがあります。
> それを、20000のPDFファイルに対してだーっとできたらいいなと考
> えているのですが。誤認識は不問にするとして。
>
> #ちなみに、同じような需要ってありますか?
>
>
>
> (以下はちょっと細かい話)
>
> ・相手はDSpaceのassetstore配下を再帰的に全部。Windowsツールで
> あればsambaなりでつないで。
> ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
> れているassetstoreの中のPDFファイルをPDFファイルと見分ける
> となると、メタデータも参照しながら処理が実行されるような作
> りこみが必要?
> ・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
> ト記録などにも反映する必要がありそうですね。うーむ。
>
--
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館情報システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp