[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:550] Re: [drf:549] 既存画像PDFからのOCRテキスト抽出を大量に一括で



加藤@北大図です。

http://okwave.jp/qa1347159.html
これでよいですか?
一般的なOCRソフトなら複数選択はごく普通にできそうですが。
細かい話については分かりません。

SUGITA Shigeki さんは書きました:
> 北大 杉田です。
> 
> アドバイスください。
> 
> 紙資料をスキャンするとき、OCRをかけず、画像オンリーのPDFにし
> ています。これを、あとからテキスト抽出して、そのPDFファイルに
> 格納することを大量にバッチ的にできるものでしょうか。
> 
> 1点1点Acrobatに読み込んで、「文書」メニューから、「OCRを使用
> してテキストとして認識」というのはやったことがあります。
> それを、20000のPDFファイルに対してだーっとできたらいいなと考
> えているのですが。誤認識は不問にするとして。
> 
> #ちなみに、同じような需要ってありますか?
> 
> 
> 
> (以下はちょっと細かい話)
> 
> ・相手はDSpaceのassetstore配下を再帰的に全部。Windowsツールで
>  あればsambaなりでつないで。
> ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
>  れているassetstoreの中のPDFファイルをPDFファイルと見分ける
>  となると、メタデータも参照しながら処理が実行されるような作
>  りこみが必要?
> ・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
>  ト記録などにも反映する必要がありそうですね。うーむ。
> 

-- 
加藤 大博 :: KATO Hiromichi
mailto:katze @ xxxxxxxxxxxxxxxxx
北海道大学附属図書館 情報管理課 図書受入担当
TEL 011-706-4028 / FAX 011-706-4109