[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:550] Re: [drf:549] 既存画像PDFからのOCRテキスト抽出を大量に一括で
- Date: Fri, 06 Jun 2008 10:56:20 +0900
加藤@北大図です。
http://okwave.jp/qa1347159.html
これでよいですか?
一般的なOCRソフトなら複数選択はごく普通にできそうですが。
細かい話については分かりません。
SUGITA Shigeki さんは書きました:
> 北大 杉田です。
>
> アドバイスください。
>
> 紙資料をスキャンするとき、OCRをかけず、画像オンリーのPDFにし
> ています。これを、あとからテキスト抽出して、そのPDFファイルに
> 格納することを大量にバッチ的にできるものでしょうか。
>
> 1点1点Acrobatに読み込んで、「文書」メニューから、「OCRを使用
> してテキストとして認識」というのはやったことがあります。
> それを、20000のPDFファイルに対してだーっとできたらいいなと考
> えているのですが。誤認識は不問にするとして。
>
> #ちなみに、同じような需要ってありますか?
>
>
>
> (以下はちょっと細かい話)
>
> ・相手はDSpaceのassetstore配下を再帰的に全部。Windowsツールで
> あればsambaなりでつないで。
> ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
> れているassetstoreの中のPDFファイルをPDFファイルと見分ける
> となると、メタデータも参照しながら処理が実行されるような作
> りこみが必要?
> ・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
> ト記録などにも反映する必要がありそうですね。うーむ。
>
--
加藤 大博 :: KATO Hiromichi
mailto:katze @ xxxxxxxxxxxxxxxxx
北海道大学附属図書館 情報管理課 図書受入担当
TEL 011-706-4028 / FAX 011-706-4109