[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:552] Re: [drf:550] Re: [drf:549] 既存画像PDFからのOCRテキスト抽出を大量に一括で
- Date: Fri, 06 Jun 2008 11:08:04 +0900
加藤@北大図です。
追伸。
http://www.sourcenext.com/products/pdf_todata/
の下あたりにもそれらしい説明あります。
PDFファイルとして認識ってのは、とりあえず全ファイルどっかに
一時おいて全部問答無用で.pdfにリネームしてOCRかけて、失敗
したやつだけ一つずつ見ていけばよいのでは?
↓みたいに表示されるのかどうか知りませんけど。失敗した時点で
ソフトが止まったりして。:-p
ファイルA:成功
ファイルB:失敗
ファイルC:成功
・・・
KATO Hiromichi さんは書きました:
> 加藤@北大図です。
>
> http://okwave.jp/qa1347159.html
> これでよいですか?
> 一般的なOCRソフトなら複数選択はごく普通にできそうですが。
> 細かい話については分かりません。
>
> SUGITA Shigeki さんは書きました:
>> 北大 杉田です。
>>
>> アドバイスください。
>>
>> 紙資料をスキャンするとき、OCRをかけず、画像オンリーのPDFにし
>> ています。これを、あとからテキスト抽出して、そのPDFファイルに
>> 格納することを大量にバッチ的にできるものでしょうか。
>>
>> 1点1点Acrobatに読み込んで、「文書」メニューから、「OCRを使用
>> してテキストとして認識」というのはやったことがあります。
>> それを、20000のPDFファイルに対してだーっとできたらいいなと考
>> えているのですが。誤認識は不問にするとして。
>>
>> #ちなみに、同じような需要ってありますか?
>>
>>
>>
>> (以下はちょっと細かい話)
>>
>> ・相手はDSpaceのassetstore配下を再帰的に全部。Windowsツールで
>> あればsambaなりでつないで。
>> ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
>> れているassetstoreの中のPDFファイルをPDFファイルと見分ける
>> となると、メタデータも参照しながら処理が実行されるような作
>> りこみが必要?
>> ・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
>> ト記録などにも反映する必要がありそうですね。うーむ。
>>
>
--
加藤 大博 :: KATO Hiromichi
mailto:katze @ xxxxxxxxxxxxxxxxx
北海道大学附属図書館 情報管理課 図書受入担当
TEL 011-706-4028 / FAX 011-706-4109