[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:552] Re: [drf:550] Re: [drf:549] 既存画像PDFからのOCRテキスト抽出を大量に一括で



加藤@北大図です。

追伸。
http://www.sourcenext.com/products/pdf_todata/
の下あたりにもそれらしい説明あります。

PDFファイルとして認識ってのは、とりあえず全ファイルどっかに
一時おいて全部問答無用で.pdfにリネームしてOCRかけて、失敗
したやつだけ一つずつ見ていけばよいのでは?
↓みたいに表示されるのかどうか知りませんけど。失敗した時点で
ソフトが止まったりして。:-p
 ファイルA:成功
 ファイルB:失敗
 ファイルC:成功
 ・・・


KATO Hiromichi さんは書きました:
> 加藤@北大図です。
> 
> http://okwave.jp/qa1347159.html
> これでよいですか?
> 一般的なOCRソフトなら複数選択はごく普通にできそうですが。
> 細かい話については分かりません。
> 
> SUGITA Shigeki さんは書きました:
>> 北大 杉田です。
>>
>> アドバイスください。
>>
>> 紙資料をスキャンするとき、OCRをかけず、画像オンリーのPDFにし
>> ています。これを、あとからテキスト抽出して、そのPDFファイルに
>> 格納することを大量にバッチ的にできるものでしょうか。
>>
>> 1点1点Acrobatに読み込んで、「文書」メニューから、「OCRを使用
>> してテキストとして認識」というのはやったことがあります。
>> それを、20000のPDFファイルに対してだーっとできたらいいなと考
>> えているのですが。誤認識は不問にするとして。
>>
>> #ちなみに、同じような需要ってありますか?
>>
>>
>>
>> (以下はちょっと細かい話)
>>
>> ・相手はDSpaceのassetstore配下を再帰的に全部。Windowsツールで
>>  あればsambaなりでつないで。
>> ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
>>  れているassetstoreの中のPDFファイルをPDFファイルと見分ける
>>  となると、メタデータも参照しながら処理が実行されるような作
>>  りこみが必要?
>> ・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
>>  ト記録などにも反映する必要がありそうですね。うーむ。
>>
> 

-- 
加藤 大博 :: KATO Hiromichi
mailto:katze @ xxxxxxxxxxxxxxxxx
北海道大学附属図書館 情報管理課 図書受入担当
TEL 011-706-4028 / FAX 011-706-4109