[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:549] 既存画像PDFからのOCRテキスト抽出を大量に一括で



北大 杉田です。

アドバイスください。

紙資料をスキャンするとき、OCRをかけず、画像オンリーのPDFにし
ています。これを、あとからテキスト抽出して、そのPDFファイルに
格納することを大量にバッチ的にできるものでしょうか。

1点1点Acrobatに読み込んで、「文書」メニューから、「OCRを使用
してテキストとして認識」というのはやったことがあります。
それを、20000のPDFファイルに対してだーっとできたらいいなと考
えているのですが。誤認識は不問にするとして。

#ちなみに、同じような需要ってありますか?



(以下はちょっと細かい話)

・相手はDSpaceのassetstore配下を再帰的に全部。Windowsツールで
 あればsambaなりでつないで。
・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
 れているassetstoreの中のPDFファイルをPDFファイルと見分ける
 となると、メタデータも参照しながら処理が実行されるような作
 りこみが必要?
・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
 ト記録などにも反映する必要がありそうですね。うーむ。

-- 
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館情報システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp