[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:549] 既存画像PDFからのOCRテキスト抽出を大量に一括で
- Date: Fri, 06 Jun 2008 10:36:41 +0900
北大 杉田です。
アドバイスください。
紙資料をスキャンするとき、OCRをかけず、画像オンリーのPDFにし
ています。これを、あとからテキスト抽出して、そのPDFファイルに
格納することを大量にバッチ的にできるものでしょうか。
1点1点Acrobatに読み込んで、「文書」メニューから、「OCRを使用
してテキストとして認識」というのはやったことがあります。
それを、20000のPDFファイルに対してだーっとできたらいいなと考
えているのですが。誤認識は不問にするとして。
#ちなみに、同じような需要ってありますか?
(以下はちょっと細かい話)
・相手はDSpaceのassetstore配下を再帰的に全部。Windowsツールで
あればsambaなりでつないで。
・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
れているassetstoreの中のPDFファイルをPDFファイルと見分ける
となると、メタデータも参照しながら処理が実行されるような作
りこみが必要?
・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
ト記録などにも反映する必要がありそうですね。うーむ。
--
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館情報システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp