[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:553] 代理投稿 Re:既存画像PDFからのOCRテキスト抽出を大量に一括で
- Date: Fri, 06 Jun 2008 11:13:55 +0900
京都大学大西さんから。
>大西さま、
ありがとうございます。
すみません、SPAM対策で登録外アドレスからのメールをはじくように
してますので、個人アドレスでsubscribeしてもらえますか。
―――――――――――――――――――――――――――――――――
北海道大学 杉田様
京都大学の大西と申します。
ご参考になるかどうかわかりませんが、京大でDspace登録前に
OCRのかかっていな画像PDFにAcrobatを使用して透明テキスト付
PDFを作成するときは下記のようにしています。
Acrobat Proffessional 8の標準機能で一括処理
メニューバーの「アドバンスト」
→「文書処理」
→「バッチ処理」
→「シーケンスの名の入力」
→「コマンドの選択」
→「OCRを使用してテキストとして認識」
→「編集」(必要に応じて言語・出力形式などを選択、英語onlyのものは自動ではなく英語を選択したほうが認
識率は高くなりました)
→「OK」
→「出力オプション」(上書き保存・別名保存の選択)
→「バッチシーケンス」で作成したバッチ処理を選択
→「シーケンスを実行」
→「処理するファイルを選択」
→指定フォルダ内のPDFを選択
→一括処理(傾き補正もしてくれるようです)
ただ、上記の作業で問題があったのは、WindowsのGUI
画面上からは同じフォルダ内のPDFしか一括で選択でき
ないため、PDFが複数のフォルダにわかれて存在している
場合は、一箇所にまとめて一括処理していました。
sambaを使えれば、Windows画面から上記の機能で一括処理
できるかもしれませんが、この場合も杉田様のご指摘の
>> >> ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
>> >> れているassetstoreの中のPDFファイルをPDFファイルと見分ける
>> >> となると、メタデータも参照しながら処理が実行されるような作
>> >> りこみが必要?
の点と階層が細かくわかれてPDFが配置されている場合に
難あり、かもしれません。
SUGITA Shigeki wrote:
> > 北大 杉田です。
> >
> > アドバイスください。
> >
> > 紙資料をスキャンするとき、OCRをかけず、画像オンリーのPDFにし
> > ています。これを、あとからテキスト抽出して、そのPDFファイルに
> > 格納することを大量にバッチ的にできるものでしょうか。
> >
> > 1点1点Acrobatに読み込んで、「文書」メニューから、「OCRを使用
> > してテキストとして認識」というのはやったことがあります。
> > それを、20000のPDFファイルに対してだーっとできたらいいなと考
> > えているのですが。誤認識は不問にするとして。
> >
> > #ちなみに、同じような需要ってありますか?
> >
> >
> >
> > (以下はちょっと細かい話)
> >
> > ・相手はDSpaceのassetstore配下を再帰的に全部。Windowsツールで
> > あればsambaなりでつないで。
> > ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
> > れているassetstoreの中のPDFファイルをPDFファイルと見分ける
> > となると、メタデータも参照しながら処理が実行されるような作
> > りこみが必要?
> > ・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
> > ト記録などにも反映する必要がありそうですね。うーむ。
> >
--
大西 賢人 (Masato ONISHI)
京都大学附属図書館 情報管理課 電子情報掛
〒606-8501 京都市左京区吉田本町
Tel: 075-753-2618 Fax: 075-753-2629
E-mail: onishi @ xxxxxxxxxxxxxxxxxxx
--
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館情報システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp