[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:573] Re: [drf:555] Re: 既存画像PDFからのOCRテキスト抽出を大量に一括で



みなさま

こんにちは、林@農林水産研究情報センターです。

On Fri, 06 Jun 2008 11:22:50 +0900
SUGITA Shigeki <sugita @ xxxxxxxxxxxxxxxxx> wrote:

> (京都大大西さん)
>  ・Acrobat Proffessional 8の標準機能で一括処理

この機能で、3,848ファイル(3.04GB)のPDFファイルの変換を試してみました。
思っていたより時間がかかりました。

結果:
 - 変換に要した時間: 約76時間
 - 使用したマシン  : NEC MY20R/FE (Intel Core2 Duo E4400 2.00GHz, RAM2GB)
   (http://club.express.nec.co.jp/store/dtpc/mf.html の旧モデル。OSはXP。)
 - その他: 変換途中で、10時間以上経過時に時々Acrobat8が落ちる。
            合計で500MB前後を処理すると落ちやすくなるように見える。
            変換精度は良好。
            変換前後ではファイルサイズに数キロバイトの減少が生じる。

以上、ご参考になれば幸いです。


-----農林水産研究情報センター          林 賢紀
-----   tzhaya @ xxxxxxxxxxx           (Takanori Hayashi)
-----TEL 029-838-7316  FAX 029-838-7364