[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:558] Re: 既存画像PDFからのOCRテキスト抽出を大量に一括で
- Date: Fri, 06 Jun 2008 12:55:39 +0900
堀越さま、山本さま、寸田さま、みなさま、
とすると、
(1) 山本さんの方法で対象assetを特定する。
(2) 寸田さんの方法でexportする。
(3a)前出ツールでWindows上でどかっとテキスト埋め込みPDFにする。
(3b)Linuxコマンドラインでテキスト埋め込みできるツールがあれば
それで順次テキスト埋め込みPDFにする。
(4) 寸田さんの方法でimportする。これなら堀越さんの教えてくれ
たmd5まわりの懸案も解消。
という一連処理のシェルスクリプトを作って流せば、とくに(3b)が
可能なら一発ですね。
>技術屋さま各位
CSI報告交流会のポスターセッションの時間に実装しましょう。
北大ポスター付近にPC持って集まってください。
--
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館情報システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp