[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:558] Re: 既存画像PDFからのOCRテキスト抽出を大量に一括で



堀越さま、山本さま、寸田さま、みなさま、

とすると、

(1) 山本さんの方法で対象assetを特定する。

(2) 寸田さんの方法でexportする。

(3a)前出ツールでWindows上でどかっとテキスト埋め込みPDFにする。
(3b)Linuxコマンドラインでテキスト埋め込みできるツールがあれば
 それで順次テキスト埋め込みPDFにする。

(4) 寸田さんの方法でimportする。これなら堀越さんの教えてくれ
 たmd5まわりの懸案も解消。

という一連処理のシェルスクリプトを作って流せば、とくに(3b)が
可能なら一発ですね。

>技術屋さま各位
CSI報告交流会のポスターセッションの時間に実装しましょう。
北大ポスター付近にPC持って集まってください。

-- 
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館情報システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp