[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:554] Re: [drf:549] 既存画像PDFからのOCRテキスト抽出を大量に一括で
- Date: Fri, 06 Jun 2008 11:17:39 +0900
室蘭工業大学 堀越です。
#北大から移動になりました。みなさまお久しぶりです。
#今後ともよろしくお願いいたします。
> ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
> れているassetstoreの中のPDFファイルをPDFファイルと見分ける
> となると、メタデータも参照しながら処理が実行されるような作
> りこみが必要?
メタデータというか,bitstreamテーブルを見て処理 もしくは
個々のファイルから識別,ですかね。
> ・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
> ト記録などにも反映する必要がありそうですね。うーむ。
>
DSpace1.4.x だと,ファイルサイズはメタデータではなくbitstreamテーブル内に
格納されていて,そっちを見ているはずです。
あと,md5もかわるでしょうから,bitstream.checksumも再計算して格納しなおす
必要があるでしょうね。
--
堀越 邦恵
室蘭工業大学附属図書館学術情報係
TEL:0143-46-5191 FAX:0143-46-5196
e-mail:horikosi @ xxxxxxxxxxxxxxxxxxxx