[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:554] Re: [drf:549] 既存画像PDFからのOCRテキスト抽出を大量に一括で



室蘭工業大学 堀越です。
#北大から移動になりました。みなさまお久しぶりです。
#今後ともよろしくお願いいたします。

> ・ただ、シーケンシャルな無意味ファイル名でコンテンツが格納さ
>  れているassetstoreの中のPDFファイルをPDFファイルと見分ける
>  となると、メタデータも参照しながら処理が実行されるような作
>  りこみが必要?

メタデータというか,bitstreamテーブルを見て処理 もしくは
個々のファイルから識別,ですかね。

> ・サイズが変わるでしょうからメタデータ側のファイルフォーマッ
>  ト記録などにも反映する必要がありそうですね。うーむ。
> 

DSpace1.4.x だと,ファイルサイズはメタデータではなくbitstreamテーブル内に
格納されていて,そっちを見ているはずです。
あと,md5もかわるでしょうから,bitstream.checksumも再計算して格納しなおす
必要があるでしょうね。
-- 
堀越 邦恵
 室蘭工業大学附属図書館学術情報係
 TEL:0143-46-5191 FAX:0143-46-5196
 e-mail:horikosi @ xxxxxxxxxxxxxxxxxxxx