[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:498] Re: [drf:495] OCRをかけてスキャンすると起こる現象?



北大図書館・加藤と申します。


http://pac.mediadrive.jp/faq/index.php?action=artikel&cat=365&id=447&artlang=ja
これが該当する現象でしょうか。

で、一方、
http://pac.mediadrive.jp/faq/index.php?action=artikel&cat=365&id=1323&artlang=ja

となってます。以上2点のQ&Aから憶測すると、

論文読み込み→認識結果を内部的にPDF化
  →そのPDFを画像として読み込み+OCRによりテキスト抽出
   (→PDFを画像として読み込むので劣化画像が作られる)
   →その劣化画像とテキストを合わせて透明テキスト付PDF作成

要するに、
添付されていた「自館作成300dpi」を画像として読み込んで別途PDFを
作ると、同じ物ができるんじゃないでしょうか。
コピーをコピーすると劣化するのと一緒かな。

ということで、
>dpiに関わらず
という点は嘘だろうと思われますが(400dpiで多少改善すると書いてある)、
劣化するのは「仕様」のように思います。



谷口慶子 さんは書きました:
> 大阪教育大学附属図書館 谷口と申します。
> 
> おたずねしたいのですが、
> ”データをスキャンする際にOCRをかけて読み込むと文字がつぶれる”ということがあるのでしょうか。
> 
> というのも、本学は紀要論文メタデータとPDFファイルの作成を業者に依頼いたしました。
> PDFファイルの仕様としては
> ・テキストは白黒の300dpi
> ・透明テキストをつける(文字補正は行わない)
> ということをもりこんでおりました。
> 
> ところが、納品されたPDFファイルの文字がところどころつぶれたところが見受けられました。
> 試しに自館のスキャナで200dpiと300dpiでスキャンしてみましたが、明かに業者の作成したものと自館作成のものとで違いがあります。
> 業者に確認したところ、
> 「OCRをかけるとdpiに関わらず文字がつぶれる。」との返事でした。(e-Typistを使用)
> 
> 本学ではスキャンした後に透明テキストをつける作業を行っていましたので、そういう事態が起こるとは知らなかったとは言え、あまりの画像の違いに愕然としております。
> 
> 実際に業者にデータ作成を依頼されたことのある大学・機関の方々やスキャンに詳しい方がいらっしゃいましたらご教示いただけますでしょうか。
> 
> 参考までに業者の作成したデータと自館作成のデータを添付します。
> 
> よろしくお願いいたします。
> 
> 
> 
> ****************************************
>   
>      大阪教育大学 学務部 学術情報課 
> 
>        情報システム係(附属図書館) 
>  
>              谷 口 慶 子
> 
>  Tel 072−978-3781 / FAX 072−978-3803
>  e-mail:momo @ xxxxxxxxxxxxxxxxxxxxxx  
> 
> ****************************************
> 

-- 
加藤 大博 :: KATO Hiromichi
mailto:katze @ xxxxxxxxxxxxxxxxx
北海道大学附属図書館 情報管理課 図書受入担当
TEL 011-706-4028 / FAX 011-706-4109