[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:2507] Re: 紀要の電子版について



土屋先生
栗山さま
 
関東学院の外崎です。
 
ご教授ありがとうございます。
先生に説明していただき、理解不足が分かりました。
 
OCRにより後から透明テキストを付与したPDFでは画像とテキストを
重ねているので位置が厳密には一致していないことは理解している
心算だったのですが、最初から文字付で作成するPDFの形式を何と
表現していいのか分かりませんでした。
「xpdfなどを使えばすぐにテキスト情報が抜き出せるもの」
というPDFファイルのスタイルは分かるのですが、画像PDFファイル
との違いをどのように説明すれば良いのか・・・。
 
通常ですと、印刷業者に「透明テキストの付与されたPDFで納品して
ください。」とお願いしているのですが、正確にはどのように表現すれ
ば良いのでしょうか?
(PDFファイルと指定すると当初は画像PDFで納品されました)
 
厚かましいお願いですが、ご教授いただけると嬉しいです。
 
 
^^^^
「透明テキスト付のPDF」というと厳密な意味では、画像を作りOCRに
より透明テキストを付与するという意味になってしまうのですね。[汗];
 
勉強になりました。
 
 
 

 
2011年6月16日18:03 Syun Tutiya <tutiya @ xxxxxxxxxx>:
栗山さん

(お返事先を越されたけど、)うーん、われわれも年取りましたね。

> 関東学院の外崎です。
> すみません、表現が分かりにくかったでしょうか、補足します。

ありがとうございます。

> PDFファイルには二種類の形状があります。
> 透明テキストが付与されたPDFと画像PDFです。
> 簡単に言ってしまえば、作成された電子ファイルからツールにより変換され
> た文字検索の可能なPDFファイルと画像から作られたPDFファイルという
> 2種類です。乱暴すぎる言い方かも・・・

われわれの世代の理解はこうです。PDFは、PostScriptをコンパイルしたよう
なものだ、つまり、文字コードとそのグリフ種類の表示と表示位置情報とをべ
たべた書いたテキストファイルであるPostscriptのサイズを小さくし、画像情
報も扱いやすくしてあるのがPDFのフォーマットなので、本質的にはテキスト
ファイルと同じで、xpdfなどを使えばすぐにテキスト情報が抜き出せるもの。
それに対して、「透明テキスト」というのは、スキャンした画像ファイルを検
索可能とするために、テキストと文字位置の位置情報だけのファイルを重ねて、
あたかも画像ファイルを文字検索しているように見せるための仕掛けで、
Acrobatの開発のかなりあとの段階で追加されたもの。

というわけなので、WordでPDFファイルに出力したものは、(ちょっと前まで
の)Wordファイルよりはずっと「テキストファイルっぽい」と思えるのに、透
明テキストつきPDFというと、まず画像があって、そのうえにテキストがのっ
ている、いやそんなことないよねというふうに感じるわけなのです。

まあ、印刷屋さんが版面を気にするのはわかりますが、PDFは、出力情報をし
ているファイルですから画像ファイルがどこかにあるというのはなんとなく違
和感があることになります。

しかしきっと、遡及的な電子化が一気にすすんだ時期に、画像プラス透明テキ
ストが、最初の選択肢になってしまったということなのだと思います。

それで、

> 「Adobe Reader」で文字を検索することが出来ません。
> OCRにて透明テキスト付きのPDFファイルに変換することが可能ですが、精度
> は95%から98%程度です。

というときの「透明テキスト」が本当の「透明テキスト」なのです!

土屋

 
 


──────────────────☆────────
月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
 2011年6月号を発行しました!

DRF(Digital Repository Federation)
http://drf.lib.hokudai.ac.jp/drf/ 
─────★─────────────────────