[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:2505] Re: 紀要の電子版について
- Date: Thu, 16 Jun 2011 18:03:14 +0900 (JST)
栗山さん
(お返事先を越されたけど、)うーん、われわれも年取りましたね。
> 関東学院の外崎です。
> すみません、表現が分かりにくかったでしょうか、補足します。
ありがとうございます。
> PDFファイルには二種類の形状があります。
> 透明テキストが付与されたPDFと画像PDFです。
> 簡単に言ってしまえば、作成された電子ファイルからツールにより変換され
> た文字検索の可能なPDFファイルと画像から作られたPDFファイルという
> 2種類です。乱暴すぎる言い方かも・・・
われわれの世代の理解はこうです。PDFは、PostScriptをコンパイルしたよう
なものだ、つまり、文字コードとそのグリフ種類の表示と表示位置情報とをべ
たべた書いたテキストファイルであるPostscriptのサイズを小さくし、画像情
報も扱いやすくしてあるのがPDFのフォーマットなので、本質的にはテキスト
ファイルと同じで、xpdfなどを使えばすぐにテキスト情報が抜き出せるもの。
それに対して、「透明テキスト」というのは、スキャンした画像ファイルを検
索可能とするために、テキストと文字位置の位置情報だけのファイルを重ねて、
あたかも画像ファイルを文字検索しているように見せるための仕掛けで、
Acrobatの開発のかなりあとの段階で追加されたもの。
というわけなので、WordでPDFファイルに出力したものは、(ちょっと前まで
の)Wordファイルよりはずっと「テキストファイルっぽい」と思えるのに、透
明テキストつきPDFというと、まず画像があって、そのうえにテキストがのっ
ている、いやそんなことないよねというふうに感じるわけなのです。
まあ、印刷屋さんが版面を気にするのはわかりますが、PDFは、出力情報をし
ているファイルですから画像ファイルがどこかにあるというのはなんとなく違
和感があることになります。
しかしきっと、遡及的な電子化が一気にすすんだ時期に、画像プラス透明テキ
ストが、最初の選択肢になってしまったということなのだと思います。
それで、
> 「Adobe Reader」で文字を検索することが出来ません。
> OCRにて透明テキスト付きのPDFファイルに変換することが可能ですが、精度
> は95%から98%程度です。
というときの「透明テキスト」が本当の「透明テキスト」なのです!
土屋
──────────────────☆────────
月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
2011年6月号を発行しました!
DRF(Digital Repository Federation)
http://drf.lib.hokudai.ac.jp/drf/
─────★─────────────────────