[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:2501] Re: 紀要の電子版について



栗山さま

関東学院の外崎です。

すみません、表現が分かりにくかったでしょうか、補足します。
PDFファイルには二種類の形状があります。
透明テキストが付与されたPDFと画像PDFです。
簡単に言ってしまえば、作成された電子ファイルからツールにより変換され
た文字検索の可能なPDFファイルと画像から作られたPDFファイルという
2種類です。乱暴すぎる言い方かも・・・


◆透明テキスト付きPDFファイル

ワードやエクセル、その他のツールで作成した文書を「Adobe Acrobat 」や
「いきなりPDF」などのソフトを用いてPDFファイルに変換することで、透明
テキストが付与されたPDFファイルを作成することが可能です。
この場合はtextデータがそのまま透明テキストに移行されるため誤読などが
なく、特殊は記号以外は完全に切り出されます。
印刷業者が使用している最近の印刷業者用のシステム(ツール)ではこの機能
(透明テキスト付きPDF出力)を標準で持つものが大半だと聞きました。
本学では印刷業者に「透明テキスト付きのPDF」と指定して、納品させており
ます。(更に、目次データもエクセルで納品してもらいます)


◆画像PDFファイル
スキャナにて取り込んだ画像より作成したPDFファイルです。複合機の印刷機能
により出力されるPDFも画像PDFファイルです。
「Adobe Reader」で文字を検索することが出来ません。
OCRにて透明テキスト付きのPDFファイルに変換することが可能ですが、精度
は95%から98%程度です。
(最近は複合機のスキャナ機能でもOCR機能を持つものがありますが、テスト
した範囲では専用ソフトのほうが品質は高いです)

使用するOCRソフトにより特性もあります。詳しくは以下にて報告させていた
だきました。(下記URL参照、※会員で無いと有償)
http://ci.nii.ac.jp/naid/110008003341
※会員で無い方は、その一部を本学の図書館OPACおよび機関リポジトリにて
提供しています。
 ⇒ 市販のOCRソフトにて作成した透明テキストデータの調査
http://library.kanto-gakuin.ac.jp/webopac/catdbl.do?pkey=NI90000004&initFlg=_RESULT_SET_NOTBIB

上記URLで表示されるOPAC検索結果画面より[本文を見る]をクリックして下
さい。本文PDFにリンクいたします。

ご参考になれば幸いです。

On Thu, 16 Jun 2011 09:41:02 +0900
Masamitsu Kuriyama <mtkuri @ xxxxxxxxxxxx> wrote:

> 外崎様
> 横から済みません。
> 初歩的な質問なのですが、「透明テキスト」というのは、画像をOCRで
> テキスト化したもののことですよね?
> 最初からワープロで作られてテキスト・データがあるものは透明テキスト
> とは言わないような気がするのですが、いかがでしょう?
> 私もPDFに詳しくないのでご教示いただければ幸いです。
> 
>    栗山 正光
>    常磐大学人間科学部現代社会学科
>    〒310-8585 水戸市見和1-430-1
> 
> (2011/06/16 9:21), Library wrote:
> > 土屋先生
> > 
> > 関東学院の外崎です。
> > 
> > 本学の場合は稼動当初(2003年度)より印刷業者に紀要冊子の納品時に
> > デジタル版のPDFファイルを納品してもらっています。
> > 印刷業者は最近は殆どがパソコン編集ですので、版下となる書式データ
> > からPDF形式で出力してファイルを作成しています。その際に画像PDFと
> > 透明テキスト付きPDFにする方法があるそうです。
> > 最初は「透明テキスト付きのPDFファイル」という意味が伝わらず苦労
> > しましたが、「検索可能なPDF」のことですと説明しておりました。
> > 最近では印刷業者に「透明テキスト付きのPDFファイル」というだけで
> > 提供されるようです。同じ「透明テキスト付きのPDFファイル」でも、
> > 画像部分の解像度が高く高画質のPDFを要求するとファイルサイズは大
> > きくなります。印刷に耐える画質であれば十分なのですが・・・。
> > 
> > 補足のコメントをさせていただきました。
> > 
> > 
> > On Wed, 15 Jun 2011 17:30:30 +0900 (JST)
> > Syun Tutiya<tutiya @ xxxxxxxxxx>  wrote:
> > 
> >> 寺島さん
> >>
> >>> どのような電子版(pdf)を提出してほしいか,について,
> >>> 基準とかガイドラインなどではありませんが,以前先生方に,
> >>> リポジトリへの登録・公開の推進について
> >>> 協力依頼の文書を出したときに,下記のような文をつけました。
> >>> ご参考までにお知らせします。
> >>
> >> ちょっと気になったのですが、印刷屋さんには、印刷の版下になるデジタルな
> >> PDFがあるのではないでしょうか。つまり、透明テキストなどなしに、検索可
> >> 能なPDFファイルを納品させればいいだけのような気がするのですが、、、、
> >> 印刷屋さんが、まさか印刷したあとのページイメージをスキャンしてOCRをつ
> >> かって透明テキストを作るとは思えないので。
> >>
> >> 土屋
> >>
> >>
> >>
> >>
> >> ──────────────────☆────────
> >> 月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
> >>  2011年6月号を発行しました!
> >>
> >> DRF(Digital Repository Federation)
> >> http://drf.lib.hokudai.ac.jp/drf/
> >> ─────★─────────────────────
> > 
> > ---
> > libraryi @ xxxxxxxxxxxxxxxxxx
> > 
> > 
> > 
> > 
> > 
> > ──────────────────☆────────
> > 月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
> >  2011年6月号を発行しました!
> > 
> > DRF(Digital Repository Federation)
> > http://drf.lib.hokudai.ac.jp/drf/
> > ─────★─────────────────────
> > 
>  
>  
> 
> 
> ──────────────────☆────────
> 月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
>  2011年6月号を発行しました!
> 
> DRF(Digital Repository Federation)
> http://drf.lib.hokudai.ac.jp/drf/ 
> ─────★─────────────────────

---
libraryi @ xxxxxxxxxxxxxxxxxx

 
 


──────────────────☆────────
月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
 2011年6月号を発行しました!

DRF(Digital Repository Federation)
http://drf.lib.hokudai.ac.jp/drf/ 
─────★─────────────────────