[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:1056] PDF上の文字をコピペすると文字化け
- Date: Fri, 08 May 2009 12:40:37 +0900
北大 杉田です。アドバイスください。
北大の研究グループが主催した学会の予稿集をIRで公開したいというお申し出が
ありました。
印刷所のPDFファイルがあるというのでそれを頂きましたが、
http://ambitious.lib.hokudai.ac.jp/~sugita/009_017.pdf
これの文字たちをマウスでなぞって、ワープロソフトなどに貼りつけると、
http://ambitious.lib.hokudai.ac.jp/~sugita/msword.png
というふうに、アンダーバーのようなものの羅列に見えます。フォント表示欄に
「TTFont-107-7341478Q」と見えていますが、試しにこれを「Arial Unicode MS」
とか「Century」とかに変換しても状態が変わりません。
PDFのプロパティをみると、
http://ambitious.lib.hokudai.ac.jp/~sugita/fonts.png
となっており、上みっつのHelvetica以降はTTFont-XXX-7341478Q(XXXの部分は連
番)がずらーーーーーっと並んでいます。
※Helveticaは本文でなく図表のキャプション部分などに使用されていました。
フォントの問題というより、「エンコーディング:カスタム」であることの問題?
※エンコーディングがAnsiであるHelvetica部分は正常にコピペできました。
これをテキストをも扱える状態で(コピペできる状態で)取り扱いたいのですが、
いい方法ありますでしょうか。試しにやってみたことは、
(1) Acrobatで「画像として印刷」オプションで、Adobeプリンタ(つまりPDF出力)
に印刷。
(2) できあがった2次PDF(画像PDF)に対してOCR処理。
(3) できあがった3次PDF(テキスト埋込の画像PDF)は、コピペ可能になった。
です。が、2次PDFの段階で見た目画質がちょっと落ちてしまうように見えました。
できればルックアンドフィールを損ないたくないのですが、印刷用フォントが独
自コードで文字に結びついているとすると、原理的にどうにもならんでしょうか。
--
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館学術システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp