[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1056] PDF上の文字をコピペすると文字化け



北大 杉田です。アドバイスください。

北大の研究グループが主催した学会の予稿集をIRで公開したいというお申し出が
ありました。

印刷所のPDFファイルがあるというのでそれを頂きましたが、

 http://ambitious.lib.hokudai.ac.jp/~sugita/009_017.pdf

これの文字たちをマウスでなぞって、ワープロソフトなどに貼りつけると、

 http://ambitious.lib.hokudai.ac.jp/~sugita/msword.png

というふうに、アンダーバーのようなものの羅列に見えます。フォント表示欄に
「TTFont-107-7341478Q」と見えていますが、試しにこれを「Arial Unicode MS」
とか「Century」とかに変換しても状態が変わりません。

PDFのプロパティをみると、

 http://ambitious.lib.hokudai.ac.jp/~sugita/fonts.png

となっており、上みっつのHelvetica以降はTTFont-XXX-7341478Q(XXXの部分は連
番)がずらーーーーーっと並んでいます。
※Helveticaは本文でなく図表のキャプション部分などに使用されていました。

フォントの問題というより、「エンコーディング:カスタム」であることの問題?
※エンコーディングがAnsiであるHelvetica部分は正常にコピペできました。

これをテキストをも扱える状態で(コピペできる状態で)取り扱いたいのですが、
いい方法ありますでしょうか。試しにやってみたことは、

(1) Acrobatで「画像として印刷」オプションで、Adobeプリンタ(つまりPDF出力)
  に印刷。
(2) できあがった2次PDF(画像PDF)に対してOCR処理。
(3) できあがった3次PDF(テキスト埋込の画像PDF)は、コピペ可能になった。

です。が、2次PDFの段階で見た目画質がちょっと落ちてしまうように見えました。

できればルックアンドフィールを損ないたくないのですが、印刷用フォントが独
自コードで文字に結びついているとすると、原理的にどうにもならんでしょうか。

-- 
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館学術システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp