[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1057] Re: [drf:1056] PDF上の文字をコピペすると文字化け




杉田さん
残念ながら解決策ではなくて、さらなる不都合の指摘なのですが、
これ、文書内検索ができませんよね。
普通に文字列を入れて検索すると「一致するものはありません」
になり、本文中から文字列をコピペすると検索窓内で文字化け
してエラーになってしまいます。
印刷屋さんに苦情を申し立てて何とかしてもらうというのは難しい
ですかね。

            栗山 正光
            常磐大学人間科学部現代社会学科
            〒310-8585 水戸市見和1-430-1

----- Original Message ----- From: "杉田茂樹" <sugita @ xxxxxxxxxxxxxxxxx>
To: "DRF" <drf @ xxxxxxxxxxxxxxxx>
Sent: Friday, May 08, 2009 12:40 PM
Subject: [drf:1056] PDF上の文字をコピペすると文字化け



北大 杉田です。アドバイスください。

北大の研究グループが主催した学会の予稿集をIRで公開したいというお申し出が
ありました。

印刷所のPDFファイルがあるというのでそれを頂きましたが、

 http://ambitious.lib.hokudai.ac.jp/~sugita/009_017.pdf

これの文字たちをマウスでなぞって、ワープロソフトなどに貼りつけると、

 http://ambitious.lib.hokudai.ac.jp/~sugita/msword.png

というふうに、アンダーバーのようなものの羅列に見えます。フォント表示欄に
「TTFont-107-7341478Q」と見えていますが、試しにこれを「Arial Unicode MS」
とか「Century」とかに変換しても状態が変わりません。

PDFのプロパティをみると、

 http://ambitious.lib.hokudai.ac.jp/~sugita/fonts.png

となっており、上みっつのHelvetica以降はTTFont-XXX-7341478Q(XXXの部分は連
番)がずらーーーーーっと並んでいます。
※Helveticaは本文でなく図表のキャプション部分などに使用されていました。

フォントの問題というより、「エンコーディング:カスタム」であることの問題?
※エンコーディングがAnsiであるHelvetica部分は正常にコピペできました。

これをテキストをも扱える状態で(コピペできる状態で)取り扱いたいのですが、
いい方法ありますでしょうか。試しにやってみたことは、

(1) Acrobatで「画像として印刷」オプションで、Adobeプリンタ(つまりPDF出力)
  に印刷。
(2) できあがった2次PDF(画像PDF)に対してOCR処理。
(3) できあがった3次PDF(テキスト埋込の画像PDF)は、コピペ可能になった。

です。が、2次PDFの段階で見た目画質がちょっと落ちてしまうように見えました。

できればルックアンドフィールを損ないたくないのですが、印刷用フォントが独
自コードで文字に結びついているとすると、原理的にどうにもならんでしょうか。

--
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館学術システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp