[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:1059] Re: PDF上の文字をコピペすると文字化け
- Date: Fri, 08 May 2009 16:21:40 +0900
北大 杉田です。
栗山先生、山地先生、ありがとうございます。
Masamitsu Kuriyama さんは書きました:
> 杉田さん
> 残念ながら解決策ではなくて、さらなる不都合の指摘なのですが、
> これ、文書内検索ができませんよね。
> 普通に文字列を入れて検索すると「一致するものはありません」
> になり、本文中から文字列をコピペすると検索窓内で文字化け
> してエラーになってしまいます。
> 印刷屋さんに苦情を申し立てて何とかしてもらうというのは難しい
> ですかね。
あぁ、文書内検索も影響範囲ですね。
印刷屋さんを頼れるといいのですが、いま相手にしている予稿集が、実は
2004年に開催された学会と、2007に開催された学会のものであり、さかの
ぼって交渉するのはちょっと――、というところなのです。
Kazutsuna YAMAJI さんは書きました:
>> フォントの問題というより、「エンコーディング:カスタム」であることの問題?
>> ※エンコーディングがAnsiであるHelvetica部分は正常にコピペできました。
>
> そのカスタムのところだと思います.
> http://www.informe.co.jp/useful/pdf/pdf7.html
> の「フォントのエンコーディング」辺りが参考になります.
> 外観としての情報はもっているけど文字としての情報はもっていない感じです.
ありがとうございます。「こういうことかなぁ」ともやもやと想像してい
た辺りのことがらがぱしっと書いてあり、(完璧に理解できたか心許なく
はありますが)状況がわかった気がします。
復号できない限り、このファイルは画像PDFに近い存在ですね、ある意味。
>> できればルックアンドフィールを損ないたくないのですが、印刷用フォントが独
>> 自コードで文字に結びついているとすると、原理的にどうにもならんでしょうか。
>
> 詳しくないのですが,何らかのPDF変換をかけるとAnsiエンコードに変換でき
> るかもしれません.Acrobatではダメだし,アウトライン化していると難しい
> ようです.OCRしかないのかも知れません.
なるほど、もう少し考えてみて、現実的な策をとります。
ありがとうございました。
杉田茂樹 さんは書きました:
> 北大 杉田です。アドバイスください。
>
> 北大の研究グループが主催した学会の予稿集をIRで公開したいというお申し出が
> ありました。
>
> 印刷所のPDFファイルがあるというのでそれを頂きましたが、
>
> http://ambitious.lib.hokudai.ac.jp/~sugita/009_017.pdf
>
> これの文字たちをマウスでなぞって、ワープロソフトなどに貼りつけると、
>
> http://ambitious.lib.hokudai.ac.jp/~sugita/msword.png
>
> というふうに、アンダーバーのようなものの羅列に見えます。フォント表示欄に
> 「TTFont-107-7341478Q」と見えていますが、試しにこれを「Arial Unicode MS」
> とか「Century」とかに変換しても状態が変わりません。
>
> PDFのプロパティをみると、
>
> http://ambitious.lib.hokudai.ac.jp/~sugita/fonts.png
>
> となっており、上みっつのHelvetica以降はTTFont-XXX-7341478Q(XXXの部分は連
> 番)がずらーーーーーっと並んでいます。
> ※Helveticaは本文でなく図表のキャプション部分などに使用されていました。
>
> フォントの問題というより、「エンコーディング:カスタム」であることの問題?
> ※エンコーディングがAnsiであるHelvetica部分は正常にコピペできました。
>
> これをテキストをも扱える状態で(コピペできる状態で)取り扱いたいのですが、
> いい方法ありますでしょうか。試しにやってみたことは、
>
> (1) Acrobatで「画像として印刷」オプションで、Adobeプリンタ(つまりPDF出力)
> に印刷。
> (2) できあがった2次PDF(画像PDF)に対してOCR処理。
> (3) できあがった3次PDF(テキスト埋込の画像PDF)は、コピペ可能になった。
>
> です。が、2次PDFの段階で見た目画質がちょっと落ちてしまうように見えました。
>
> できればルックアンドフィールを損ないたくないのですが、印刷用フォントが独
> 自コードで文字に結びついているとすると、原理的にどうにもならんでしょうか。
>
--
杉田茂樹 <sugita @ xxxxxxxxxxxxxxxxx>
北海道大学附属図書館学術システム課システム管理担当
電話番号:011-706-2524,ファクシミリ:011-706-4099
http://eprints.lib.hokudai.ac.jp