[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1072] Re: [kucsi:01244] [drf:1059] Re: PDF上の文字をコピペすると文字化け



北海道大学 杉田様,みなさま

お世話になっております。京都大学附属図書館の大西です。

すでにだいぶ時期を逸してしまっていますが,京大でもリポジトリ
登録用に紀要のPDFを刊行元から提供してもらった場合に同じような
ケースがあり,そのときにとった対応策をご紹介しておきます。

いろいろ試した結果,本学でも結局Acrobatで画像PDFにしてからOCR
をかけるという処理をとることにしたのですが,Adobeのデフォルト
設定で処理をすると「見た目」が結構劣化してしまいます。

調べてみると,画像PDF作成の印刷プロパティとOCRの設定の2段階
でAcrobatが自動的にダウンサンプリングしてくれていたので,
印刷時とOCR処理時に下記の部分の設定をを変更しました。


Acrobat 8 Professionalの場合の修正箇所

>>> (1) Acrobatで「画像として印刷」オプションで、Adobeプリンタ(つまりPDF出力)
>>>   に印刷。

■画像PDF作成時のダウンサンプルの指定解除

1. プリンタ(Adobe PDF)の詳細設定画面
	「画像として印刷(I)」のチェックボックス横でdpiをいろいろ試してみる

2. プリンタ(Adobe PDF)のプロパティ
	「PDF設定」の横の「編集」をクリック
	→左メニューの「画像」フォルダアイコンをクリック
	→「カラー画像」「グレースケール画像」「白黒画像」の「ダウンサンプル」を「オフ」に変更
	→「OK」を押してファイル名をつけて設定ファイルを保存
	→「PDF設定」で作成した設定ファイルを選択
	→「OK」

3. プリンタ(Adobe PDF)の「ページ処理」設定
	「ページの拡大/縮小」は「なし」を選択
	「自動回転と中央配置」のチェックボックスをオフ
	「PDFのページサイズに合わせて用紙を選択」のチェックボックスをオフ

>>> (2) できあがった2次PDF(画像PDF)に対してOCR処理。

■OCR認識時のダウンサンプリングを解除
	メニュー>「文書」>「OCRテキスト認識」>「OCRを使用してテキストを認識」をクリック
	→設定の「編集」をクリック
	→「PDFの出力形式」で「検索可能な画像(非圧縮)」を選択
	→「OK」をクリックするとOCR処理が開始します。

まるっきり処理前と同じとはいきませんが,デフォルト設定で処理するよりは
「見た目」が維持できるかと思います。

ただ,こうした場合はPDFのサイズがすこし大きくなってしまうのですが,
「見た目」が綺麗であればそれだけOCRの認識率も高くなるかもしれません。



2009/05/08 16:21, 杉田茂樹 wrote:
> 北大 杉田です。
> 
> 栗山先生、山地先生、ありがとうございます。
> 
> Masamitsu Kuriyama さんは書きました:
>> 杉田さん
>> 残念ながら解決策ではなくて、さらなる不都合の指摘なのですが、
>> これ、文書内検索ができませんよね。
>> 普通に文字列を入れて検索すると「一致するものはありません」
>> になり、本文中から文字列をコピペすると検索窓内で文字化け
>> してエラーになってしまいます。
>> 印刷屋さんに苦情を申し立てて何とかしてもらうというのは難しい
>> ですかね。
> 
> あぁ、文書内検索も影響範囲ですね。
> 印刷屋さんを頼れるといいのですが、いま相手にしている予稿集が、実は
> 2004年に開催された学会と、2007に開催された学会のものであり、さかの
> ぼって交渉するのはちょっと――、というところなのです。
> 
> Kazutsuna YAMAJI さんは書きました:
>>> フォントの問題というより、「エンコーディング:カスタム」であることの問題?
>>> ※エンコーディングがAnsiであるHelvetica部分は正常にコピペできました。
>> そのカスタムのところだと思います.
>> http://www.informe.co.jp/useful/pdf/pdf7.html
>> の「フォントのエンコーディング」辺りが参考になります.
>> 外観としての情報はもっているけど文字としての情報はもっていない感じです.
> 
> ありがとうございます。「こういうことかなぁ」ともやもやと想像してい
> た辺りのことがらがぱしっと書いてあり、(完璧に理解できたか心許なく
> はありますが)状況がわかった気がします。
> 復号できない限り、このファイルは画像PDFに近い存在ですね、ある意味。
> 
>>> できればルックアンドフィールを損ないたくないのですが、印刷用フォントが独
>>> 自コードで文字に結びついているとすると、原理的にどうにもならんでしょうか。
>> 詳しくないのですが,何らかのPDF変換をかけるとAnsiエンコードに変換でき
>> るかもしれません.Acrobatではダメだし,アウトライン化していると難しい
>> ようです.OCRしかないのかも知れません.
> 
> なるほど、もう少し考えてみて、現実的な策をとります。
> 
> 
> ありがとうございました。
> 
> 
> 
> 
> 
> 
> 
> 杉田茂樹 さんは書きました:
>> 北大 杉田です。アドバイスください。
>>
>> 北大の研究グループが主催した学会の予稿集をIRで公開したいというお申し出が
>> ありました。
>>
>> 印刷所のPDFファイルがあるというのでそれを頂きましたが、
>>
>>  http://ambitious.lib.hokudai.ac.jp/~sugita/009_017.pdf
>>
>> これの文字たちをマウスでなぞって、ワープロソフトなどに貼りつけると、
>>
>>  http://ambitious.lib.hokudai.ac.jp/~sugita/msword.png
>>
>> というふうに、アンダーバーのようなものの羅列に見えます。フォント表示欄に
>> 「TTFont-107-7341478Q」と見えていますが、試しにこれを「Arial Unicode MS」
>> とか「Century」とかに変換しても状態が変わりません。
>>
>> PDFのプロパティをみると、
>>
>>  http://ambitious.lib.hokudai.ac.jp/~sugita/fonts.png
>>
>> となっており、上みっつのHelvetica以降はTTFont-XXX-7341478Q(XXXの部分は連
>> 番)がずらーーーーーっと並んでいます。
>> ※Helveticaは本文でなく図表のキャプション部分などに使用されていました。
>>
>> フォントの問題というより、「エンコーディング:カスタム」であることの問題?
>> ※エンコーディングがAnsiであるHelvetica部分は正常にコピペできました。
>>
>> これをテキストをも扱える状態で(コピペできる状態で)取り扱いたいのですが、
>> いい方法ありますでしょうか。試しにやってみたことは、
>>
>> (1) Acrobatで「画像として印刷」オプションで、Adobeプリンタ(つまりPDF出力)
>>   に印刷。
>> (2) できあがった2次PDF(画像PDF)に対してOCR処理。
>> (3) できあがった3次PDF(テキスト埋込の画像PDF)は、コピペ可能になった。
>>
>> です。が、2次PDFの段階で見た目画質がちょっと落ちてしまうように見えました。
>>
>> できればルックアンドフィールを損ないたくないのですが、印刷用フォントが独
>> 自コードで文字に結びついているとすると、原理的にどうにもならんでしょうか。
>>
> 
> 


-- 
大西 賢人 (ONISHI Masato)
京都大学附属図書館 情報管理課 電子情報掛
〒606-8501 京都市左京区吉田本町
Tel: 075-753-2618  Fax: 075-753-2629
E-mail: onishi @ xxxxxxxxxxxxxxxxxxx