高橋さま お世話になっております。北大の紙谷です。 んなあほなー!と思ったので、試してみました。中国語の資料がぱっと 思いつかなかったので、ロシア語のみですがよろしければどうぞ。 Adobe Acrobat 9 Pro で、 ・OCRの言語:ロシア語 ・PDF出力形式:検索可能な画像(非圧縮) に設定して処理したものです。 やはり、問題なくOCR処理できているように見えます! 少なくとも Adobe Acrobat 9 Pro は、ロシア語も中国語(簡体字、 繁体字それぞれ)もどこの地域の言葉だかわからないようなマイナー 言語まで、対象としています。試してみてはいないですが、ロシア語 以外のキリル文字の言語も、ウクライナ語やらブルガリア語やら色々 対象になっているようですが…。業者さんの仰るアクロバットはどこの アクロバットでしょう?(笑) もしや、業者さんが念頭に置いているのは、ロシア語日本語交じりの 文章など、複数の言語が入り混じったものでしょうか?それでしたら、 北大でも無理だと言われたことがあります。(完璧じゃなくていいので、 メインの言語に合わせてOCR処理してくれるようお願いしました。) 業者さん側の説明じゃなくてすみません…。 --------------------------------------------------------------- Yasushi TAKAHASHI さん wrote: > 高橋@みんぱくリポジトリです。 > > 久しぶりに皆さんに質問させてください。 > > 昨年お願いした業者さんが、民博は懲りたのか、連絡途絶状態と > なり早8ヶ月、それではと別な業者さんに論文の「透明テキスト付 > PDF化+メタ」の見積もり依頼をしました。 > > と、早速、質問が飛んできました。 > > 『アクロバットでは、キリル文字や中国語など対応していない言語 > がある為、OCR化の際に、透明テキストの付加ができないものが > あります。これらはOCR処理をしなくて宜しいでしょうか。 > (OCR化しても、アクロバット変換時に文字化けします)』と。 > > 言うてる意味がよくわからない(・・;) > > 昨年の業者さんからはこんなこと聞かれてないし、OCR処理も > e−Typistでやってくれていて、透明テキスト付で納品され > ていて、それなりに検索できてたりするんで、問題は無いんだけれ > ど...違うのかな(?_?) > > とりあえず、営業さんと話をしたのですが、現場のSEさんから > の質問のため、どういうことか即答はできない。聞いてみたけれど、 > もうひとつよく理解できてないとのこと。 > > で、SEさんと話をする前に、皆さんに聞いてみようと思い立っ > たような次第です。 > > 私でもわかるように、このことを説明してやろうという方がおら > れたら、ぜひお願いします。<(_ _)> -- 紙谷五月 北海道大学附属図書館学術システム課 TEL: 011-706-4025 FAX: 011-706-4099 MAIL: satsuki @ xxxxxxxxxxxxxxxxx HUSCAP: http://eprints.lib.hokudai.ac.jp
Attachment:
russian.pdf
Description: Adobe PDF document
─―───────────────────────────── 国際会議開催決定、参加者募集中! http://drfic2009.jp DRFIC2009「オープンアクセスリポジトリの現在と未来 ―世界とアジアへの視点から―」 12月3日(木)〜4日(金)東京工業大学蔵前会館にて ―────────────────────────────── DRF mailing list DRF @ xxxxxxxxxxxxxxxx https://ml.hines.hokudai.ac.jp/mailman/listinfo/drf