[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:1191] Re: 透明テキスト付きデータについて
- Date: Sat, 27 Jun 2009 05:04:47 +0900 (JST)
高橋さん、みなさん、
日本の出版を憂うる話はまたあととして、
>> (多言語が含まれる文書の文字認識や編集に完璧を求めてはいけないのでしょうね…。)
> 多言語文書に限らず、完璧は求めても無理です。
> と、素人のくせに私は言い切ります。
いえ、およそ人間のやることで完璧はあり得ません。あるかもしれませんが、
保証することはできません。いや、自然界だって測定すれば誤差がでます。し
たがって、完璧を求めるということは絶対にしてはいけないことです。
> 数理解析研究所講究録の文字認識でお近づきになった九州大学の
> 教授が、「1頁に1文字でも誤認識があったら、それは100%で
> はなくなる」とおっしゃってました。その通りなのに、そう言われ
> るまで、そんな風には考えてませんでしたので、あぁそやな、と膝
> を叩いた私です。
誤認識があれば100%の認識率ではなくのはあたりまえです。というか、たんに
言葉の定義を繰り返しただけなのではないでしょうか。膝を叩くようなことに
思われません。
しかし話はその先です。
> ただ、目検で確かに「目録」という文字があるのに「目緑」と認
> 識されてテキスト化されているとしたら、検索で引っかからず、お
> かしいやないか、とクレームがきたりするんで...
そりゃ、ただ謝ればいいだけではないですか。すでに述べたように、クレーム
が100%ないということは、人間のやることではあい得ないことなのですから。
だいたい、どういう文字列があるか事前に知っているものについて、文字列検
索するなんて暇なだけではないでしょうか。「目録」のすべてが「目緑」になっ
ているならば、困ったものですが、そうなれば、作成時の機械的チェックで気
づくはずですし、暇でない賢いユーザは、「"目録" OR "目緑"」として検索す
るのでは?「すべて」が誤認識されているのでないとすれば、ヒットする文書
はすくなくともひとつは出てくるわけですから、便利になったのであり、文句
をいう筋合ではないように思われます。
いずれにせよ、精度は費用の関数にすぎません。
土屋