[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:1190] Re: 透明テキスト付きデータについて



聖学院大学 鈴木様

> (多言語が含まれる文書の文字認識や編集に完璧を求めてはいけないのでしょうね…。)

 多言語文書に限らず、完璧は求めても無理です。
 と、素人のくせに私は言い切ります。

 数理解析研究所講究録の文字認識でお近づきになった九州大学の
教授が、「1頁に1文字でも誤認識があったら、それは100%で
はなくなる」とおっしゃってました。その通りなのに、そう言われ
るまで、そんな風には考えてませんでしたので、あぁそやな、と膝
を叩いた私です。

 ご存じのようにOCR処理は画像認識処理ですから、別言語が混
在する、複数レイアウトである、囲み記事がある、文字の大きさが
違う、あまつさえフォンも違う、紙質は違うわ、印刷にムラがある、
などなど、条件も様々ですから、無理かと。

 お金と時間に糸目をつけないというのなら、かなりいい線いくと
は思いますが。いえ、私は素人ですから、間違っていたらごめんな
さい。

 ただ、目検で確かに「目録」という文字があるのに「目緑」と認
識されてテキスト化されているとしたら、検索で引っかからず、お
かしいやないか、とクレームがきたりするんで...

-- 
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜
 国立民族学博物館 情報管理施設 情報サービス課
   高 橋 安 司 ( TAKAHASHI, Yasushi )
  TEL:06-6878-8227  FAX:06-6878-8249
  E-mail: taka8441 @ xxxxxxxxxxxxxxxxx
〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜〜