[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:260] Re: 大阪教育大学 正式公開と自己紹介
- Date: Tue, 13 Nov 2007 21:34:24 +0900
大阪教育大学
谷口さま
京都大学附属図書館の筑木です。
> さて、さきほどの紀要論文一括登録のことについて早速質問なのですが、アグ
> レックスさんがe- Typist Ver.12を使用しているとのことです。
> さきほどから体験版で試していますが、実際に使用された大学や読み取り精度
> につ いてご存じの方がいらしたら教えていただけますでしょうか。
京都大学では、たまに自分たちでOCRをかけるときは、Adobe Acrobat
にくっついているOCRか、e-Typist ver.11を使用しています。
読み取りの精度は、阪大・前田さんのご指摘のように、英語だと
かなり高い精度(90-97%くらい?)で読み取ることができます。
このあたりがそうです。↓
http://hdl.handle.net/2433/47102
それが日本語になると少し精度が落ちるというのも確かですが、
印刷の字体や状態、古さも関係してくるので、何ともいえない
ところです。
それでも、最近の印刷物であれば、90%以上は読んでくれる
と思います。(感覚的なものですいませんが)
このあたりがそうだと思います。↓
http://hdl.handle.net/2433/48833
私どもも、Journal@rchiveの向こうをはって、紀要類のバックナンバー
を含めた電子化、電子ジャーナルのホスティングをやっていますので、
OCRの精度やより性能のよいOCRソフトには興味があります。
他に情報をもっていらっしゃる方がいればお願いします。
多くのお客さんはメタデータ経由ではなく、Googleから本文の単語
でひっかけてくるようなので、不完全でもOCRをかけてテキスト化
しておいた方がいいですよ、というのがこれまでの経験から
いえることでしょうか。
1952年の論文になぜか月100件以上のアクセスがありますし、
(PDFへのアクセス数。ある程度クロールを排除しての数字。)
http://hdl.handle.net/2433/47066
何がコンテンツとして期待されているのかは予想できないものですね。
-----------------------------
京都大学附属図書館
情報管理課電子情報掛
筑木 一郎
-----------------------------
Shinji Maeda さまwrote:
>
> 大阪教育大学附属図書館 谷口様
>
> 阪大図書館 前田 です。
>
>
> 阪大図書館では博士論文要旨集電子化の際に e-Typist Ver.8 を
> 利用していました。
> 読み取りモードに日本語バージョンと英語バージョンがあり、
> 英語バージョンで英文を読ませたときは殆ど間違いらしいものが
> なかった(一部化学式なんかに使われる独特の表記は別として)と
> 記憶しています。
> でも日本語バージョンで日本語文を読ませたところかなり間違いが
> 多く、そのため博士論文要旨(PDFファイル)の検索語を取り出す
> 元テキストを得る手段としてしか e-Typist を利用していません
> でした。
> (因みに論文タイトルや著者名等の重要な項目はこのテキスト
> ファイルから担当者が拾って目で校正していました。
> 私も経験しましたが今も時々このつらい作業を思い出します)
>
> 当方利用のバージョンが古いので役に立たない情報かも知れませんが、
> 参考になるでしょうか?
>
>
>> さて、さきほどの紀要論文一括登録のことについて早速質問なのですが、ア
グレックスさんがe-Typist Ver.12を使用しているとのことです。
>> さきほどから体験版で試していますが、実際に使用された大学や読み取り精
度についてご存じの方がいらしたら教えていただけますでしょうか。
>
>
>
>