[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:569] 代理投稿 Findability(Re: 既存画像PDFからのOCRテキスト抽出を大量に一括で



九州大学の井上先生からの投稿です。

>井上先生
DRFのMLは、SPAM対策のため、登録されていないメールアドレスからの
投稿ができません。お手数ですが、(投稿時に使用する)個人アドレスを
ご登録いただけないでしょうか。よろしくお願いいたします。
---------------------------------------------------------------------
To: DRF <drf @ xxxxxxxxxxxxxxxx>
From: Sozo INOUE <sozo @ xxxxxxxxxxxxxxxxxx>
Date: Wed, 11 Jun 2008 00:13:58 +0900

寸田様

ご回答ありがとうございます.
おっしゃるように,「割合」ではなく「数」で最終的に比較するのならわかります.


つまり,
A「メタデータから熟読される数」と「フルテキストから熟読される数」
の比較には意味があるのはわかるのですが,

B「メタデータから熟読される割合」と「フルテキストから熟読される割合」
の比較は,上記の計算のため(熟読数=ダウンロード数×割合)以外に意味がある
のかどうかが知りたいところです.

あるのであれば新しい観点ではないかと思いますし(私が勉強不足なだけかもしれ
ませんが),ないのであれば,逆に
Bの前者が後者の5倍以上の割合でなければ,労力をかけてメタデータを作ることは
ないでしょうから,調査する必要があるのではないかと思っています.

12日のNIIで何かご存じの方は教えていただければありがたいです.



At 10 Jun 2008 18:55:15 +0900 Goro SUNDEN wrote:
> 
> 宮崎大学の寸田です。
> 
>> メタデータからダウンロードしたうち熟読する割合>フルテキスト検索からダ
ウン
>> ロードしたうち熟読する割合
>> 
>> ということだと思うのですが,この割合にはどのような意味があるのでしょう
か.
>> もしくは,このような観点を調査した文献などあるのでしょうか.
> 
> メタデータ検索とフルテキスト検索とで、熟読する割合を比較することには意味
> があるように思います。
> 
> フルテキスト検索可能なコンテンツはそうでないコンテンツの5倍のダウンロー
> ド数があるということは、ダウンロード数のうち実に80%がフルテキスト検索に
> よるものと考えられます。
> そのため、「メタデータは管理用のものだけでもういい」と考えるのかもしれま
> せん。
> 
> しかし、「メタデータからダウンロードしたうち熟読する割合」が「フルテキス
> ト検索からダウンロードしたうち熟読する割合」の比率がもし仮に4:1(根拠
> はありませんが)とすると、ダウンロード数の比率は1:4ですから、「メタ
> データから熟読された数」と「フルテキスト検索から熟読された数」の比率は
> 1:1になり、メタデータ検索が不要とは言えないでしょう。
> 
> つまり、「メタデータからダウンロードしたうち熟読する割合」と「フルテキス
> ト検索からダウンロードしたうち熟読する割合」の比率によってはメタデータ検
> 索は必要とも不要ともいえます。
> 少なくとも、ダウンロード数の比較だけではメタデータ検索が不要とはいえない
> だろうと思います。
> 
> SUGITA Shigeki さんは書きました:
>> 九州大学井上先生から。
>>  
>> >井上先生、
>> すみません、SPAM対策で登録外アドレスからのメールをはじくように
>> してますので、個人アドレスでsubscribeしてもらえますか。
>> ―――――――――――――――――――――――――――――――――
>>  
>>  
>> 皆様
>>  
>> 九大の井上創造と申します.
>>  
>> メタデータからダウンロードしたうち熟読する割合>フルテキスト検索からダ
ウン
>> ロードしたうち熟読する割合
>> 
>> ということだと思うのですが,この割合にはどのような意味があるのでしょう
か.
>> もしくは,このような観点を調査した文献などあるのでしょうか.
>> 
>> 最近メタデータの必要性をよく議論していますが,このような観点を考えたこ
とが
>> なかったので...
>> 
>> Goro SUNDEN さんは書きました:
>>> 宮崎大学の寸田です。
>>>
>>> findabilityの点では土屋先生のおっしゃるとおり、現状ではメタデータの効
果
>>> は小さいようです。
>>> しかし、検索エンジンでヒットしてダウンロードされても、読まれなければ
意味
>>> がありません。
>>>
>>> ログを調べたところ、メタデータ表示画面を見た人のだいたい半分がコンテ
ンツ
>>> をダウンロードしているようです。
>>> 残り半分はメタデータを見ただけで不要なコンテンツであると判断していま
す
>>> が、ダウンロードした場合は最後まで目を通すことが多いと考えられます。
>>> それに対して検索エンジンでフルテキストがヒットした場合は、即ダウン
ロード
>>> につながりますが、一瞥しただけで捨てられるケースが非常に多いだろうと
考え
>>> られます。
>>>
>>> つまり、「量」ではフルテキストにかなわないのですが、実際に読まれたり
引用
>>> につながる「質」まで考えると、メタデータによるナビゲーションは有用だ
と思
>>> います。
>>>
>>> Syun Tutiya さんは書きました:
>>>> 寸田さん、
>>>>
>>>>> 昨年度から工学部紀要がボーンデジタルになったのですが、ダウンロード
数が画
>>>>> 像のみの時の5倍になりました。
>>>>> このため、このような作業(数百件程度ですが)をしたいと考えていまし
た。
>>>> Searchableなfull textこそが、(findabilityの観点からは)最良のメタデー
タ
>>>> ということですね。納得します。いわゆるメタデータは管理用のものだけで
も
>>>> ういいということになるのでしょうか。
>>>>
>>>> 土屋
>>>>
>>
>> 
> 
> 
> -- 
> □ □ □ □ □ □ □ □ □ □ □ □ □ □ □
> □ 寸田 五郎
> □ 宮崎大学学術研究協力部
> □ 情報図書課情報管理係
> □ TEL 0985-58-7146
> □ FAX 0985-58-2896
> □ sunden @ xxxxxxxxxxxxxxxxxxx
> □ □ □ □ □ □ □ □ □ □ □ □ □ □ □
> 
> 
> 


--
★九大総長候補 有川節夫先生を応援してます★
http://www.arikawa4kyudai.jp/
-------------------------------------------------------------------
九州大学 附属図書館 研究開発室 准教授 井上創造
-------〒812-8581 福岡市東区箱崎6-10-1 Phone: 092-642-4422--------

-- 
紙谷五月
北海道大学附属図書館情報システム課
TEL: 011-706-4025
FAX: 011-706-4099
MAIL: satsuki @ xxxxxxxxxxxxxxxxx
HUSCAP: http://eprints.lib.hokudai.ac.jp