加藤@北大図です。
SUGITA IZUMI wrote:
>> ひらがなとカタカナ、旧字と新字などの検索の問題にどのように対処さ
>> れていらっしゃいますでしょうか?
>> テーブルを作成されているなどの例がありましたらご教示くださるよう
>> お願いいたします。
>
> DSpaceのキーワードの正規化というのは、正直なところ、考えた
> ことがありませんでした。
> DSpaceでは、基本的に入力してある文字列がそのまま検索される
> という前提なのでしょうか?
確かDSpaceの検索エンジンはApache Luceneだったと思います。
(和書)http://www.gihyo.co.jp/books/syoseki.php/4-7741-2780-9
(和書の作者)http://lucene.jugem.jp/
(日本語の扱い)http://www.javaworld.jp/enterprise/-/25122.html
ので、その仕様どおりに動くのではと。所詮は欧米人の作ったもの
なので日本語には弱いですが、最後のを読むと、Senを使って
形態素解析できるようになってるみたいですね。
> DSpaceの検索機能にはあまり期待せず、Googleなどで引っかかっ
> てくれたらいいかなと思っていますが、そもそもGoogleの検索で
> ひらがなとカタカナ、旧字と新字などの検索の問題はクリアされ
> ているのかな? そのほか長音とかは?と疑問になってきました。
Googleの検索アルゴリズムは基本的に秘密なので、検索結果から
推量するしかないですね。Google検索アプライアンスを使えば同等の
結果を出すことはできるでしょう。
世界中から天才の集まる会社ですから、想像もつかないうまいやり方で
やっているのでしょう。
--
加藤 大博 :: KATO Hiromichi
mailto:katze @ lib.hokudai.ac.jp
北海道大学附属図書館 情報システム課 目録情報第一係
TEL 011-706-3627 (係代表) / 内線 4100 / FAX 011-706-4099