小野@NIIです。
現実逃避にGoogleで遊んでいたら、
Lucene に使える カタカナ表記ゆれ対応、旧字対応可能な形態素解析の製品
を見つけました。
http://www.basistech.co.jp/base-linguistics/japanese/
もしかすると、これでDSpaceが旧字対応するのではないかと思い、古いメールにお返事
してみました。
確証はありませんし、可能/不可能のいずれにせよどこかで検証済み
で既知なのかもしれませんので、その場合はすみません。
SUGITA IZUMI 様のメール::
> 北大・加藤さま、早稲田大・今村さま
> 皆さま
>
> 杉田@三重大です。
>
> 加藤さま、ご回答いただき誠にありがとうございます。
>
>> 確かDSpaceの検索エンジンはApache Luceneだったと思います。
>> (和書)http://www.gihyo.co.jp/books/syoseki.php/4-7741-2780-9
>> (和書の作者)http://lucene.jugem.jp/
>> (日本語の扱い)http://www.javaworld.jp/enterprise/-/25122.html
>> ので、その仕様どおりに動くのではと。所詮は欧米人の作ったもの
>> なので日本語には弱いですが、最後のを読むと、Senを使って
>> 形態素解析できるようになってるみたいですね。
>
> いろいろ見てみました。
> とりあえず、ご紹介いただいた関連本を買おうと思います。
> 「Apache Lucene入門 : Java・オープンソース・全文検索システムの構築」
> ISBN: 4774127809
>
> 形態素解析」でぐぐると、予想通り「Wikipedia」がトップにヒット
> しました。
> #提携してるのかなーと思うくらい、「GoogleでWikipedia」のトップ
> #ヒットが多いという印象です。
> http://ja.wikipedia.org/wiki/%E5%BD%A2%E6%85%8B%E7%B4%A0%E8%A7%A3%E6%9E%90
>
> 形態素解析結果に、読み(カタカナ)が入っているので、わざわざ
> メタデータにカナ読み入れなくていいのかも?と思いました♪(^^)
>
> 今村さま、横から失礼して、申し訳ありませんでした。<(_ _)>
>
> −−−
>> Googleの検索アルゴリズムは基本的に秘密なので、検索結果から
>> 推量するしかないですね。Google検索アプライアンスを使えば同等の
>> 結果を出すことはできるでしょう。
>
> 「Google検索アプライアンス?」と思ってぐぐったら、Google Mini
> みたいなやつのことなんですね。
> Googleにも有料サービスがあるんだ!と初めて思ったケースでした。
> http://www.google.co.jp/enterprise/
> ちなみに、アプライアンスは「GoogleでWikipedia」トップヒットに
> なりませんでした。
> #業務提携しているわけじゃなく、ちゃんとその都度検索アルゴリズム
> #が働いているんですね。(^^)
>
> −−−
> 余談になりますが、自分がいかに日常「Google」を使っているか、その
> 結果出てくる無料のソースを使っているか、時々おそろしくなります。
> 初動調査するツールは、決して図書館のデータベースではないんです
> よね・・・。
>
> JapanKnowledgeとWikipediaの比較について、東北大の米澤さまの報告
> が掲載されています。
> http://www.japanknowledge.com/guest/login/people/ppl200701.html
>
> Natureの「Wikipediaとブリタニカ百科事典の精度は互角」という記事
> の行方・・・というか、継続調査(してくれたらいいな!)も気になる
> ところです。
> http://www.itmedia.co.jp/news/articles/0603/31/news017.html
>
> 三重大では、今年度後期から、1年生向けリテラシー講習会でWikipedia
> とJapanKnowledgeの比較検索実習を取り入れています。
>
> 本日、生物資源学部の教員から
> 「MIUSEに入れたらGoogle Scholarで引っかかって、世界中の人が読める
> ようになるの? だったら、登録したい。」というお申し出をいただき
> ました。
> その教員は、三重大で契約していないEJの本文を、ぐぐった結果見つけ
> た直後に、「こういうことかー!」と思って電話をしてきてくださった
> そうです。(^^)
>
> −−−
> Hiromichi KATO さんは書きました:
>> 加藤@北大図です。
>>
>> SUGITA IZUMI wrote:
>>>> ひらがなとカタカナ、旧字と新字などの検索の問題にどのように対処さ
>>>> れていらっしゃいますでしょうか?
>>>> テーブルを作成されているなどの例がありましたらご教示くださるよう
>>>> お願いいたします。
>>>
>>> DSpaceのキーワードの正規化というのは、正直なところ、考えた
>>> ことがありませんでした。
>>> DSpaceでは、基本的に入力してある文字列がそのまま検索される
>>> という前提なのでしょうか?
>> 確かDSpaceの検索エンジンはApache Luceneだったと思います。
>> (和書)http://www.gihyo.co.jp/books/syoseki.php/4-7741-2780-9
>> (和書の作者)http://lucene.jugem.jp/
>> (日本語の扱い)http://www.javaworld.jp/enterprise/-/25122.html
>> ので、その仕様どおりに動くのではと。所詮は欧米人の作ったもの
>> なので日本語には弱いですが、最後のを読むと、Senを使って
>> 形態素解析できるようになってるみたいですね。
>>
>>> DSpaceの検索機能にはあまり期待せず、Googleなどで引っかかっ
>>> てくれたらいいかなと思っていますが、そもそもGoogleの検索で
>>> ひらがなとカタカナ、旧字と新字などの検索の問題はクリアされ
>>> ているのかな? そのほか長音とかは?と疑問になってきました。
>> Googleの検索アルゴリズムは基本的に秘密なので、検索結果から
>> 推量するしかないですね。Google検索アプライアンスを使えば同等の
>> 結果を出すことはできるでしょう。
>> 世界中から天才の集まる会社ですから、想像もつかないうまいやり方で
>> やっているのでしょう。
>>
>> --
>> 加藤 大博 :: KATO Hiromichi
>> mailto:katze @ lib.hokudai.ac.jp
>> 北海道大学附属図書館 情報システム課 目録情報第一係
>> TEL 011-706-3627 (係代表) / 内線 4100 / FAX 011-706-4099
>>
>>
>
> =================================================
> Sugita Izumi 杉田いづみ izumi @ ab.mie-u.ac.jp
>
> 国立大学法人三重大学 学術情報部(附属図書館)
> 情報図書館チーム 情報リテラシー担当
>
> 〒514-8507 三重県津市栗真町屋町1577
> Tel:059-231-9089 (ext.2208) Fax:059-231-9800
> 図書館Web:http://www.lib.mie-u.ac.jp/
> 問合先Email:literacy @ ab.mie-u.ac.jp
>
>
>
--
_____________________________
小野 亘 (Ono, Wataru) E-Mail:wono @ nii.ac.jp
国立情報学研究所 - NII - http://www.nii.ac.jp/
企画推進本部 広報普及チーム
(旧:国際・研究協力部 広報普及課 企画・広報係)
〒101-8430 東京都千代田区一ツ橋2丁目1番2号
学術総合センター18階
TEL:03-4212-2135(直通) FAX:03-4212-2150