[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:2579] Re: lucene-ja-2.0 ダウンロード元は?
- Date: Thu, 14 Jul 2011 23:58:39 +0900
- Thread-index: AcxB0cU9YkY6nx91QqyzHqWOTDb2TgAOOv0wAArQbjA=
DRFの皆様
連続送信済みません、、関森です。
引き続き、DSpace 1.6.2+Lucene 2.9.4+CJKAnalyzerを導入してみたところ、
文字が化けて検索されました。ユニコードが分割されている状況です。
http://dspace.frogbrigade.net/jspui/handle/123456789/1/simple-search?query=%
E3%81%82
原因を調査中です、、、
-----Original Message-----
From: Nobuyuki Sekimori [mailto:nsekimori @ xxxxxxxxx]
Sent: Thursday, July 14, 2011 7:31 PM
To: 'drf @ xxxxxxxxxxxxxxxx'
Subject: RE: [drf:2577] Re:Re: lucene-ja-2.0 ダウンロード元は?
DRFの皆様
皆様、はじめまして。
小樽商大・杉田様よりご紹介に与りましたブログの管理人・関森と申します。
メーリングリストに投稿があった直後に田上様にも連絡差し上げました。拙い
文章ですが、失礼いたします。
ほりこし様の検証の通り、DSpace 1.6.2ではLuceneのバージョンを3系に変更
するとHitsなどのクラスやメソッドがDuplicatedとなったためにコンパイルに
失敗します。
Dspace 1.7.2でも、同様にLucene 2系にしか対応していないためにコンパイル
できません。1.7.2で対応なされていたら、差し替えるつもりで調査をしてみ
ましたが、残念です。
Lucene 2系から3系へのバージョンアップのキーとなるのは、Hitsクラスです。
こちら、LuceneのAPIに書いてある通り、HitsからTopDocCollectorなどのDoc
Collectorの具象クラスに切り替えればよいのです(以下、参照)が、この際
に無制限であった検索結果件数を有限に制約しなければなりません。または、
独自のDocCollectorを実装する必要があります。
http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/search/Hits.html
これはLuceneのパフォーマンスをアップするための変更だそうです。
そのような制約を盛り込めば、Lucene 3系への移行はできるのですが、3系に
上げると3系の中でもマイナーバージョンの差でDuplicatedとなっているメソ
ッドが多々あり、3系のどこをターゲットとするかの選択も迫られます。
また、DSpace 1.6系辺りから検索と統計(確か、管理画面の方から見られる統
計はレガシー実装、各コミュニティとかアイテム画面したのボタンからのがSo
lr実装)にSolrを使用するようになったのですが、Solrのバージョンアップも
必要となります。Solrは、Luceneを検索エンジンとした検索システムの実装で
す。
https://wiki.duraspace.org/display/DSDOC/DSpace+Statistics
上記故、簡易に検索の日本語対応をおこなおうとすると、
1) Lucene-ja(Lucene 2系JapaneseAnalyzer含む)を持っている場合、2系+
Sen。
2) Lucene-jaを持っていない場合、Lucene既存のCJKAnalyzer(N-Gram)。
という選択肢が最適かと。尚、CJKAnalyzerはLucene2系の初期バージョン同梱
だとバグがあるらしいので、Lucene2系の最新版を読み込むようにすると良い
と思われます(バージョンを深追いしていません、すみません)。
N-Gram系のCJKAnalyzerを敬遠される方も多いと思いますが、メンテナンスが
ままならず、各機関独特の用語などに最適化されている訳ではない辞書による
形態素解析とでは五十歩百歩かと。何を求めるかによって、価値は変わります
が。
真っすぐ目的の本に向かうような形態素解析も良いですが、ぱらぱらとめくっ
た一冊との出会いのようなN-Gramもまた楽しいものです。
以上、間違いがあるやもしれませんが、皆様のお役に立てれば幸いです。
-----Original Message-----
From: drf-bounces @ xxxxxxxxxxxxxxxx [mailto:drf-bounces @ xxxxxxxxxxxxxxxx] On
Behalf Of Kunie Horikoshi
Sent: Thursday, July 14, 2011 11:57 AM
To: drf @ xxxxxxxxxxxxxxxx
Subject: [drf:2577] Re: Re: lucene-ja-2.0 ダウンロード元は?
みなさま
ほりこしです。1.6.2でのテスト報告ですが…
DSQuery.java, DSIndexer.java, DSAnalyzer.javaで、
lucene 2系→3系の際になくなってしまったクラスとか、
必要な引数が変更になったメソッドとかを使用していて、
pom.xmlのluceneのバージョンを書き変えるだけだとビルドに失敗します。
#こまぎれにしか時間が取れてないので、追求しきれてないです…
--- s.moriyasu.6t @ xxxxxxxxxxxxxxxxxx ---
>田上様 皆様
>
>お世話になっております。
>
>以下、独り言だと思って読んでください。
>
>ざっと眺めてみたのですが、Dspace1.5でluceneが出てくるのは
>
>dspace-api/src/main/java/org/dspace/search/DSIndexer.java
>
>だけのように見えます。
>
>http://www.google.co.jp/#hl=ja&source=hp&q=site:http%3A%2F%2Fscm.dspace.
>org%2Fsvn%2Frepo%2Fdspace%2Fbranches%2Fdspace-1_5_x%2F+lucene&oq=site:
>http%3A%2F%2Fscm.dspace.org%2Fsvn%2Frepo%2Fdspace%2Fbranches%2Fdspace-1_
>5_x%2F+lucene&aq=f&aqi=&aql=&gs_sm=e&gs_upl=
>7094l19735l0l19860l13l12l0l7l0l0l141l532l2.3l5&bav=on.2,or.r_gc.r_pw.&fp
>=ccc4f3c8247e3186&biw=1022&bih=713
>
>Dspaceは lucene2.2.0での非推奨のAPIも使ってなさそうです。
>
>http://lucene.apache.org/java/2_2_0/api/deprecated-list.html
>
>ということで、Dspaceに入っているlucene2.?を3に入れ替えれば、
>Dspaceの少しの変更でいけそうな気がします。。。
>
>#いうほど簡単な話なら、すでに誰かやってそうではありますが。。。
>
>
>広島工業大学附属図書館 森保信吾 082-921-4193
>
>----- Original Message -----
>> 杉田様
>>
>> お世話になります。田上です。
>> 実は下記ブログの関森さまから、場外でご連絡を頂いており
>> ました。
>> lucene-jaとsenに関してはブログの通りで、いまは見つけ
>> ることができませんから、とりあえず Liceneの2.0系と
>> CJKAnalizerをインプリしてみてはどうだろうとご意見を頂
>> きました。有り難うございます。関森様。やってみます。
>>
>> ただ、多分連携させる為にはコードの修正が必要になろうか
>> とか、そもそも言語処理の知識が足りないぞ!関口氏のBLOG
>> や本を参考に一歩下がったところから勉強をしなくちゃなど考え、
>> 手が止まってしまっております。
>>
>> とにかく、インストールは猿真似じゃダメで、理解しないと
>> 正しい方向には進めないと判りましたので、じっくりやって
>> みます。
>>
>> お気遣い有り難うございます。感謝いたします。
>>
>> 田上 雅機
>>
>>
>> On 2011/07/13, at 14:50, 杉田茂樹 wrote:
>>
>> 小樽商大 杉田です。
>>
>> どなたからも反応がないようですので(どうしたDRF-Tech!)、
>> ブログ主さんには無断で申しわけありませんがご紹介します。
>>
>> Lucene-jaとSenの行方 http://wp.me/p1Bvek-X
>> Lucene-jaとSenの行方 2 http://wp.me/p1Bvek-10
>>
>>
>>
>> (2011/07/04 22:26), 田上 雅機 wrote:
>> > MLの皆様
>> >
>> > こんにちは
>> > 初ポストがご挨拶でも、有益情報でもない事が心苦しいです。
>> > 東京市ヶ谷のシステム開発会社
>> > 株)マイトベーシックサービスの田上というものです。
>> >
>> > DSPACEの1.5.2環境をネット上の資料を首っ引きで構築していま
>> > す。
>> >
>> > 表記のモジュールの導入ステップで、sen.dev.java.netがなくなっ
>> > てしまっている事に気が付きました。一応、senはsvnからソース
>> > を引っ張れたのですが、lucene-ja-2.0が見つけられません。
>> > こんな事なら、前に落としたときにちゃんと保存しとけば良かった
>> > と思いましたが、後の祭りです。とほほ。
>> >
>> > どなたか、現在でも入手できるURIへの誘導か、保管されているtar
>> > ボールのご提供をおねがいできませんか?
>> >
>> > なにぶん、門外漢故、空気読めてません。
>> > 本MLの内容として不適、失礼であればお許しください。
>> > 適切な場所へご誘導下されば幸いです。
>> >
>> > 株式会社 マイトベーシックサービス
>> > 田上 雅機
>> > tag @ xxxxxxxxx
>> >
>> >
>> >
>> >
>> >
>> >
>> > ──────────────────☆────────
>> > 月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
>> > 2011年6月号を発行しました!
>> >
>> > DRF(Digital Repository Federation)
>> > http://drf.lib.hokudai.ac.jp/drf/
>> > ─────★─────────────────────
>> >
>>
>> --
>> 杉田茂樹 <ssugita @ xxxxxxxxxxxxxxxxxxxxx>
>> 小樽商科大学学術情報課長(附属図書館)
>> 電話番号:0134-27-5269,ファクシミリ:0134-27-5278
>> http://barrel.ih.otaru-uc.ac.jp
>>
>>
>>
>>
>> ──────────────────☆────────
>> 月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
>> 2011年7月号を発行しました!
>>
>> DRF(Digital Repository Federation)
>> http://drf.lib.hokudai.ac.jp/drf/
>> ─────★─────────────────────
>>
>>
>>
>>
>>
>> ──────────────────☆────────
>> 月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
>> 2011年7月号を発行しました!
>>
>> DRF(Digital Repository Federation)
>> http://drf.lib.hokudai.ac.jp/drf/
>> ─────★─────────────────────
>>
>
>
>
>
>
>
>──────────────────☆────────
>月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
> 2011年7月号を発行しました!
>
>DRF(Digital Repository Federation)
>http://drf.lib.hokudai.ac.jp/drf/
>─────★─────────────────────
北海道大学附属図書館
情報リテラシー担当 堀越 邦恵
担当宛:ref @ xxxxxxxxxxxxxxxxx
個人宛:horikoshi @ xxxxxxxxxxxxxxxxx
──────────────────☆────────
月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
2011年7月号を発行しました!
DRF(Digital Repository Federation)
http://drf.lib.hokudai.ac.jp/drf/
─────★─────────────────────
──────────────────☆────────
月刊DRF http://drf.lib.hokudai.ac.jp/gekkandrf/
2011年7月号を発行しました!
DRF(Digital Repository Federation)
http://drf.lib.hokudai.ac.jp/drf/
─────★─────────────────────