[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[drf:719] Re: PKP OJS(オープンジャーナルシステム)の日本語化



はじめまして、高久@NIMSと申します。
MLは2年ほどROMしていましたが、投稿ははじめてです。
どうぞよろしくお願いします。

一点気になったのですが、今回開発されたものは、Mecab解析をしたあと
TermExtractで用語抽出したもののみを索引に追加しているのでしょうか?
それとも、Mecab解析結果もそのまま加えていますでしょうか?
もし前者の場合ですと、単純に考えると索引語としてとられるキーワードが
少なくなってしまって、検索キーワードに対する再現率が落ちてしまいそう
な気がいたします。
(RDBMSを用いた簡易全文の実現といった雰囲気ですので、DBサイズとの
トレードオフによる結果なのかもしれませんが…)

さて、日本語検索に関連して、追加で便乗質問させてください。

既に稼働されている機関でのリポジトリソフトウェアのうち、ご紹介のOJSや
DSpaceなど海外製のものは日本語検索への対応を機能追加されたりしたこと
と思いますが、言語固有の判別などはどのようにされていますでしょうか?
すべてのメタデータ・本文テキストに日本語分かち書き処理などをかけて
いますか?

当機構では、ドイツのマックスプランク研究所との共同開発に取り組んでおり
ますが、日英だけでなく、ドイツ語なども対象に加わるため、言語判別が
必要になっており、若干、苦慮しております。特に運用方式にもよるのですが、
メタデータ登録時に、論文タイトル・アブストラクトなど、英文のものと
和文のもの両者を登録しようとすると、それぞれのメタデータフィールド毎
に言語指定の選択肢を加える必要があるなど、複雑なメタデータ登録画面に
なってしまい、現実的な運用が難しくなるかな、と感じております。
日頃から日英両言語でメタデータ作成されている機関や、多言語運用をされて
いる機関などで、運用面もしくはシステム面で工夫されているところがあり
ましたら、お教えいただければ幸いです。

よろしくお願いします。

On Thu, 16 Oct 2008 16:46:39 +0900
"TAKAGI, Toshiro" <takagi @ xxxxxxxxx> wrote:

> DRFの皆様
> メールアドレスはtakagi @ xxxxxxxxx です。
> 失礼しました。
> 高木敏朗
>   ----- Original Message ----- 
>   From: TAKAGI, Toshiro
>   To: drf @ xxxxxxxxxxxxxxxx
>   Sent: Thursday, October 16, 2008 4:37 PM
>   Subject: [drf:710] PKP OJS(オープンジャーナルシステム)の日本語化
> 
> 
>   DRFの皆様
> 
>   NIIのCSI事業により早稲田大学が中心となって、Public Knowledge Projectにより開発された
>   OJS(オープンジャーナルシステム)の画面やメッセージの日本語化が行われました。 
> 
>   これを導入したところ日本語の検索が機能しませんでした。
> 
>   英語は単語間にブランクあるのに日本語は連続していることが原因でした。
>   そこで以下の変更を行いました。概略を報告します。
> 
>   研究所では現在、システムの入れ替え作業中ですので、
>   一段落した後に公開する予定です。
> 
>   日本語PDF論文のキーワードの抽出
>   1.PDFをpdftotextによりtextに変更
>   2.1文1行にする
>   3. MeCab(京都大学情報学研究科ー日本電信電話株式会社共同研究ユニットプロジェクトによる形態素解析エンジン)による解析
>   4.TermExtract(東京大学経済学部 前田朗氏による専門語取り出しperlモジュール)による語の抽出 
>   5.以上を行うスクリプトを作成
> 
>   日本語要旨
>    1.MeCab
>    2.TermExtract
>    以上をOJSのプログラムに組み込む
> 
>   英語PDF論文のキーワードの抽出
>   1.PDFをpdftotextによりtextに変更
>   2.Tokenizerにより1文1行にする
>   3.GSPOTTLにより形態素解析を行う
>   4.TermExtractによる語の抽出
>   5.以上を行うスクリプトを作成
> 
>   英語要旨
>     OJS仕様のままでStop wordsを除く
> 
>   JUNII2対応への変更
>    各ジャーナルのsectionをJUNII2タイプに変換する対応テーブルを作る必要がある 
> 
> 
>   その他
>   1.日本円の表示で少数点以下の非表示
>   2.xx巻yy号(そのままでは巻xx号yy)表示
>   3.検索ボタンの追加
>   等
> 
>   関心のある方はご連絡ください。
> 
>   日本貿易振興機構
>   アジア経済研究所図書館
>   高木敏朗
>   taka @ xxxxxxxxxx 

--
高久 雅生 <TAKAKU.Masao @ xxxxxxxxxx>