[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
[drf:731] Re: [drf:726] Re: PKP OJS(オープンジャーナルシステム)の日本語化
- Date: Mon, 27 Oct 2008 16:47:58 +0900
高木様、高久です。
お返事がおそくなり、失礼しました。
ご教示いただき、ありがとうございました。
DSpaceでの運用も含め、大変参考になりました。
当方での運用の参考にさせていただきます。
確かにDBスペースと精度とのトレードオフは悩ましい問題ですね。。。
言語判別についても、確かに文字コードで自動判別する手がありますね。
そういえばNamazuなどの全文検索エンジンもその手法を採用していたのを
忘れておりました。
ありがとうございました。
On Wed, 22 Oct 2008 14:50:01 +0900
"TAKAGI, Toshiro" <takagi @ xxxxxxxxx> wrote:
> ご質問有難うございます。
>
> > TermExtractで用語抽出したもののみを索引に追加しているのでしょうか?
> > それとも、Mecab解析結果もそのまま加えていますでしょうか?
>
> TermExtractで用語抽出したもののみを加えています。
>
> MeCabの解析結果には各単語の品詞情報がつけられています。
> TermExtractは、解析結果を入力としてその中から専門用語として名詞を抽出し、
> 重要度を算出します。ご指摘のように名詞のみですのでキーワードは
> 少なくなります。
>
> TermExtractの説明に「専門用語の多くは複合語、とりわけ複合名詞である場合が大半」との
> 指摘がされており、TermExtractを組み込みました。
>
> ちなみテストでは、重要度が平均以上の語を出力しました。
> 平均以上にしたのはDBスペース削減の意味以外にありません。
>
> 以下のサイトをご覧ください。
>
> MeCab: Yet Another Part-of-Speech and Morphological Analyzer
>
> 専門用語(キーワード)自動抽出用Perlモジュール "TermExtract"の解説
>
> > 言語固有の判別などはどのようにされていますでしょうか
>
> OJSに追加した機能は
> PDFが日本語か英語によりMeCabを使うかGSPOTTLを使うかを判断する必要がありました。
> 方法として、PDFをpdftotextによりテキストファイルにした後、判断しています。
>
> はじめは、Fileコマンドで判断しましたが、日本語論文には英文が含まれているため、
> Fileコマンドは用をなさないことが判りました。そこで、簡単なphpのプログラムを作り
> テキストファイルの行ごとにASCIIかどうかの判断をし、ASCII行が多ければ英文としました。
>
> 要旨ついても同様にASCIIがどうかの判断をしています。
> 日本語の場合はMeCab,TermExtractを利用します。
> 英文要旨はOJSの方法のままで、Stop Wordsが除かれます。
>
> OJSではメタデータの入力画面で言語を指定しますが、メタデータごとではありません。
> oai_dcでハーベストすると、タグに言語コードが表示されます。
>
> Junii2対応ではこの言語表示をしないようにしました。
>
>
> 研究所では機関リポジトリに、DSpaceを利用しています。
> 日本語に関しては、以下を適用しています
>
> 機関リポジトリソフトウェアの日本語対応
>
> 英文論文の場合には、日本語著者名、日本語Subjectを追加しています。
> 編集画面で各メタデータに言語コードを付与または修正しています。
> それ以外には特別の運用はしていませんが、
> RePEcからメタデータを取りに来てもらっています。機関リポジトリから
> RePEc用テンプレートを作成するときは、逆に日本語を除いています。
>
>
> 日本貿易振興機構アジア経済研究所
> 図書館
> 高木 敏朗
>
>
>
> Subject: Re: PKP OJS(オープンジャーナルシステム)の日本語化
>
>
> > はじめまして、高久@NIMSと申します。
> > MLは2年ほどROMしていましたが、投稿ははじめてです。
> > どうぞよろしくお願いします。
> >
> > 一点気になったのですが、今回開発されたものは、Mecab解析をしたあと
> > TermExtractで用語抽出したもののみを索引に追加しているのでしょうか?
> > それとも、Mecab解析結果もそのまま加えていますでしょうか?
> > もし前者の場合ですと、単純に考えると索引語としてとられるキーワードが
> > 少なくなってしまって、検索キーワードに対する再現率が落ちてしまいそう
> > な気がいたします。
> > (RDBMSを用いた簡易全文の実現といった雰囲気ですので、DBサイズとの
> > トレードオフによる結果なのかもしれませんが…)
> >
> > さて、日本語検索に関連して、追加で便乗質問させてください。
> >
> > 既に稼働されている機関でのリポジトリソフトウェアのうち、ご紹介のOJSや
> > DSpaceなど海外製のものは日本語検索への対応を機能追加されたりしたこと
> > と思いますが、言語固有の判別などはどのようにされていますでしょうか?
> > すべてのメタデータ・本文テキストに日本語分かち書き処理などをかけて
> > いますか?
> >
> > 当機構では、ドイツのマックスプランク研究所との共同開発に取り組んでおり
> > ますが、日英だけでなく、ドイツ語なども対象に加わるため、言語判別が
> > 必要になっており、若干、苦慮しております。特に運用方式にもよるのですが、
> > メタデータ登録時に、論文タイトル・アブストラクトなど、英文のものと
> > 和文のもの両者を登録しようとすると、それぞれのメタデータフィールド毎
> > に言語指定の選択肢を加える必要があるなど、複雑なメタデータ登録画面に
> > なってしまい、現実的な運用が難しくなるかな、と感じております。
> > 日頃から日英両言語でメタデータ作成されている機関や、多言語運用をされて
> > いる機関などで、運用面もしくはシステム面で工夫されているところがあり
> > ましたら、お教えいただければ幸いです。
> >
> > よろしくお願いします。
> >
>
>
> >> Subject: [drf:710] PKP OJS(オープンジャーナルシステム)の日本語化
> >>
> >>
> >> DRFの皆様
> >>
> >> NIIのCSI事業により早稲田大学が中心となって、Public Knowledge Projectにより開発された
> >> OJS(オープンジャーナルシステム)の画面やメッセージの日本語化が行われました。
> >>
> >> これを導入したところ日本語の検索が機能しませんでした。
> >>
> >> 英語は単語間にブランクあるのに日本語は連続していることが原因でした。
> >> そこで以下の変更を行いました。概略を報告します。
> >>
> >> 研究所では現在、システムの入れ替え作業中ですので、
> >> 一段落した後に公開する予定です。
> >>
> >> 日本語PDF論文のキーワードの抽出
> >> 1.PDFをpdftotextによりtextに変更
> >> 2.1文1行にする
> >> 3. MeCab(京都大学情報学研究科ー日本電信電話株式会社共同研究ユニットプロジェクトによる形態素解析エンジン)による解析
> >> 4.TermExtract(東京大学経済学部 前田朗氏による専門語取り出しperlモジュール)による語の抽出
> >> 5.以上を行うスクリプトを作成
> >>
> >> 日本語要旨
> >> 1.MeCab
> >> 2.TermExtract
> >> 以上をOJSのプログラムに組み込む
> >>
> >> 英語PDF論文のキーワードの抽出
> >> 1.PDFをpdftotextによりtextに変更
> >> 2.Tokenizerにより1文1行にする
> >> 3.GSPOTTLにより形態素解析を行う
> >> 4.TermExtractによる語の抽出
> >> 5.以上を行うスクリプトを作成
> >>
> >> 英語要旨
> >> OJS仕様のままでStop wordsを除く
> >>
> >> JUNII2対応への変更
> >> 各ジャーナルのsectionをJUNII2タイプに変換する対応テーブルを作る必要がある
> >>
> >>
> >> その他
> >> 1.日本円の表示で少数点以下の非表示
> >> 2.xx巻yy号(そのままでは巻xx号yy)表示
> >> 3.検索ボタンの追加
> >> 等
> >>
> >> 関心のある方はご連絡ください。
--
高久 雅生 <TAKAKU.Masao @ xxxxxxxxxx>
// 物質・材料研究機構 科学情報室
// 〒305-0047 茨城県つくば市千現1-2-1
// Tel: 029-859-2813 Fax: 029-859-2400