DRFの皆様
NIIのCSI事業により早稲田大学が中心となって、Public Knowledge Projectにより開発された OJS(オープンジャーナルシステム)の画面やメッセージの日本語化が行われました。
これを導入したところ日本語の検索が機能しませんでした。 英語は単語間にブランクあるのに日本語は連続していることが原因でした。 そこで以下の変更を行いました。概略を報告します。 研究所では現在、システムの入れ替え作業中ですので、 一段落した後に公開する予定です。 日本語PDF論文のキーワードの抽出 1.PDFをpdftotextによりtextに変更 2.1文1行にする 3. MeCab(京都大学情報学研究科ー日本電信電話株式会社共同研究ユニットプロジェクトによる形態素解析エンジン)による解析 4.TermExtract(東京大学経済学部 前田朗氏による専門語取り出しperlモジュール)による語の抽出 5.以上を行うスクリプトを作成 日本語要旨 1.MeCab 2.TermExtract
以上をOJSのプログラムに組み込む 英語PDF論文のキーワードの抽出 1.PDFをpdftotextによりtextに変更 2.Tokenizerにより1文1行にする 3.GSPOTTLにより形態素解析を行う 4.TermExtractによる語の抽出 5.以上を行うスクリプトを作成 英語要旨
OJS仕様のままでStop wordsを除く JUNII2対応への変更 各ジャーナルのsectionをJUNII2タイプに変換する対応テーブルを作る必要がある その他 1.日本円の表示で少数点以下の非表示 2.xx巻yy号(そのままでは巻xx号yy)表示 3.検索ボタンの追加 等 関心のある方はご連絡ください。 日本貿易振興機構 アジア経済研究所図書館 高木敏朗 taka @ xxxxxxxxxx |