HUSCAP logo Hokkaido Univ. logo

Hokkaido University Collection of Scholarly and Academic Papers >
Graduate School of Information Science and Technology / Faculty of Information Science and Technology >
Peer-reviewed Journal Articles, etc >

WWW活用による語の比喩的素描手法

Files in This Item:
JJSFTII22-6_707-719.pdf1.18 MBPDFView/Open
Please use this identifier to cite or link to this item:http://hdl.handle.net/2115/50332

Title: WWW活用による語の比喩的素描手法
Other Titles: WWW-based Figurative Descriptions for Japanese Word
Authors: 桝井, 文人1 Browse this author
ジェプカ, ラファウ2 Browse this author →KAKEN DB
木村, 泰知3 Browse this author
福本, 淳一4 Browse this author
荒木, 建治5 Browse this author
Authors(alt): Masui, Fumito1
Rzepka, Rafal2
Kimura, Yasutomo3
Fukumoto, Jun-ichi4
Araki, Kenji5
Keywords: 比喩的素描
デスクリプタ
直喩表現
定型パターン
figurative descriptions
descriptor
simile expression
fixed pattern
Issue Date: Dec-2010
Publisher: 日本知能情報ファジィ学会
Journal Title: 知能と情報
Journal Title(alt): Journal of Japan Society for Fuzzy Theory and Intelligent Informatics
Volume: 22
Issue: 6
Start Page: 707
End Page: 719
Publisher DOI: 10.3156/jsoft.22.707
Abstract: 論文では,クエリ語に対して説明文や定義文を回答する代わりに,WWWから収集した断片知識を使って比喩的に素描する手法を提案する.提案手法は,直喩表現を生成する指標パターンを利用して,WWWから大量の名詞句の関係を収集する.そしてこれらの情報に基づいて,デスクリプタと呼ばれる,クエリ語を描写する断片知識を獲得する.各デスクリプタの一般性と局所性を考慮してその記述力を推定し,これに基づいてランキングして視覚化する.さらに,比喩的関係が持つ性質と複数の定型パターンによる知識獲得技術を組み合わせることによって,獲得したデスクリプタ集合を上位語,属性語に分類する.ユーザは視覚化された比喩的素描を見ることによって,連想的にクエリ語の意味を把握できる.提案手法の有効性を検証するために,実装システムMurasakiを構築し,いくつかの評価実験を実施した.その結果,基本性能については,bag of wordsを用いるよりもかなり有効であることを確認した.また,検索サイトにおける注目キーワードに対する応答性能では,汎用辞書の性能を大きく上回り(60%の適合率),新語や固有名詞に対して非常に有効であることがわかった他,ランキング性能(74%のMRR)や分類性能(63%の成功率)についても有効性が確認できた.さらに,獲得するデスクリプタの網羅性を安定させれば,比喩的素描によってWikipediaに近い効果が得られる可能性(81%のヒット率)を持つこともわかった.この結果は,我々が提案する比喩的素描による表現手法が,説明文や定義文の代わりに機能する可能性を示したとともに,既存の汎用辞書には対応できない新語や固有名詞に対しても有効であることを示している.
In this paper, we propose a method for describing a Japanese word, not with explaining or defining sentences, but with figurative descriptions. Utilizing a simile pattern, our method gathers a large number of noun-noun relations from the World Wide Web. On the basis of those relations and their statistical information, associative pieces of knowledge called descriptors are estimated. The descriptors, which describe a query word figuratively, are sorted by ranking in order of descriptive ability level with generality and locality. Moreover, combining property of figurative relation and some fixed patterns, the descriptors are classified into concept words, attribute words, and the others. As output, a set of sorted descriptors is shown with several types of output forms. Some experiments using a prototype system "Murasaki" have been conducted. The experimental results show that the fundamental performance of our method is significantly better than the bag-of-words approach. Additionally, the responsiveness for hot keywords on information retrieval web sites shows that the outcome of the evaluation had 60% precision, which exceeds that of a common dictionary. The method also functioned effectively in ranking performance (74% on MRR) and classification performance (63% accuracy). Furthermore, it is possible that the proposed method could be comparable to Wikipedia if steady coverage of the figurative descriptions for a query word could be ensured.
Type: article
URI: http://hdl.handle.net/2115/50332
Appears in Collections:情報科学院・情報科学研究院 (Graduate School of Information Science and Technology / Faculty of Information Science and Technology) > 雑誌発表論文等 (Peer-reviewed Journal Articles, etc)

Submitter: RZEPKA Rafal

Export metadata:

OAI-PMH ( junii2 , jpcoar_1.0 )

MathJax is now OFF:


 

 - Hokkaido University