Hokkaido University Collection of Scholarly and Academic Papers >
Graduate School of Information Science and Technology / Faculty of Information Science and Technology >
Peer-reviewed Journal Articles, etc >
分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム
Title: | 分節木と共有文字列で表現される符号上での効率良い圧縮照合アルゴリズム |
Other Titles: | An Effcient Compressed Pattern Matching Algorithm on Codes Represented by Parse Tree and Shared String |
Authors: | 喜田, 拓也1 Browse this author |
Authors(alt): | KIDA, Takuya1 |
Keywords: | VF符号 | 圧縮パターンマッチング | Collage system |
Issue Date: | Jun-2010 |
Publisher: | 電子情報通信学会 |
Journal Title: | 電子情報通信学会論文誌. D, 情報・システム |
Volume: | J93-D |
Issue: | 6 |
Start Page: | 733 |
End Page: | 741 |
Abstract: | 本論文では,VF符号で圧縮されたテキスト上でのパターン照合アルゴリズムについて論じる.ここで扱うVF符号とは,テキストを分節木によって可変長の部分文字列に分割し,固定長の符号語を割り当てる形式の符号化手法である.圧縮照合問題の形式的枠組みであるCollage systemを用いれば,VF符号上でKMP型の汎用的なアルゴリズムを組織的に導出でき,O(m2+D)時間・領域の前処理の後,O(n+R)時間で圧縮テキストを走査できる.ここで,m,n,R,Dはそれぞれ,パターン長,テキスト長,パターンの出現回数,圧縮辞書のサイズである.しかし,この圧縮辞書のサイズは,各符号語に対する文字列の長さの総和に等しい.そこで,分節木上で共有される文字列の構造を利用し,より効率良く前処理を行うアルゴリズムを提案する.提案アルゴリズムは,大きさ|T|の分節木T上の各ラベル文字列が,長さ|S|である文字列Sの一部分として表現されている場合,O(m2+|S|+|T|)時間・領域で前処理を行うことができる.ここで,|S|+|T|はもとのDよりも非常に小さいものである.本結果は,Collage system上で示されており,同種の構造の圧縮法であればVF符号に限らず適用できる. |
Rights: | Copyright © 2010 社団法人 電子情報通信学会(IEICE). |
Relation: | http://search.ieice.org/ |
Type: | article |
URI: | http://hdl.handle.net/2115/47140 |
Appears in Collections: | 情報科学院・情報科学研究院 (Graduate School of Information Science and Technology / Faculty of Information Science and Technology) > 雑誌発表論文等 (Peer-reviewed Journal Articles, etc)
|
Submitter: 喜田 拓也
|