International Journal of Engineering Research and Technology (IJERT) 4 (04), 211-214
http://www.ijert.org/view-pdf/12802/a-survey-on-various-methodologies-of-automatic-text-summarization
テキスト自動要約のサーベイ。意味解析を含む3論文について詳しく解説し、統計的手法と意味的手法を組み合わせるべきだと結論付けている。
※言い訳:大和田は専門家でもなく背景知識も乏しいため、誤りや意味不明な部分を多々含みます。
自動要約には「Extraction based」と「Abstraction based」の二種類がある。
Extraction basedな手法は、元の文書から重要な文を抜き出すもので、より簡単なのでほとんどの手法はこちらである。Luhn [2] 1958, Edmondson [3] 1969, Barzilay & Elhadad [11] 1997, Marcu [12] 1997, Summarist [13] 1998, FociSum [14] 1999, chen & lin [15] 2000, Copeck et al [16] 2002, Newsblaster [17] 2002, CATS [18] 2005
Abstraction basedな手法は内容を理解した上で短い要約を生成するもので、人間はこれを行っているが、新しい意味の通った要約を生成するのは機械には難しい。MultiGen [19] 1999, Cut & Paste [20] 2001, sumUM [21] 2008 がこれに取り組んでいる。
要約アプローチ
文の意味に深く立ち入らずに要約を試みる手法はword frequency counts, sentence positions, extraction of headings, detection of cue phrasesなどの特徴を用いている。話題や文の意味をとらえようとする、より人間に近い手法もある。frequency counts of words, sentences, phrases, sentence positionsなどを用いる手法は「Statistical Methods」と呼ばれ、文の意味をとらえようとする手法は「Semantic Methods」と呼ばれる。Semanticな手法はWordNet[9], Part-Of-Speech tagger, Named Entity taggerの助けを用いて文章の理解を行っている。
Statistical Methods
最初の研究はLuhn58。Baxendale58では文の位置を考慮した(最初のパラグラフの最初のbeing文が重要)。Edmondson69ではコーパスを用い、word frequency, cue phrases (presence of
some significant words like significant, certainly, important, hardly etc.), title and heading words and sentence locationを用いて要約を行った。
Kupiec, Pedersen, and Chen95ではBayesian classificationを用いた。
Semantics Based Methods
Divyanshu Bhartiyaa and Ashudeep Singh[5] ではWordNetを用いた要約システムを提案した。この手法ではまずAnaphora Resolution or Pronominal Resolution、次にPart-of-Speech tagging, 最後にSemantic Roll Labelingを行っている。
Pronominal Anaphora Resolution (照応)とは、代名詞に名詞を代入する操作である。
Part-of-Speech(POS) taggingとは品詞タグ付け(≒形態素解析)のこと。
Semantic Roll Labeling(SRL)とは意味役割推定のことで、述語項構造の同定を行う。どの単語がどの動詞にかかっているか、等の解析を行って、文章を関数呼び出しのような表現に変換するものと考えてもよい(?)
この研究ではSRLにSENNAというソフトを用い、Propbank Annotation(?)を使って文のフレームを生成している。
全ての文のフレーム化が終了したら、WordNetを用いて下位および上位の概念語集合を得て、フレーム間の類似性を求める。この過程で重複もわかる。文をノードとし、類似の文をエッジに酔ってつなぐとグラフ構造ができるので、これをセグメンテーションし、セグメントごとに文を生成すれば、要約文ができる。
Regina Barzilay & Michael Elhadad [6] ’97ではlexical chainsを構築することで要約を行っている。lexical chainとは、単語の意味上のつながりによるグルーピングのことである。WordNet, POS tagger, shallow parser等を用いてセグメンテーションを行い、lexical chainを構築する。lexical chainから元の文書の話題がわかる。全てのlexical chainを生成したらスコアリングを行い、スコアが高い文を集めて要約とする。
StatisticalとSemanticを合わせたHybridアプローチもある。Diana Trandabat[7]は以下の3ステップで要約を行う。
① named entity identification
② sentence parsing and semantic roles extraction
③ extracting sentences containing specific semantic roles which have highest occurrences in the text.
この手法では、anaphora resolution(代名詞の代入)を行ったのちに、Statistical Methodによって特徴を抽出する。メインの特徴は文書内で最も頻繁に表れる固有表現(named entity)である。これらを集めて要約とする。
TAC08で発表されたAbdullah Bawakid and Mourad Oussalah[8]では、以下の3ステップで要約を生成する。
① Preprocessing
タグの除去、タイトル部分や文書ID、出版日などの抽出。使われている技術:NE tagger (Locations, Persons,Organizations, etc.) and POS tagger for Part-of-Speech tag
and co reference resolution.
② Extracting and Analyzing
文の位置同定、固有表現抽出タイトルとクエリの分析を行い、文と文の間の意味的な距離を用いてスコアを計算。
③ Generation
スコアの高いものを出現順に並べて出力
結論
統計的な手法と意味的な手法を組み合わせて用いるべきである。