Proceeding SIGIR ’98 Proceedings of the 21st annual international ACM SIGIR conference on Research and development in information retrieval Pages 335-336
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.188.3982&rep=rep1&type=pdf
http://dl.acm.org/citation.cfm?id=291025

クエリが与えられた時に関連するExtractiveな要約を生成する(重要な文を抽出する)問題においてよく使われるMMR(Maximal Marginal Relevance)の元論文。

はっきり言ってかっこいい論文。何がかっこいいって、わずか2ページ。重要なところはこの評価関数を提案しただけ。

[latexpage] Qがクエリ。Dが一つのドキュメント(要約問題の場合は、と言い換えてもよいかと)。Sはすでに抽出済みのドキュメント集合。λは0と1の間の定数。
何を言っているかというと、要はクエリにマッチしつつ、すでにマッチ済みのドキュメントとはなるべく異なるような評価関数がよいと言っている。一項目の$Sim_1$はクエリとの類似性、二項目の$Sim_2$はすでに選び出されたドキュメントとの類似性を表している(負数がかけられている)。

$Sim$の計算方法にはいろいろとあるが、基本的にはドキュメントを特徴ベクトルで表し、内積距離を計算すればよい。
こんな単純なアイデアだが、(この式を用いたその後の研究を見ても)効果は抜群であるらしい。

論文は割と大雑把というか、明らかな間違いがいくつかある。それがまた、余裕綽々でかっこいい(?)


いや~、なんかこう、見直しもろくすっぽせず最小限の努力で最大限インパクトのある成果を発表するって素晴らしい。
Perlin Noiseの、本人による拡張論文に似てるかもしれない。

カテゴリー: Blog