自然言語処理シリーズ 10
文脈解析 - 述語項構造・照応・談話構造の解析 -
文脈理解に関する自然言語処理の主要な問題である「述語項構造解析」,「共参照・照応解析」,「談話構造解析」についてまとめた。
- 発行年月日
- 2017/06/15
- 判型
- A5
- ページ数
- 196ページ
- ISBN
- 978-4-339-02760-0
- 内容紹介
- まえがき
- 目次
- レビュー
- 広告掲載情報
本書では,文脈理解に関する自然言語処理の主要な問題である「述語項構造解析」,「共参照・照応解析」,「談話構造解析」について,どのように問題が具体化され,その問題に対してどのような手法が提案されているかを概観する。
本書は,「述語項構造解析」,「共参照・照応解析」,「談話構造解析」という自然言語テキストの文脈理解に関連した三つの解析についてまとめた専門書である。これらの解析はいずれも,形態素解析や係り受け解析などの表層に近いレベルの解析から,自然言語テキストの意味理解に向けて一歩踏み込んだ処理であり,高度な自然言語処理アプリケーションを実現するにあたり重要となってくる技術であるといえる。しかし,文脈理解に関連した処理は,『意味』という漠としたものを扱う必要があることから,これらの処理が対象とする問題の定義は,どのような『意味』を捉えたいかによって異なっており,また,必然的に複雑なものとなっている。このような問題設定の多様性・複雑性は,自然言語処理の初学者が文脈解析に取り組む際のハードルとなっているように思える。
そこで本書では,文脈理解に向けて必要となる処理のうち,現時点で比較的盛んに研究されている「述語項構造解析」,「共参照・照応解析」,「談話構造解析」という三つのトピックを対象に,解析手法そのものよりも,それぞれの解析がどのような問題を解こうとしているかや,関連する言語資源がどのような考えの下で作成されているかを中心に解説する。本書では読者として,これから文脈解析に取り組もうとする研究者や大学院生に加え,文脈処理をより高次のタスクに応用したいと考えている研究者や,文脈解析を利用したシステムの開発を行いたいと考えている技術者など,文脈解析に興味をもつすべての方を想定しており,自然言語処理に関する最低限の事前知識で内容を理解できるような記述を心掛けた。本書が,多くの方々にとって,自然言語処理分野における文脈解析に向けた取組みを理解する一助となれば幸いである。
本書の構成(担当)は以下のとおりである。まず,1章「はじめに」(飯田)において文脈解析について概説した後,2章で「述語項構造」(笹野),3章で「共参照・照応解析」(3.1.2項,3.1.3項,3.3節が笹野,それ以外が飯田),4章で「談話構造解析」(飯田)についてそれぞれ解説する。また,文脈解析というテーマからは外れるが,付録において「自然言語処理の分野で使用される代表的な検定手法」(笹野)を紹介する。これは,著者の1人(笹野)が自然言語処理の研究を進めるにあたり,自然言語処理で使用される検定に関する情報がまとめられた書籍やサイトが見つからず苦労した経験があることから,自然言語処理の分野で使用される代表的な検定手法についてまとめたものである。
本書を執筆するにあたり多くの方々にお世話になった。東京工業大学の奥村学教授には本書のご提案および監修をしていただいた。東京工業大学の高村大也准教授,富士通研究所の横野光氏,東北大学の松林優一郎特任助教,NTTコミュニケーション科学基礎研究所の平尾努氏,東京工業大学の馬緤美穂氏には,完成前の原稿を読んでいただきさまざまな改善点や助言をいただいた。東京大学の西村義樹教授,立命館大学の岡本雅史准教授,杏林大学の黒田航准教授には言語学分野における考え方などについてご教示いただいた。また,コロナ社様には本書の刊行のために大変なご尽力をいただいた。ここに感謝の意を表す。
2017年5月 笹野遼平
1. はじめに
2. 述語項構造解析
2.1 述語項構造とは
2.2 述語項構造の定義
2.2.1 述語の種類
2.2.2 述語項構造における項
2.2.3 表層格に基づく関係ラベル
2.2.4 深層格に基づく関係ラベル
2.3 述語以外の項構造
2.3.1 日本語における名詞の項構造
2.3.2 英語における名詞の項構造
2.4 述語項構造解析
2.4.1 日本語述語項構造解析
2.4.2 英語を対象とした深層格の解析
2.5 述語項構造解析のツール
2.6 述語項構造解析の応用
3. 共参照・照応解析
3.1 共参照と照応
3.1.1 共参照
3.1.2 照応
3.1.3 共参照と照応の関係
3.2 共参照・照応解析
3.2.1 人手で作成した規則を利用した共参照・照応解析手法
3.2.2 統計的な共参照・照応解析手法
3.2.3 ゼロ照応解析
3.3 共参照・照応解析の評価
3.3.1 共参照解析の評価
3.3.2 照応解析の評価
3.4 共参照・照応解析ツール
4. 談話構造解析
4.1 談話とは
4.2 談話の構成単位
4.2.1 談話単位
4.2.2 サブトピック単位
4.3 談話関係分類,談話構造
4.3.1 修辞構造理論
4.3.2 談話関係のグラフ構造:DiscourseGraphBank
4.3.3 隣接談話関係:PennDiscourseTreebank
4.3.4 議論区画化
4.4 談話構造解析
4.4.1 談話単位分割
4.4.2 談話関係分類
4.5 談話構造解析ツール
4.6 局所的な首尾一貫性の推定
4.7 談話構造解析の応用
4.7.1 自動要約への応用
4.7.2 小論文の自動採点への応用
付録
A.1 統計的仮説検定の基礎と性質
A.1.1 統計的仮説検定の基礎
A.1.2 仮説検定の分類
A.1.3 統計的仮説検定の一般的性質
A.2 自然言語処理における検定
A.2.1 フィッシャーの正確検定
A.2.2 マクネマー検定
A.2.3 対応のあるデータに対する並べ替え検定
A.2.4 ウィルコクソンの符号順位検定
A.2.5 一般の並べ替え検定
A.2.6 ブートストラップ法
A.3 検定に関する一般的な注意点
引用・参考文献
索引
読者モニターレビュー(@hiro5585様)
言語処理は、人の言葉の意味をコンピュータに理解させる処理のことで、いわゆる、最近流行りの人工知能技術の一分野に相当するものです。この本は、その中でも「言葉の意味」に焦点を当て、意味とはどういうもので、コンピュータにどのように解かせるかについて説明しています。言語処理をやったことない人でも読めるように分かりやすく書いてあります。
本の構成としては「述語項構造解析」「共参照・照応解析」「談話構造解析」の3本立てとなっています。
それぞれを簡単に説明すると、「述語項構造解析」は例えば、TOEICの本である文を読んでいる時に、その述語の主語が誰か、目的語がどれかといったものをコンピュータに当てさせる処理のことです。
「共参照・照応解析」は例えば、Stack Overflowを見て頭を悩ませているところに、代名詞のitがでてきた際に、それがなにを指しているかをコンピュータに当てさせる処理のことです。
「談話構造解析」は例えば、小説を一文一文ゆっくりと読んでいる時に、それらの文がどういう関係で繋がってるかをコンピュータに当てさせる処理のことです。
この本では、これらを総称して文脈解析と呼んでいます。
全体的な印象としては、実例が豊富に用いられていて、それぞれの章でどんな問題を解こうとしているかが非常に明快に書いてあり読みやすかったです。実際にツールで解析を行った際の結果も載ってており、処理のイメージが湧きます。
ただ、それぞれの問題をどういった手法で解くべきかの考察が薄く、機械学習などの最近の手法で解く際にどういった課題があるかを明らかにしてほしかったです。
それを補うという意味で、同シリーズの「言語処理のための機械学習入門」と一緒に読むとよいかもしれません。
以降は、各章のレビューとなります。
まずは、2章の「述語項構造解析」についてです。
この章は、他の章への橋渡しになっており、"意味"をどう解釈するべきかについて詳しく書いてあります。その中で、述語とその項(主語や目的語など)を特定する問題を定義し、
その難しさを実例を用いて説明してあります。日本語ならではの難しさがあることもよく分かりました。
ただ、前半で色々と課題が列挙されている割に、それぞれの課題に対してどう対処するかの方針があまり書かれていなかったのが残念です。
途中から、過去の研究においてコンピュータにどう解かせるタスク(問題)として定義されてきたかが述べてあります。それぞれのタスクで、異なる問題設定になっており、どういう点に気を付ければよいか述べてありよかったです。
後半では、字面では表現されていない裏側にある深層格というものに対して、役割を付与するタスクが説明されています。最後に具体的な文をツールを使って解析させたときの結果が説明されており、よかったです。述語項構造解析が、含意関係認識などの応用へ繋がっていることもよく分かりました。
次は、3章の「共参照・照応解析」についてのレビューです。
この章も前章と同じく、共参照解析および照応解析の問題定義が実例とともにしっかり定義されており、なにをコンピュータに解かせようとしているのかがよく分かりました。特に、両者の問題は密接に関係したものであり、どこが同じでどこが違うかをベン図で丁寧に説明されていました。先ほどの、述語項構造解析と比べ、共参照解析はそのタスク設定自体が研究者間で揺れており、それぞれの思想でコーパス(データ)が整備されてあり、注意しなければいけない点があるということが分かりました。
この本は手法を中心に解説をしているのではなく、研究者の思想に基づいた問題定義と、それに対応するコーパスを中心に説明が書かれています。どの問題定義にも例外が存在しそれぞれの立場で語られているのはよかったです。
途中から、具体的な解析手法が述べられており、人の知識に基づいて作られたルールベースの手法の説明が書いてあります。そして、その課題点を挙げて、それを克服するための機械学習を用いた手法へと説明が展開されています。特徴量(素性)の話に加えて、学習を上手く進めるための正例と負例のバランスの話などが書かれています。ここでは、課題の克服のための技術の系譜が説明されており面白かったです。
後半では、日本語によくある主語の省略に対して、その主語がなにを指しているかを解析するゼロ照応解析の説明が書かれています。解析手順が書いており、その中でどういった難しさを含んでいるか指摘されています。そして、その解析が正しいかを評価する方法がかなり綿密に記載されています。各評価方法の課題点、具体例に対する評価結果などが載ってあり参考になりました。
最後に、照応解析のツールとしてKNPの結果が表示されており解析に対するイメージが湧きました。
そして、4章の「談話構造解析」についてのレビューです。
談話構造解析は、前章までと比較して幅広い文脈を扱った解析となります。文章を談話単位という塊に分けた際に、それらが一貫した意味の繋がりを成しているかを解析します。この処理は昔から考えられていましたが、どういう問題設定として解くべきか、瞑想していた分野であったと思います。
それを現時点まで、どういう問題定義として世の中の人が解こうと試みてきたかが書かれています。
談話構造解析は、談話単位の分割と、談話単位の分類とに問題が大きく分けられます。
前者の談話単位分割に関しては、接続詞や節が大きな手掛かりとなり一定の成果が得られているそうです。そのため、内容としては主に後者の談話単位の分類に焦点が当たっています。
そこでは、談話の構造に関する過去の研究が四つ述べられています。例えば、修辞構造理論では、談話の中心要素とその周辺の関係をボトムアップに推定していく話が書かれています。他に、論文などの順序性が明確な文章に対しては、議論区画化という方法が紹介されていました。
関係分類の具体的な手法もいくつか紹介されており、分類問題へ帰着させる方法であったり、部分木の選択問題に帰着させる方法などが述べてありました。
上記は、二つの談話単位がどういった関係にあるかといった問題でしたが、それよりも広い文脈に対して、首尾一貫性があるかを解析する問題も述べてあります。この章では分野が未成熟ということで、ツールでの実例の紹介はなかったのですが、自動要約への応用や、小論文の論理展開の採点など、これからに続く話が書いてあってよかったです。
総評すると、それぞれの章で、意味に対する問題定義について丁寧に説明されており、それを世の中の人がどのように解こうとしてきたかの系譜が書かれており、非常に参考になります。また、ツールでどう解析されるのか、どれぐらいの精度が出るのかも、示されており良かったです。言語処理を専門としていない人でも読めるように書かれており、今後のより深い、人工知能技術の発展に関心がある方には一読の価値があると思います。
読者モニターレビュー(太田 博三 様)
全体的にはとてもわかりやすく,丁寧に書かれている専門書でした。
大きく4つの章から構成されている。
1. 文脈解析では大まかな本書の流れが記述されている。
その上で,2. 述語項構造解析(機械翻訳や対話応答システムの精度向上につながります),3. 共参照・照応解析(評価法が非常に参考になりました),4. 談話構造解析(自動要約との関連や文と文とのつながりをentity-grid用いて局所的なつながりのよさを表現するなどの紹介があります)と例文を中心とした詳細な説明がなされており,各ツールの紹介もある。
更に,付録としてフィッシャーやマクネマー検定やブートストラップ法など、システム開発の際に必要とされる自然言語処理に必要な統計的仮説検定が解説されています。
本書は単体で購入しても理解出来る良書と言えます。
読者モニターレビュー(mo様)
本書籍は,形態素解析や係り受け解析などの表層レベルの解析ではなく,文脈理解に必要な深層レベルの解析手法を扱った専門書です。中でも現時点で比較的盛んに研究されている「述語項構造解析」「共参照・照応解析」「談話構造解析」という三つのトピックに焦点が当てられています。
それぞれのトピックに関して,抽象的な理解に終わらず,具体的にどういう問題,処理,結果が出てくるのか,昨今のメインの解析手法にはどういったものがあるのかを把握することができます。
本書が書かれた背景としては,表層レベルの基礎技術が成熟化する中,それらの出力を受けて解くべき課題として想定されている,文脈解析処理の高度化が望まれていることがあると思います。「文脈」をどのように解析するかといった問題設定は漠としたものであり,場合によっては研究者間でコンセンサスが得られない場合も存在しています。
そういった中で本書からは,個別の解析手法の詳細やそれぞれの差異を網羅的に知ることができます。
書籍の中身に関しては,実例が豊富に用いられていて,それぞれの章でどのような問題を解こうとしているかが,非常に明快でありイメージがわきやすかったです。ただし,問題の解き方に関してなぜその手法を適用するのかについてはあまり触れられていません。
読了後は,扱われている題材に関して網羅的な知識が得られるだけではなく,今後より専門的な書籍や論文にあたる際の手助けとなる良書だと思います。
amazonレビュー
-
掲載日:2020/06/18