情報アクセス評価方法論 - 検索エンジンの進歩のために -
情報アクセスシステムを,研究者が適切な方法で評価し,健全な技術進歩に貢献するための道筋を示すことを目的とした。
- 発行年月日
- 2015/06/11
- 判型
- A5
- ページ数
- 314ページ
- ISBN
- 978-4-339-02496-8
- 内容紹介
- 目次
情報検索システムに代表される情報アクセスシステムを,研究者が適切な方法で評価し,健全な技術進歩に貢献するための道筋を示すことを目的とした。読者としては,コンピュータサイエンス系の学生や周辺分野の研究者を想定している。
1. 情報検索評価の歴史
1.1 情報検索研究の夜明け
1.2 Cranfield 実 験
1.2.1 Cranfield I
1.2.2 Cranfield II
1.3 SMART システムの実験
1.4 MEDLARS システムの実験
1.5 “理想的な” 情報検索テストコレクション
1.6 評価型会議の始まり
1.7 文献紹介
2. 基本的な情報検索評価指標
2.1 適合性判定の前提
2.2 集合検索評価指標
2.2.1 再 現 率 と 精 度
2.2.2 E-measure と F-measure
2.2.3 マクロ平均とマイクロ平均
2.3 二値適合性に基づくランクつき検索評価指標 .
2.3.1 再現率・精度曲線
2.3.2 11 点平均精度,R 精度,測定長における精度
2.3.3 平 均 精 度
2.3.4 逆 数 順 位
2.4 多値適合性に基づくランクつき検索評価指標 .
2.4.1 nDCG
2.4.2 Q-measure
2.4.3 NCU と P+
2.4.4 ERR
2.4.5 RBP
2.4.6 多値適合性に基づく評価指標の比較 .
2.5 文 献 紹 介
3. より複雑な情報検索評価指標
3.1 失敗分析に適した評価指標
3.1.1 GMAP
3.1.2 改善信頼性(RI)
3.2 不完全性を考慮した評価指標
3.2.1 bpref と RankEff
3.2.2 短縮リストを用いた評価
3.2.3 infAP
3.3 セッション向け評価指標
3.4 等価性と組み合わせ適合性への対応
3.4.1 等価性クラスの扱い
3.4.2 組み合わせ適合性の扱い .
3.5 多様化検索のための評価指標
3.5.1 α-nDCG
3.5.2 ERR-IA
3.5.3 D-measure
3.5.4 検索意図タイプを考慮した多様化検索評価指標 .
3.5.5 多様化検索のための評価指標の比較 .
3.6 時間に着目した評価指標 TBG
3.7 XML 検索向け評価指標
3.7.1 エレメント検索の評価指標
3.7.2 パッセージ検索の評価指標
3.8 文献紹介
4. テキストを対象とした情報アクセス評価指標
4.1 機械翻訳の自動評価指標 BLEU
4.2 要約の自動評価指標 ROUGE
4.3 質問応答の評価指標
4.4 ワンクリックアクセスの評価指標 .
4.4.1 S-measure
4.4.2 T-measure と S♯
4.5 汎用的な評価指標 U-measure
4.5.1 Trailtext と U-measure
4.5.2 U-IA と D-U
4.6 文 献 紹 介
5. テストコレクションを用いた評価
5.1 テストコレクションの選定
5.2 評価ツール
5.2.1 trec eval
5.2.2 NTCIREVAL
5.3 統計的検定:二つのシステムの比較
5.3.1 対応のある t 検定
5.3.2 符号検定
5.3.3 ブートストラップ検定
5.3.4 ランダム化検定
5.4 統計的検定:三つ以上のシステムの比較
5.4.1 1 元配置の分散分析
5.4.2 繰り返しのない 2 元配置の分散分析 .
5.4.3 ランダム化 Tukey HSD 検定
5.5 統計改革
5.5.1 効果量
5.5.2 信頼区間
5.6 実験結果の報告の仕方
5.6.1 二つのシステムの比較評価結果の報告
5.6.2 三つ以上のシステムの比較評価結果の報告
5.6.3 失敗分析
5.7 進歩の検証
5.7.1 適切なベースラインの選択
5.7.2 評価型会議における進歩の検証
6. テストコレクションの設計
6.1 トピック数設計
6.1.1 t 検定に基づく方法
6.1.2 1元配置の分散分析に基づく方法
6.1.3 信頼区間に基づく方法
6.1.4 母分散の推定
6.2 プーリングと適合性判定
6.2.1 プーリング方式と提示順序のバリエーション
6.2.2 適合性判定基準
6.2.3 適合性判定ツール
6.2.4 判定者間不一致の評価
6.3 文献紹介
7. テストコレクションおよび評価指標の評価
7.1 適合性判定の縮小
7.1.1 リーブワンアウト法
7.1.2 プール長の縮小
7.2 順位相関
7.2.1 Kendall の τ
7.2.2 Yilmazらのτ ap
7.2.3 その他の順位相関係数
7.4 判別能力
7.5 トピック数設計
7.6 一致度テスト
7.7 文献紹介
8. 評価型会議の概観と情報アクセス評価の新潮流
8.1.1 過去の TREC トラックより
8.1.2 TREC 2014 のトラック
8.2 評価型会議 NTCIR
8.2.1 過去の NTCIR タスクより
8.2.2 NTCIR-11(2014 年)のタスク
8.3 その他の情報アクセス評価型会議
8.3.1 CLEF(2000~)と初期 INEX(2002~2012)
8.3.2 その他
8.4 情報アクセス評価の新潮流
8.4.1 クリックデータの活用
8.4.2 その他のシグナルの活用 .
8.5 文献紹介
8.5.1 国際会議
8.5.2 国際論文誌
引用・参考文献
索引