医療言語処理

自然言語処理シリーズ 12

医療言語処理

  • 奥村 学 東工大教授 工博 監修
  • 荒牧 英治 奈良先端科学技術大学院大特任准教授 博士(情報理工学)

情報処理研究者を対象にリソースをさまざまなテキストから紹介し,医療言語処理の基本を押さえた手法を解説している。

ジャンル
発行年月日
2017/08/25
判型
A5
ページ数
182ページ
ISBN
978-4-339-02762-4
  • 内容紹介
  • まえがき
  • 目次
  • 著者紹介

医療分野の情報処理の高度化は,電子カルテの実用化により加速している。医療言語処理はその基盤を支える技術である。本書は情報処理研究者を対象にリソースをさまざまなテキストから紹介し,基本を押さえた手法を解説している。

医療分野の情報処理は加速している。電子カルテの実用化により医学・診療情報の蓄積が急速に進みつつある。加えて,それを処理する機械学習やディープラーニングなど新しいデータ処理技術も研究が進んでいる。間違いなく,医療分野の情報処理の高度化は,今後の社会変革のトリガーになるであろう。そして,その基盤を支える技術として,自然言語処理は必須の要素となるはずである。

しかし,現在まで,医療分野の言語処理に関する書籍は刊行されていない。医療分野の言語処理を進めていくうえで必要となる情報は2種類ある。まず,情報処理研究者にとっては,医療分野にどのような研究材料があり,どのようなリソースが利用可能で,なにを目指せばよいかといったことが重要であろう。一方,医療情報処理に従事してきた研究者や実務者にとっては,どのような自然言語処理技術がどの程度の水準にあるのか? ある目的のためになにを使えばよいのか? といったことが必要となるであろう。本書は,前者を想定している。まず,医療においてこれまで開発されたリソースを紹介している。リソースは,電子カルテ文章だけでなく,ウェブテキストや患者の語りなど,医療文章以外のテキストも対象としている。なかなかなじみのない医療データを紹介するために,実際のデータに近いデータや,書式も含めるように工夫した。手法については,研究事例をベースとしたが,単なる研究紹介にとどまらず,教科書としての使用も可能なように,基本を押さえた内容となるように配慮している。本書が医療分野の言語処理の発展の一助となることを祈念している。

なお,本書の執筆にあたっては多くの人々の助力を得た。特に,奈良先端科学技術大学院大学情報科学研究科の若宮翔子博士研究員,伊藤薫研究員,金子雅美技術補佐員,山本英弥君には丁寧なチェックをしていただいたことを深く感謝する。また,慶應義塾大学大学院薬学研究科臼井美紗さんには医薬品情報学に関する指導,東京大学医学部附属病院河添悦昌講師,篠原恵美子特任助教には医療情報学に関する指導をいただき,感謝する。

2017年5月 荒牧英治

1. 医療情報の利活用とは
1.1 医療情報学の歴史
1.2 病院内テキストの利活用
1.3 パブリックデータの利活用
1.4 プライベートデータの利活用
1.5 各国の動向
1.6 今後の動向

2. 利用可能なリソース・ツール
2.1 辞書・シソーラス・オントロジー
 2.1.1 人間のための辞書
 2.1.2 オントロジーとシソーラス
 2.1.3 バイオインフォマティクス・オントロジーとクリニカル・オントロジー
 2.1.4 SNOMED-CT
 2.1.5 ICD-10
 2.1.6 MeSH
 2.1.7 MedDRA
 2.1.8 UMLS
 2.1.9 医薬品に関するリソース
 2.1.10 検査に関するリソース
 2.1.11 治療・処置に関するリソース
 2.1.12 標準病名マスター
2.2 その他の辞書・リソース
2.3 コーパス
 2.3.1 i2b2 NLPコーパス
 2.3.2 GSK診療録コーパス
 2.3.3 NTCIR MedNLPコーパス
2.4 言語ツール

3. 病院内テキスト
3.1 病院内テキストとは
 3.1.1 診療録
 3.1.2 サマリ
 3.1.3 看護記録
 3.1.4 読影レポート・病理レポート
 3.1.5 手術記録・麻酔記録
 3.1.6 説明書・同意書
 3.1.7 その他のコメディカル文書
 3.1.8 レセプトデータ
 3.1.9 有害事象報告
 3.1.10 副作用報告
 3.1.11 救命救急文書
3.2 おもな研究課題
 3.2.1 固有表現認識ベースの匿名化
 3.2.2 プライバシー保護マイニング・ベースの匿名化
 3.2.3 自動コーディング
 3.2.4 患者情報抽出
 3.2.5 診断支援・自動診断
 3.2.6 標準化(表記ゆれ吸収)
 3.2.7 副作用シグナルの自動検出
 3.2.8 入力支援
 3.2.9 NTCIRMedNLPシリーズ
3.3 カルテテキストへのアノテーション
3.4 アノテーションにおける諸問題
3.5 倫理申請

4. パブリックデータ:公開テキストの医療言語処理
4.1 さまざまな公開テキスト
 4.1.1 学術論文
 4.1.2 研究スタイル
 4.1.3 臨床試験登録情報
 4.1.4 NDB
 4.1.5 コホートデータ
 4.1.6 ソーシャルメディアのデータ
 4.1.7 バイオNLPコーパス
 4.1.8 その他のデータ
4.2 おもな研究課題
 4.2.1 論文検索
 4.2.2 タンパク質相互作用抽出
 4.2.3 構造を考慮した検索高速化
 4.2.4 感染症サーベイランス
4.3 実アプリケーション
4.4 ソーシャルメディア・データのラベル付け

5. プライベートデータ:患者テキストの医療言語処理
5.1 患者の記述するテキスト
 5.1.1 疾患別の患者テキスト
 5.1.2 情報収集源としての患者テキスト
 5.1.3 三つのアプローチ
5.2 QOLアプローチ
5.3 教育アプローチ
5.4 研究アプローチ
5.5 おもな研究課題
 5.5.1 表記ゆれ吸収
 5.5.2 ウェブ情報の信頼性
 5.5.3 高齢者の孤立を防ぐコミュニケーションツール

6. これからの医療言語処理研究
6.1 研究を始めるにあたって
 6.1.1 ジャーナル
 6.1.2 国際会議
6.2 今後の展望

引用・参考文献
索引

奥村 学(オクムラ マナブ)

荒牧 英治(アラマキ エイジ)

人工知能関連書籍 特設ページ開設中!人工知能関連の書籍をまとめました。