フリーソフトTETDMで学ぶ実践データ分析 データサイエンティスト育成テキスト

フリーソフトTETDMで学ぶ実践データ分析 - データサイエンティスト育成テキスト -

  • 砂山 渡 滋賀県立大教授 博士(工学)

フリーソフトTETDMで,データサイエンティストに求められている能力と技術を習得。

ジャンル
発行年月日
2020/03/27
判型
A5
ページ数
188ページ
ISBN
978-4-339-02904-8
フリーソフトTETDMで学ぶ実践データ分析 データサイエンティスト育成テキスト
在庫あり

定価

2,750(本体2,500円+税)

カートに入れる

購入案内

  • 内容紹介
  • まえがき
  • 目次
  • 著者紹介
  • 広告掲載情報

【書籍の特徴】
 「活用したいデータが目の前に山のようにあるのに,どのように手をつけたらよいかがわからない。」「データサイエンティストってかっこよさげだけど,具体的に何をすればいいのかわからない。」「数学が苦手だから,自分にはちょっとデータ分析は無理かな。」など,データ分析とは何かをもっと詳しく知りたい方,データ分析を最初から敬遠されている方にオススメの書籍です。
 誰でも使えるフリーソフトのTETDMを使った分析手法を紹介するだけではなく,データ分析の一連の手順と,各手順における考え方を詳しく説明しているため,データサイエンティストを目指される方には必携の一冊となっています。データ分析の個別の手法を説明する本は数多くありますが,知識創発を含むデータ分析手順の全体像を,具体的なツールを用いながら説明する本は他にありません。
【各章について】
 1章では,データ分析とは意思決定のために行うものであることを記し,望ましい未来を築くためのデータ分析の一連の手順について説明している。2章では,テキストデータ分析のために本書で用いるツールTETDMの基本的な使い方と,初学者のための分析手順について説明している。3章では,分析の目的と分析に必要なデータとの関係について記述している。4章では,TETDMを用いたデータ分析手法と分析結果の可視化の視点から,有効な分析結果を得るための方法について説明している。5章では,知識を導く手がかりとしての分析結果を数多く集めるための,効果的な試行錯誤の方法について説明している。6章では,5章で集めた手がかりの集合を整理して,データの背後に隠された知識(因果関係)を導く方法について記述している。7章では,TETDMを用いた実際のデータ分析の活用事例を紹介し,データ分析の幅広い応用可能性について説明している。
【著者からのメッセージ】
 意思決定に必要な世の中の事象の意味は「言葉」で表されます。データサイエンスでは統計学などの数値的な分析に目が向けられやすい面がありますが,数値データを読み解く際にも,最後には「言葉」で表される意味を考える必要があります。また,人間の意図や思考が反映されたテキストデータを直接分析することで,より詳細な世の中のニーズを捉え,世の中の人々の考えを把握することができるようになるため,的確な意思決定に結びつけることができます。
 データ分析は謎解きと同じです。結果から手がかりを得て,推理することが大事です。まずは,あなたが最近書いたメールや報告書をTETDMに入力して,出力される点数の謎を解き明かしてみませんか。

コンピュータの発展と,深層学習によるAI(artificial intelligence:人工知能)の発展に伴って,データの利活用や,データサイエンティストの育成が急務となる時代がやってきた。社会で競争力をもって効果的に活動するためには,データ分析が欠かせなくなってきており,多くの会社や組織では,データ分析のための部署や部門を設立したり,データ分析が可能な人材を育成,採用する動きが加速している。

一方で,比較的小規模な組織や,これまでデータの活用に力を入れてこなかった部署においては,データ分析に対する十分な知識を持たないまま,データ分析を敬遠していたり,データの活用方法を十分に検討していない段階でデータ分析ツールを導入するなどのケースも見られる。これらは,データ分析とはなにをすることで,どうすればデータ分析によって知識が獲得できるようになるのか,その一連のプロセスを正しく理解していないことによる。

また,データ分析の能力はスキルであるため,車の運転やスポーツのように経験の積み重ねが重要になる。しかし,やみくもに経験を積み重ねてもスキルが獲得できるわけではない。著者もスノーボードの初心者の頃に,ひたすら練習していればそのうち滑れるようになるだろうと考えて雪山に通っていた時期があった。しかし10回くらい通ってもなかなか安定して滑ることができなかったが,一緒に滑っていた後輩に「後傾ですよ」と一言もらっただけで,自分の滑りの重心が後ろにあることに気づかされ,以降は「前に重心を持っていくこと」で安定して滑れるようになった。すなわちスキル獲得に向けては,本質となる知識を押さえたうえで,その知識を確認するように繰返しの経験を行うことが重要となる。

そこで本書では,データ分析のプロセスと本質となる考え方を解説したうえで,フリーソフトTETDM(total environment for text data mining:テキストデータマイニングのための統合環境,テトディーエムと呼ぶ)を用いて,実践的な経験を積み重ねる手順を示していく。本書を読み終える頃には,データ分析は誰にでもできることを知り,データサイエンティストと名乗れるだけのスキルを身につけ始めていて,さまざまなデータ分析を試してみたいと考えていると確信している。

本書を読まれる読者としては,(a)文系理系を問わずこれからデータ分析を始めてみたい方(一般的な高校生や大学生),(b)仕事にデータ分析の手法を採り入れたいと考えておられる方(一般的な社会人),(c)すでにデータ分析に取り掛かっていて,分析の流れや分析時の考え方を身につけたい方(データ分析業務に携わる社会人),などを幅広く想定している。本書はフリーソフトTETDMの利用を想定している部分もあるが,データ分析のスキルを身につけてもらうことを念頭に,分析時の考え方を幅広く説明している。そのため,(a)や(c)に該当する,まずはデータ分析の全体像を把握されたい方や,(b)に該当して分析の必要性に迫られているものの,いまは時間が限られている方などは,TETDMの利用は後回しにして,データ分析のプロセスと考え方を説明する箇所として,目次で星印(★)がついている節や項を重点的に読み進めていただければと思う。そのうえで,実際のテキスト分析ツールの実例としてTETDMをご覧になられたり,あるいは実際に利用を試していただけるとよいと考えている。

また,ポイントだけを抑えて確認されたい方は,1.3節の「データ分析による意思決定プロセス」と,この節で説明される各プロセスの番号を表す,目次で(0)から(10)の番号がついている節をお読みいただくこともできる。特にこれらのポイントは,本書をご一読された後も,繰り返しご確認いただけると幸いである。

2020年1月砂山渡

1.データ分析による意思決定
1.1 データとは
1.2 データ分析とは
1.3 データ分析による意思決定プロセス
 1.3.1 データ分析による意思決定プロセスに対する誤解
 1.3.2 データ分析による意思決定プロセスの概要
1.4 データサイエンティストとは
1.5 データ分析に必要な知識とスキル
1.6 データサイエンティストと名探偵
 1.6.1 データ分析と探偵作業
 1.6.2 探偵作業に繋がるスキルとは
1章のまとめ
章末問題

2.テキストデータマイニングのための統合環境TETDM
2.1 TETDMの構成
2.2 TETDMの導入
2.3 TETDMの起動
2.4 TETDMへのテキスト入力
2.5 TETDMの操作方法の習得
2.6 キャラクターアシストチュートリアル
2.7 ゲームモード
2章のまとめ
章末問題

3.データ分析の目的の決定と分析データの準備
3.1 蓄積されるデータ(0)
3.2 データ分析の目的の決定(1)
3.3 データの収集(2)
 3.3.1 データの性質
 3.3.2 データの収集方法
 3.3.3 分析の目的に応じたデータ収集
3.4 データの価値の見積り
3.5 データ分析の前処理(3)
 3.5.1 データ整形と前処理
 3.5.2 TETDMの前処理
3章のまとめ
章末問題

4.TETDMによるデータ分析
4.1 TETDMの基本分析ツール
 4.1.1 テキスト評価アプリケーション
 4.1.2 最も基本的なテキスト分析
 4.1.3 まとめとエディタ
 4.1.4 単語情報
 4.1.5 文・セグメント情報
 4.1.6 出力の根拠を与えるツール
4.2 ツールの選択(4)
 4.2.1 分析の目的に応じたツールの選択
 4.2.2 TETDMのツール
 4.2.3 TETDMのツールの選択方法
4.3 処理ツールによるデータ分析(5)
 4.3.1 処理ツールによるデータ分析の意味
 4.3.2 単語の評価
 4.3.3 単語間の関連度評価
 4.3.4 文・セグメントの評価
 4.3.5 文間・セグメント間の関連度評価
 4.3.6 処理ツールの意味理解
4.4 可視化ツールによるデータ可視化(6)
 4.4.1 可視化ツールによるデータ可視化の意味
 4.4.2 一次元の数値データの可視化
 4.4.3 二次元の数値データの可視化
 4.4.4 テキストデータの可視化
 4.4.5 特定の処理結果の可視化
4.5 ツールの信頼度
 4.5.1 ツールの出力結果に対する信頼度
 4.5.2 ツールのアルゴリズムに対する信頼度
 4.5.3 ツールの信頼度と意思決定
4章のまとめ
章末問題

5.試行錯誤による分析結果の収集
5.1 分析結果の収集のための着眼点の獲得(7)
 5.1.1 出力結果に対する着眼点
 5.1.2 結果の収集における探偵作業
 5.1.3 結果に着目するフォーカス機能
5.2 データの絞込みによる試行錯誤(8)
 5.2.1 データの絞込みと因果関係の探索
 5.2.2 データの絞込み条件の設定方針
 5.2.3 TETDMにおけるデータの絞込み方法
5.3 処理方法や可視化方法の切替えによる試行錯誤
 5.3.1 ツールの切替えによる試行錯誤
 5.3.2 ツールの処理方法の切替えによる試行錯誤
5.4 試行錯誤と創造性
 5.4.1 網羅的な試行錯誤の必要性
 5.4.2 試行錯誤における背景知識と創造性
 5.4.3 試行錯誤における探偵作業
5章のまとめ
章末問題

6.収集した結果の解釈と統合による知識創発
6.1 分析結果の意味づけによる解釈(9)
 6.1.1 結果の妥当性の確認
 6.1.2 背景知識による結果の解釈
 6.1.3 データ可視化による結果の解釈
 6.1.4 結果の解釈における探偵作業
6.2 分析結果と解釈の記録
 6.2.1 結果と解釈の登録インタフェース
 6.2.2 登録した結果と解釈の一覧表示
 6.2.3 結果と解釈の登録インタフェースの意味
6.3 分析結果の解釈の統合と論理の飛躍(10)
 6.3.1 分析結果の解釈の統合の手順
 6.3.2 解釈の統合と論理の飛躍
 6.3.3 分析結果の統合と論理の飛躍における探偵作業
6.4 知識創発インタフェース
 6.4.1 知識創発インタフェースを用いた解釈の統合手順
 6.4.2 原因と結果を区別した統合解釈の生成
 6.4.3 知識創発インタフェースのそのほかの機能
 6.4.4 知識創発インタフェースの意味
6.5 分析の目的に応じた結果の解釈と統合
 6.5.1 分析の目的と論理の飛躍
 6.5.2 創発された知識の価値の推定
 6.5.3 知識の価値と解釈の統合
 6.5.4 創発された知識と意思決定
6章のまとめ
章末問題

7.TETDMによるデータ分析の実践と活用事例
7.1 自由記述による商品レビューの分析
 7.1.1 レビューコメントの収集
 7.1.2 レビューコメントの分析
 7.1.3 レビューのコメントと数値評価を組み合わせた分析
7.2 大学講義のレポート評価
 7.2.1 レポートの内容評価
 7.2.2 レポートの独自性評価
 7.2.3 レポートの内容評価と独自性評価の組合せ
7.3 卒業論文のセルフチェック
 7.3.1 論文からの入力テキストの準備
 7.3.2 論文修正のための分析
 7.3.3 分析結果からの文章作成スキルの獲得
7.4 研究テーマの策定
 7.4.1 研究テーマ策定のためのデータ収集とデータ整形
 7.4.2 研究テーマ策定のためのデータ分析
 7.4.3 大学講義における知識創発演習
7.5 電子カルテデータの分析
 7.5.1 電子カルテデータの分析の背景
 7.5.2 電子カルテデータの分析手順と結果
 7.5.3 現場の人によるデータ分析
7章のまとめ
章末問題

引用・参考文献
あとがき
索引

砂山 渡(スナヤマ ワタル)

掲載日:2020/04/01

電子情報通信学会誌2020年4月号広告

著者サイトにて講義用スライドをダウンロードしてご利用いただけます。
・非営利の教育目的に限り,自由にお使いいただけます。
・同目的での利用に限り,スライドの改変(追加,削除,修正)を自由に行った上でお使いいただけます。

著者サポートサイト:データ分析本を用いた講義用スライド

関連資料(一般)

関連資料(採用者向け)

関連資料一覧

関連リンク