IT Text  データサイエンスの基礎

Front Cover
株式会社 オーム社, Sep 26, 2022 - Computers - 264 pages

いま必要とされるデータサイエンスの素養がしっかり身につく一冊

さまざまな場面で入手できるデータを価値に転換することが、データサイエンスの目的です。データサイエンスという言葉は、ビジネスやアカデミーを問わず、いまや多くの場面で聞かれるようになり、それだけ重要性が高まっている概念といえます。本書は、データサイエンスを理解し実践したいと考えている方に必要とされる、データサイエンスの素養がしっかり学べる一冊です。

データサイエンスは、統計的、計算的、人間的という3つの視点の有機的結合という一面があるといわれます。本書では、データ分析に必要な統計学や関連する数学を丁寧にフォローし、確率・統計的な考え方が自然に身に付くよう配慮しました。また、データを適切に処理するための計算法は、プログラミング言語としてRを用いつつ、近年注目度の高い機械学習を含む具体例を通して納得しながら理解できる構成です。さらに、データの前処理から分析結果のプレゼンテーションまでの過程には人間が関わるという観点で、データを取り扱ううえで心がけるべき倫理的側面も扱いました。

なお、本書は「数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム」、「数理・データサイエンス・AI(応用基礎レベル)モデルカリキュラム」に準拠した授業の副読本・参考書としてもご利用いただけます。


このような方におすすめ

○情報系(特にデータサイエンス系)大学学部や高専、専門学校の学生および教員

研究や実務でデータの分析や解析を必要とする学生および若手の社会人

○数学(特に確率・統計)のデータサイエンスへの活用に興味や関心をもつ学生および社会人


主要目次

第1章 イントロダクション

第2章 Rの基礎

第3章 データの記述・可視化

第4章 関連と因果,データ分析における注意事項

第5章 データ倫理

第6章 確率

第7章 確率分布

第8章 標本分布と中心極限定理

第9章 点推定・区間推定・仮説検定・p値

第10章 機械学習の基礎

第11章 回帰モデル

第12章 分類

第13章 ベイズ線形モデル

第14章 決定木とアンサンブル学習

第15章 スパース学習

演習問題略解

参考文献

 

Contents

1母集団の設定
107
2母集団からの標本抽出
108
3標本の記述記述統計学
109
4標本特性に基づく母集団特性の推測推測統計学
110
92 点推定と区間推定
111
2区間推定
112
93 仮説検定とp値
115
2p 値
118

2キーバインド
15
3スクリプトの実行
16
4RStudioオプションの変更
19
25 Rの基本
21
演習問題
25
第3章データの記述可視化
28
データの中心を表す尺度
31
2標本中央値
32
4標本平均標本中央値標本最頻値の違い
33
データのバラツキを表す尺度
34
2標本標準偏差
36
3標本平均偏差
37
5四分位範囲
38
1箱ひげ図
39
2ヒストグラム
40
演習問題
42
第4章関連と因果データ分析における注意事項
43
42 伝統的な交絡の調整方法
46
2回帰モデル
47
43 傾向スコア
49
44 傾向スコア解析の手順
50
45 傾向スコア解析の利点と欠点
51
2傾向スコア解析の欠点
52
46 傾向スコアマッチングによる解析事例
53
演習問題
55
第5章データ倫理
56
2透明性の原則
57
4目的の原則
58
53 アルゴリズムバイアス
60
54 データプライバシー
61
3データプライバシーに関わる基本事項
62
55 データガバナンス
64
1データガバナンスとは
65
2データガバナンスはなぜ重要か
66
56 データ整合性
67
2データ整合性が重要な理由
68
演習問題
69
第6章確率
71
62 実験試行標本点標本空間事象など
72
63 事象の和積余事象など
73
64 確率の定義
74
65 確率のいくつかの性質加法定理
76
66 条件付き確率
77
67 ベイズの定理
78
演習問題
81
第7章確率分布
83
1離散型確率分布と連続型確率分布
84
2分布関数
86
72 確率分布の特徴を表す指標
87
73 代表的な確率分布とその性質
90
演習問題
93
第8章標本分布と中心極限定理
94
2同時確率分布
95
3周辺分布
96
5共分散相関係数
98
82 統計量と標本分布
100
1無作為標本と統計量
101
83 大数の法則と中心極限定理
103
演習問題
105
第9章点推定区間推定仮説検定p値
106
演習問題
120
第10章機械学習の基礎
121
2機械学習の基本的考え方
122
102 回帰分析
124
103 クラスタリング
127
1クラスタリングの基本的考え方
128
2クラスタリングの実装
130
3クラスター数が未知のとき
131
104 分類
132
演習問題
135
第11章回帰モデル
137
112 線形モデル
140
1最尤推定量
141
3k分割交差検証法
143
113 ボストン住宅価格の予測
144
114 回帰診断
147
115 非線形モデル
149
2対数線形モデルの適用例
150
3負の二項分布モデル
151
演習問題
152
第12章分類
155
2分類の評価指標
157
122 クレジットカード不正利用データ
158
123 ロジスティック回帰分析
160
2パラメータの最尤推定
161
3クレジットカードの不正利用の検出
162
124 ナイーブベイズ
164
125 不均衡データの分類
166
2サンプリング法と擬似データ生成法
167
3クレジットカードの不正利用の検出
168
演習問題
169
第13章ベイズ線形モデル
171
132 マルコフ連鎖モンテカルロ法
174
133 ベイズモデルの比較
176
134 ベイズ的線形モデル
179
2独立等分散モデル
180
135 ベイズ線形モデルによるボストン住宅価格の予測
181
2ベイズ推論
182
3事前分布の選択
184
4予測分布
185
演習問題
186
第14章決定木とアンサンブル学習
188
1回帰木の例
189
2一般的回帰木モデル
190
3木の刈込み
192
142 ランダムフォレスト
194
2ランダムフォレスト
195
143 分類
200
3ブースティング
204
演習問題
205
第15章スパース学習
207
2LASSO回帰
209
152 ボストン住宅価格データへの適用
210
演習問題
214
演習問題略解
216
参考文献
240
索引
245
奥付
251
Copyright

Common terms and phrases

About the author (2022)

田栗正隆(たぐり まさたか)

2010年 東京大学大学院医学系研究科博士課程修了、博士(保健学)

2010年 横浜市立大学大学院医学研究科 助教

2016年 横浜市立大学大学院医学研究科 准教授

2018年 横浜市立大学データサイエンス学部 准教授

2020年 横浜市立大学データサイエンス学部 教授

現 在 東京医科大学医学部医療データサイエンス分野 主任教授

汪 金芳(わん じんふぁん)

1994年 千葉大学大学院自然科学研究科博士後期課程単位取得退学、統計数理研究所領域統計研究系 助手

1996年 博士(理学)

2001年 帯広畜産大学畜産学部 助教授

2004年 千葉大学大学院理学研究科 助教授

2012年 千葉大学大学院理学研究科 教授

現 在 横浜市立大学データサイエンス学部 教授

Bibliographic information