【このページは現在作成中です】
第4回:探索的データ分析・可視化,前処理,教師なし学習†
4.1 探索的データ分析・可視化†
探索的データ分析 (Exploratory Data Analysis)†
EDAって何?†
- 与えられたデータ・データセットを,様々な角度から分析・調査して,そのデータの性質を理解すること
- 統計では比較的新しい分野 [Tukey-1977]
- 古典的統計学は,少数の標本から大量データについての結論を引き出す推定に焦点を絞っていた
- ジョン・テューキー「統計的推定は,EDAの一構成要素に過ぎない」
- 機械学習に限らず,あらゆるデータサイエンスのプロジェクトで最初に行われるべき作業
データとお友達になる†
- RQとデータが与えられた時,いきなり機械学習にかけても上手くいかない場合が多い
- データがダメ → 機械学習もダメ → 何が悪いのかわからない
- まずはデータを眺めて,そのデータを理解することが大事
- データはどれぐらいのサイズをしている?
- 各変数の分布はどんな形をしている?
- 変数間の関係はどうなっている?
- データに周期性やパターンは見られる?
- データの品質は大丈夫?
例題:模擬試験結果と入試の合否†
- ある高校の生徒50名が行った模擬試験5科目の結果と,彼らの大学入試の合否のデータがある
- RQ: 模試の点数を特徴に,入試の合否を予測できるか?
4.2 前処理†
4.3 教師なし学習:次元削減†
4.4 教師なし学習:クラスタリング†