【このページは現在作成中です】

第4回:探索的データ分析,教師なし学習

4.1 探索的データ分析

探索的データ分析 (Exploratory Data Analysis)

EDAって何?

データとお友達になる

EDAでやるべきこと

  1. データの確認と整形
    • 取得したデータを確認し,必要があれば形を整える
  2. データを眺める
    • データの要約や可視化を通して,データの性質を理解する
  3. データを修正する【前処理】
    • データの異常(欠損,外れ値,重複)に対して,対策を行う
  4. データを変換する【前処理】
    • 分析に適した形にデータを変換する

例題:シェアサイクルの需要予測問題

準備

  1. Google Colabを開き,新規ノートブックを作成
  2. ノートブックの名前 Untitled.ipynb を bike-eda.ipynb に変更する
#準備(すべてに共通)
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート(モデルの保存用)
import pickle

# データの取得
data = pd.read_csv("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/bike-sharing-day.csv")
data

[添付]

データの確認と整形

4.2 教師なし学習:クラスタリング

教師なし学習

クラスタリング

階層的クラスタリング

非階層的クラスタリング

4.3 教師なし学習:次元削減

次元の呪い

次元削減

主成分分析


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS