第4回の履歴(No.10)

【このページは現在作成中です】

第4回：探索的データ分析，教師なし学習†

↑

4.1 探索的データ分析†

↑

探索的データ分析 (Exploratory Data Analysis)†

↑

EDAって何？†

与えられたデータ・データセットを，様々な角度から分析・調査して，そのデータの性質を理解すること
統計では比較的新しい分野 [Tukey-1977]
- 古典的統計学は，少数の標本から大量データについての結論を引き出す推定に焦点を絞っていた
- ジョン・テューキー「統計的推定は，EDAの一構成要素に過ぎない」
機械学習に限らず，あらゆるデータサイエンスのプロジェクトで最初に行われるべき作業

↑

データとお友達になる†

RQとデータが与えられた時，いきなり機械学習にかけても上手くいかない場合が多い
- データがダメ　→　機械学習もダメ →　何が悪いのかわからない
まずはデータを眺めて，そのデータを理解することが大事
- データはどれぐらいのサイズをしている？
- 各変数の分布はどんな形をしている？
- 変数間の関係はどうなっている？
- データに周期性やパターンは見られる？
- データの品質は大丈夫？

↑

EDAでやるべきこと†

(A) データの確認と整形
- 取得したデータを確認し，必要があれば形を整える
(B) データを眺める
- データの要約や可視化を通して，データの性質を理解する
(C) データを修正する【前処理】
- データの異常（欠損，外れ値，重複）に対して，対策を行う
(D) データを変換する【前処理】
- 分析に適した形にデータを変換する

↑

例題：シェアサイクルの需要予測問題†

RQ: シェアサイクルの日々の貸出履歴から，将来の利用者数を予測できるか？
- 【シェアサイクルデータセット】

出典：神戸コミュニティサイクル「コベリン」

↑

準備†

Google Colabを開き，新規ノートブックを作成
ノートブックの名前 Untitled.ipynb を bike-eda.ipynb に変更する

#準備（すべてに共通）
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート（モデルの保存用）
import pickle

# データの取得
data = pd.read_csv("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/bike-sharing-day.csv")
data

↑

(A) データの確認と整形†

↑

データ項目の確認†

毎日のシェアサイクルの貸し出しを記録した時系列データ
季節や曜日，その日の気象情報から利用者数を予測する需要予測問題
データの各列の意味は，以下の通り．末尾3変数が目的変数
- instant: 貸出番号
- dteday: 貸出年月日
- season: 1:春，2:夏，3:秋，4:冬
- yr: 年． 0:2011年，1:2012年
- mnth: 月． 1～12
- holiday: 祭日かどうか
- weekday: 曜日 (0:日，1:月, ... , 6: 土)
- workingday: 勤務日（土日祝以外）かどうか
- weathersit: 1: 晴れ，2: 曇り，3: 小雨・小雪，4:豪雨・雷雨
- temp: 気温（正規化済）
- atemp: 体感気温（正規化済）
- hum: 湿度（正規化済）
- casual: 1日の都度利用者数【目的変数】
- registered: 1日の登録利用者数　【目的変数】
- cnt: 1日の全利用者数　【目的変数】

↑

表データの確認†

データが構造化された表にちゃんと収まっているかを確認する

整頓された表 (tidy) になっているか？
- 各行：1つの観測
- 各列：1つの変数
表の大きさは？
- 表の形を表示する
```
df.shape
```
各列の型は合っているか？
- 各列の型を確認する
```
df.dtypes
df.info()
```
データに異常がないか？ (対応は前処理で行う)
- 欠損値がないか？
```
df.isnull().sum()
```
- 特殊な文字列： N/A や --- など，特殊な文字
  - 数値列なのに型がobjectになっていたら疑う
全角・半角問題，表記ゆれ
- 文字列．value_counts()で値を見てみる
```
df["列1"].value_counts()
```

↑

表データの整形†

分析用のデータセットの作成に向けて，データの型やインデクスを整えていく

まずは生データをコピーしておく（いつでもやり直せるように）
```
df = data.copy()
```
各列はふさわしい型になっているか？現段階でobject型になっているもの，カテゴリ変数なのに数値型になっているものに注目．
```
#列を任意の型変換する
df["列1"] = df["列1"].astype("型名")
#日時型への変換
df["日時列2"] = pd.to_datetime(df["日時列2"])
```
インデクスは適切か？
```
df.set_index("列1", inplace=True)
```

冗長な変数はないか？あれば削除

df.drop(columns=["列1", "列2", ...], inplace=True)

↑

シェアサイクルのデータを整形する†

#オリジナルデータをコピーして作業
df = data.copy()

#dtedayを日付型に変換
df["dteday"] = pd.to_datetime(df["dteday"])
#確認
df.info()
df

#season, holiday, weekday, workingday, weathersitをカテゴリ型に変換
for col in ["season", "holiday", "weekday", "workingday", "weathersit"]:
  df[col] = df[col].astype("category")
#確認
df.info()
df

#dtedayをインデクスに設定して時系列データにする
df.set_index("dteday", inplace=True)
#確認
df.info()
df

#instant, yr, mnth: 冗長なので削除
df.drop(columns=["instant", "yr", "mnth"], inplace=True)
#確認
df.info()
df

↑

(B) データを眺める†

様々な観点からデータを探索（要約・可視化）して，データが持つ性質を理解する

1変数を眺める
2変数間の関係を眺める
グループに分けて比較する

可視化にはpythonのライブラリを使う

matplotlib
seaborn

↑

1変数を眺める†

代表値の探索
- 数値の要約
```
df.describe()
```
- カテゴリの要約
```
df["列1"].value_counts()
```

分布の探索

箱ひげ図【重要】

df.plot.box()
sns.boxplot(df) #Seabornを使う場合

ヒストグラム【重要】

df["列1"].plot.hist()
sns.histplot(df["列1"]) #Seabornを使う場合

値の大きさ，推移の探索

棒グラフ

df.plot.bar()
sns.barplot(df) #Seabornを使う場合

折れ線グラフ(推移，時系列)

df["列1"].plot()
df["列1"].resample("周期").集約関数().plot() #週や月で時系列を集約して表示する場合
sns.lineplot(df) #Seabornを使う場合

↑

シェアサイクルのデータを眺める†

df.describe()

#カテゴリの列を要約
for col in df.columns[0:5]:
  print(f"\n【{col}の要約】")
  print(df[col].value_counts())

#気象データの分布を箱ひげ図で可視化
sns.boxplot(df[["temp", "atemp", "hum", "windspeed"]])

#利用者データの分布を箱ひげ図で可視化
sns.boxplot(df[["casual", "registered", "cnt"]])

#各変数のヒストグラムを描いてみる．サブプロットを使って，1枚の図に並べる
fig, axes= plt.subplots(nrows=4, ncols=2, tight_layout=True, squeeze=False)

for i, col in enumerate(["temp", "atemp", "hum", "windspeed", "cnt", "casual", "registered"]):
  sns.histplot(df[col], ax=axes[i//2, i%2], bins=40)

#利用者データの推移を見てみる
fig, axes = plt.subplots(nrows=2, ncols=1, tight_layout=True, squeeze=False, figsize=(6,8))

#利用者データの推移
df[["casual", "registered", "cnt"]].plot(ax=axes[0,0], title="利用者データの推移（日次）")
#利用者データの月ごとの推移を棒グラフで（登録・都度の内訳）
df[["casual", "registered"]].resample("M").sum().plot.bar(stacked=True, ax=axes[1,0], title="利用者データの推移（月次）")

↑

2変数間の関係を眺める†

相関行列【重要】

df.corr()
sns.heatmap(df.corr(), ant=True) #ヒートマップで可視化する

散布図【重要】

df.plot.scatter(x=列1, y=列2)
sns.scatterplot(df, x=列1, y=列2, hue=列3) #Seabornを使う場合．hueで色分けできる

ペアプロット

sns.pairplot(df) #変数が多いと時間がかかるし見づらい

↑

グループに分けて比較する†

↑

4.2 教師なし学習：クラスタリング†

↑

4.3 教師なし学習：次元削減†

↑

次元の呪い†

↑

次元削減†

↑

第4回 の履歴(No.10)