第4回の履歴(No.16)

【このページは現在作成中です】

第4回：探索的データ分析，教師なし学習†

第4回：探索的データ分析，教師なし学習
4.1 探索的データ分析
4.2 教師なし学習：クラスタリング
4.3 教師なし学習：次元削減

↑

4.1 探索的データ分析†

↑

探索的データ分析 (Exploratory Data Analysis)†

↑

EDAって何？†

与えられたデータ・データセットを，様々な角度から分析・調査して，そのデータの性質を理解すること
統計では比較的新しい分野 [Tukey-1977]
- 古典的統計学は，少数の標本から大量データについての結論を引き出す推定に焦点を絞っていた
- ジョン・テューキー「統計的推定は，EDAの一構成要素に過ぎない」
機械学習に限らず，あらゆるデータサイエンスのプロジェクトで最初に行われるべき作業

↑

データとお友達になる†

RQとデータが与えられた時，いきなり機械学習にかけても上手くいかない場合が多い
- データがダメ　→　機械学習もダメ →　何が悪いのかわからない
まずはデータを眺めて，そのデータを理解することが大事
- データはどれぐらいのサイズをしている？
- 各変数の分布はどんな形をしている？
- 変数間の関係はどうなっている？
- データに周期性やパターンは見られる？
- データの品質は大丈夫？

↑

EDAでやるべきこと†

(A) データの確認と整形
- 取得したデータを確認し，必要があれば形を整える
(B) データを眺める
- データの要約や可視化を通して，データの性質を理解する
(C) データを修正する【前処理】
- データの異常（欠損，外れ値，重複）に対して，対策を行う
(D) データを変換する【前処理】
- 分析に適した形にデータを変換する

↑

例題：シェアサイクルの需要予測問題†

RQ: シェアサイクルの日々の貸出履歴から，将来の利用者数を予測できるか？
- 【シェアサイクルデータセット】

図1: 【参考】神戸コミュニティサイクル「コベリン」

↑

準備†

Google Colabを開き，新規ノートブックを作成
ノートブックの名前 Untitled.ipynb を bike-eda.ipynb に変更する

#準備（すべてに共通）
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート（モデルの保存用）
import pickle

# データの取得
data = pd.read_csv("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/bike-sharing-day.csv")
data

↑

(A) データの確認と整形†

pandasの基本的な操作は，Python基礎演習第4回を復習すること
- 【参考】Python基礎演習第4回

↑

データ項目の確認†

毎日のシェアサイクルの貸し出しを記録した時系列データ
季節や曜日，その日の気象情報から利用者数を予測する需要予測問題
データの各列の意味は，以下の通り．末尾3変数が目的変数
- instant: 貸出番号
- dteday: 貸出年月日
- season: 1:春，2:夏，3:秋，4:冬
- yr: 年． 0:2011年，1:2012年
- mnth: 月． 1～12
- holiday: 祭日かどうか
- weekday: 曜日 (0:日，1:月, ... , 6: 土)
- workingday: 勤務日（土日祝以外）かどうか
- weathersit: 1: 晴れ，2: 曇り，3: 小雨・小雪，4:豪雨・雷雨
- temp: 気温（正規化済）
- atemp: 体感気温（正規化済）
- hum: 湿度（正規化済）
- casual: 1日の都度利用者数【目的変数】
- registered: 1日の登録利用者数　【目的変数】
- cnt: 1日の全利用者数　【目的変数】

図2: シェアサイクルのデータ

↑

表データの確認†

データが構造化された表にちゃんと収まっているかを確認する

整頓された表 (tidy) になっているか？
- 各行：1つの観測
- 各列：1つの変数
表の大きさは？
- 表の形を表示する
```
df.shape
```
各列の型は合っているか？
- 各列の型を確認する
```
df.dtypes
df.info()
```
データに異常がないか？ (対応は前処理で行う)
- 欠損値がないか？
```
df.isnull().sum()
```
- 特殊な文字列： N/A や --- など，特殊な文字
  - 数値列なのに型がobjectになっていたら疑う
全角・半角問題，表記ゆれ
- 文字列．value_counts()で値を見てみる
```
df["列1"].value_counts()
```

↑

表データの整形†

分析用のデータセットの作成に向けて，データの型やインデクスを整えていく

まずは生データをコピーしておく（いつでもやり直せるように）
```
df = data.copy()
```
各列はふさわしい型になっているか？現段階でobject型になっているもの，カテゴリ変数なのに数値型になっているものに注目．
```
#列を任意の型変換する
df["列1"] = df["列1"].astype("型名")
#日時型への変換
df["日時列2"] = pd.to_datetime(df["日時列2"])
```
インデクスは適切か？
```
df.set_index("列1", inplace=True)
```

冗長な変数はないか？あれば削除

df.drop(columns=["列1", "列2", ...], inplace=True)

↑

シェアサイクルのデータを整形する†

#先頭数行の値を確認
data.head()

#型を確認
data.info()

図3: 各変数の型

#オリジナルデータをコピーして作業
df = data.copy()

#dtedayを日付型に変換
df["dteday"] = pd.to_datetime(df["dteday"])
#確認
df.info()
df

#season, holiday, weekday, workingday, weathersitをカテゴリ型に変換
for col in ["season", "holiday", "weekday", "workingday", "weathersit"]:
  df[col] = df[col].astype("category")
#確認
df.info()
df

#dtedayをインデクスに設定して時系列データにする
df.set_index("dteday", inplace=True)
#確認
df.info()
df

#instant, yr, mnth: 冗長なので削除
df.drop(columns=["instant", "yr", "mnth"], inplace=True)
#確認
df.info()
df

↑

(B) データを眺める†

様々な観点からデータを探索（要約・可視化）して，データが持つ性質を理解する

1変数を眺める
2変数間の関係を眺める
グループに分けて比較する

可視化にはpythonのライブラリを使う

matplotlib
seaborn

↑

1変数を眺める†

代表値の探索
- 数値の要約
```
df.describe()
```
- カテゴリの要約
```
df["列1"].value_counts()
```
分布の探索
- 箱ひげ図【重要】
```
df.plot.box()
sns.boxplot(df) #Seabornを使う場合
```
  図4: 箱ひげ図
- ヒストグラム【重要】
```
df["列1"].plot.hist()
sns.histplot(df["列1"]) #Seabornを使う場合
```
  図5: ヒストグラム
- ヴァイオリン・プロット
```
sns.violinplot(df)
```
  図6: ヴァイオリン・プロット

値の大きさ，推移の探索

棒グラフ

df.plot.bar()
sns.barplot(df) #Seabornを使う場合

折れ線グラフ(推移，時系列)

df["列1"].plot()
df["列1"].resample("周期").集約関数().plot() #週や月で時系列を集約して表示する場合
sns.lineplot(df) #Seabornを使う場合

↑

シェアサイクルの1変数を眺める†

#describe()は基本的に数値列のみを要約する
df.describe()

#カテゴリの列を要約
for col in ["season", "holiday", "weekday", "workingday", "weathersit"]:
  print(f"\n【{col}の要約】")
  print(df[col].value_counts())

#気象データの分布を箱ひげ図で可視化
sns.boxplot(df[["temp", "atemp", "hum", "windspeed"]])

#利用者データの分布を箱ひげ図で可視化
sns.boxplot(df[["casual", "registered", "cnt"]])

#各変数のヒストグラムを描いてみる．サブプロットを使って，1枚の図に並べる
fig, axes= plt.subplots(nrows=4, ncols=2, tight_layout=True, squeeze=False)

for i, col in enumerate(["temp", "atemp", "hum", "windspeed", "cnt", "casual", "registered"]):
  sns.histplot(df[col], ax=axes[i//2, i%2], bins=40)

#利用者データの推移を見てみる
fig, axes = plt.subplots(nrows=2, ncols=1, tight_layout=True, squeeze=False, figsize=(6,8))

#利用者データの推移
df[["casual", "registered", "cnt"]].plot(ax=axes[0,0], title="利用者データの推移（日次）")
#利用者データの月ごとの推移を棒グラフで（登録・都度の内訳）
df[["casual", "registered"]].resample("M").sum().plot.bar(stacked=True, ax=axes[1,0], title="利用者データの推移（月次）")

↑

2変数間の関係を眺める†

相関行列【重要】

df.corr()
sns.heatmap(df.corr(), annot=True) #ヒートマップで可視化する

図7: 相関行列

散布図【重要】

df.plot.scatter(x=列1, y=列2)
sns.scatterplot(df, x=列1, y=列2, hue=列3) #Seabornを使う場合．hueで色分けできる

図8: 散布図

ペアプロット

sns.pairplot(df) #変数が多いと時間がかかるし見づらい

↑

シェアサイクルの2変数間の関係を眺める†

#相関係数を求める
df.corr()

#カテゴリ変数も含めたければ，get_dummies()を行う
pd.get_dummies(df).corr()

#ヒートマップで可視化
sns.heatmap(df.corr(), annot=True)

#気温と総利用者数の関係．季節で色分け
sns.scatterplot(df, x="temp", y="cnt", hue="season")

#ペアプロット
sns.pairplot(df)

↑

グループに分けて比較する†

カテゴリ変数でデータをグループ化し，2つのグループ間で変数の要約を行う
```
df.groupby("カテゴリ列1").describe()["数値列2"]
```

Seabornのプロットでxにカテゴリ変数，yに目的の数値列渡すと簡単に可視化できる．　sns.boxplot(df, x=カテゴリ列1, y=数値列2, hue=列3) 　sns.violinplot(df, x=カテゴリ列1, y=数値列2, hue=列3)

↑

シェアサイクルのデータをグループに分けて比較する†

【比較の観点】

年によって利用者に差はあるか？
季節によって差はあるか？
月によって差はあるか？
曜日によって差はあるか？
祝日かどうかで差があるか？
平日（土日祝以外）かどうかで差はあるか？
天気によって差はあるか？

#統計量の要約
df.groupby(df.index.year).describe("cnt") 
df.groupby("season").describe("cnt") 
#以下同様
# :

#箱ひげ図で比較する
fig, axes = plt.subplots(nrows=4, ncols=2, figsize=(18,18))
sns.boxplot(df, y="cnt", x=df.index.year, ax=axes[0,0])
sns.boxplot(df, y="cnt", x="season", ax=axes[0,1])
sns.boxplot(df, y="cnt", x=df.index.month, ax=axes[1,0])
sns.boxplot(df, y="cnt", x="weekday", ax=axes[1,1])
sns.boxplot(df, y="cnt", x="holiday", ax=axes[2,0])
sns.boxplot(df, y="cnt", x="workingday", ax=axes[2,1])
sns.boxplot(df, y="cnt", x="weathersit", ax=axes[3,0])

#バイオリンプロットでもやってみてください
# 略

↑

(C) データを修正する【前処理】†

データの異常（欠損，外れ値，重複）に対して，対策を行う
- 【参考】Python基礎演習第6回

↑

欠損値 (missing value) の処理†

欠損値の確認

df.isnull().sum()  #列ごとの欠損値の数を数える
df[df["列1"].isnull()] #列1が欠損している行を抜き出す

行ごと削除する

df = df.dropna()
df = df.dropna(subset=[列1, 列2, ...]) #特定の列のNaNのみを対象

定数で埋める
```
df = df.fillna(0)
```

統計値で埋める

df = df.fillna(df.集約関数()) #表全体
df["列1"] = df["列1"].fillna(df["列1"].集約関数())  #列ごと

前後の値で埋める

df = df.fillna(method="ffill" または "bfill")  #表全体
df["列1"] = df["列1"].fillna(method="ffill" または "bfill")  #列ごと

補間する

df = df.interpolate()  #表全体
df["列1"] = df["列1"].interpolate() #列ごと

↑

外れ値 (Outlier) の処理†

外れ値を見つける

# 箱ひげ図や散布図から見つける

消す
```
df = df.drop(index=[行1, 行2, ...])
```
値を修正する
```
df.loc[行1, 列1] = 正しい値
```

↑

重複行 (Duplicates) の処理†

重複行を見つける
```
df[df.duplicated(keep=False)]
```
重複行を消す
```
df = df.drop_duplicates()
```

↑

シェアサイクルのデータでやってみる†

#クリーニングされていないシェアサイクルのデータをロード
data = pd.read_csv("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/bike-sharing-unclean.csv")
#コピーしておく
df = data.copy()

#欠損値の個数を数える
df.isnull().sum()

#tempが欠損している行を抜き出す
df[df["temp"].isnull()]

#前後を見てみる
df[185:195]

#行ごと削除する (dfに代入していないので，dfはそのまま)
df.dropna(subset=["temp"])[185:195]

#定数0で埋める (dfに代入していないので，dfはそのまま)
df.fillna(0)[185:195]

#中央値で埋める (dfに代入していないので，dfはそのまま)
df.fillna(df.median())[185:195]

#線形補間で埋める (dfに代入していないので，dfはそのまま)
df.interpolate()[185:195]

#すべての欠損値を線形補間で埋める
df = df.interpolate()

#欠損値を数える
df.isnull().sum()

#要約統計量を求める
df.describe()

#怪しそうな変数を表示する
df[["casual", "registered", "cnt"]].plot.box()

#条件で特定してみる
df[df["cnt"] > 80000]

#周辺のデータを見てみる
df[510:520]

#修正する
df.loc[517, "casual"] = 533
df.loc[517, "cnt"] = 4127

#再度箱ひげ図で確認
df[["casual", "registered", "cnt"]].plot.box()

#重複行を見つける
df[df.duplicated(keep=False)]

#重複行を削除する
df = df.drop_duplicates()

#重複行を再度確認
df[df.duplicated(keep=False)]

↑

(D) データを変換する【前処理】†

↑

カテゴリデータのダミー変数化 (one-hot encoding)†

第3回で説明済み

pd.get_dummies(df, columns=[ダミー変数化する変数のリスト], drop_first=True)

ただしダミー変数化するのは，名義尺度に限るのが一般的
- 順序尺度をダミー変数化すると情報が失われてしまう．（0,1で順序を保持できないため）
【重要】カテゴリ変数の種類
- 名義尺度: アヤメの品種，性別，血液型，etc.
- 順序尺度: 年，サイズ，アンケートの回答（5段階），etc.

↑

数値データのスケーリング†

通常，各変数（列）はそれぞれに単位が定められており，その値の意味合いや範囲（値域）が異なる
- 同じ1でも，列によってその値が持つ意味・重みが異なってくる

図9: 単位・値域の違う変数

学習アルゴリズムによっては，このデータの重みの偏りによって，うまく動作しないことがある
影響があるモデル
- 距離を用いるモデル：k近傍法，クラスタリング全般
- 分散を用いるモデル：主成分分析(PCA)
- 勾配を用いるモデル：ロジスティック回帰，SVN，ニューラルネットワーク
影響がないモデル
- 決定木，ランダムフォレスト
データの大きさをある基準で揃える（スケーリング）する必要がある
- 標準化
- 正規化

↑

データの標準化 (Standardization)†

データの標準化とは，単位や値域の異なる変数を，平均値からどれだけ離れているか という標準的な観点で揃える
- いわゆる， 偏差値 の考え方
データX = {x0,x1, ... , xn} の各値を次の Z = {z0,z1, ... ,zn} に変換する
Z = (xi - X.mean()) / X.std()
- 平均からどれだけ離れているか（＝偏差）を，ばらつきの平均（＝標準偏差）で割る
- Zスコアと呼ぶこともある
- 偏差値 = 50 + 10 * zi

図10: データの標準化

scikit-learnの StandardScaler() を使用すれば簡単に標準化できる

#元データを適当に作る
df = pd.DataFrame(data={"物件No.":[1,2,3,4,5],
                         "駅からの距離":[0.2,0.8,1.5,3.4,4.8],
                         "築年数":[30, 25, 5, 20, 50], 
                         "部屋数":[1,3,3,4,6], 
                         "家賃":[55000,83000,64000,72000, 100000],
                         "管理費":[5000, 10000, 10000, 20000, 30000]},
                   ).set_index("物件No.")
df

from sklearn.preprocessing import StandardScaler
#標準化のためのスケーラー
sc = StandardScaler()

#各列にフィットさせる
sc.fit(df) 
#スケール変換(sc.transform(df))して，データフレームに入れなおす
df_sc = pd.DataFrame(sc.transform(df), index=df.index,columns=df.columns)
#確認
df_sc

↑

データの正規化 (Normalization)†

データの正規化とは，単位や値域の異なる変数を， 最小値と最大値の間のどこに位置しているか という標準的な観点で揃える
- 最小を0，最大を1として，どのあたりにいるかを表現できる

データX = {x0,x1, ... , xn} の各値を次の M = {m0,m1, ... ,mn} に変換する

M = (xi - X.min()) / (X.max() - X.min())

 - 各データから最小値を引き，値域の幅で割る

図11: データの正規化

scikit-learnの MinMaxScaler() を使用すれば簡単に標準化できる

from sklearn.preprocessing import MinMaxScaler
#正規化のためのスケーラー
sc = MinMaxScaler()

#各列にフィットさせる
sc.fit(df) 
#スケール変換(sc.transform(df))して，データフレームに入れなおす
df_sc = pd.DataFrame(sc.transform(df), index=df.index,columns=df.columns)
#確認
df_sc

↑

データ変換のTips†

前処理のどのタイミングでデータ変換をするのか？
- ダミー変数化：前処理の一番最初に行う
- スケーリング：教師あり学習の場合は，訓練データとテストデータを分割した後に行う
  - データ分割前にスケーラーをfitさせてはならない（訓練データがテストデータに依存してしまう）
  - 訓練データにスケーラーをfit, transformさせ，同じスケーラーでテストデータをtransformさせること
  - 訓練データとテストデータで別々のスケーラを使ってはいけない
スケーリングについては，標準化と正規化のどちらを使えばいいの？
- 通常は標準化を使う．正規化は外れ値に引っ張られる
- 正規化は，最大値・最小値が決まっている場合に，用いられる（例：画像処理)
決定木系のモデルでは，スケーリング自体が不要
- データの大小関係しか見ていないため
スケーリング後のデータdf_scをどのように元に戻すのか？
- sc.inverse_transform(df_sc)を使う．データフレームに入れなおすことも忘れずに

↑

シェアサイクルの機械学習モデルの構築†

次回以降のお楽しみに！

↑

4.2 教師なし学習：クラスタリング†

↑

教師なし学習 (unsupervised learning)†

正解データ(ラベル，目的変数) y がない（あるいは，あえて指定しない）データに対して，データそのものが持つ性質・法則を学習する方法
本コースでは2種類の代表的なものを学ぶ
- クラスタリング: サンプル間の関係を学習し，データを似た者同士のグループ（類型）に分ける
- 次元削減：変数間の関係を学習し，多数の変数をより少数の変数で表現する
直感的なイメージは次の図の通り

図12: 教師あり学習と教師なし学習のイメージ

↑

クラスタリング (clustering)†

↑

基本的な考え方†

似ているデータ（サンプル）同士をまとめてグループ化し，データ全体をいくつかのグループ（＝クラスタ）にわけること
- 「似ている」の基準は，データ間の距離あるいは類似度に基づく
分類（classification）と似ているが，似て非なるもの
- 分類では，各グループが何を表しているのか，正解データとして与えられていた（e.g., アヤメの品種，迷惑メールか否か）
- クラスタリングでは，分けられたグループが何を表すのかは与えられないので，分析者が考えることになる

↑

距離関数†

2つのデータX = (x1,x2,...,xn) と Y = (y1,y2,...,yn)に対して，PとQの間の 距離 d(X,Y)を定義したい
- XとYがどれだけ近いか（遠いか）→どれだけ似ているか？

ユークリッド距離
- d(X,Y) = sqrt((x1-y1)**2 + (x2-y2)**2 + ... + (xn-yn)**2)
- 各項の差の2乗を足し合わせて，平方根をとる．いわゆる直線距離
マンハッタン距離
- d(X,Y) = |x1-y1| + |x2-y2| + ... + |xn-yn|
- 各項の絶対値の和．マンハッタン（碁盤の目の街）を歩く時の距離
コサイン類似度
- d(X,Y) = 1 - dot(X,Y) / ||X||*||Y|| = 1 - cosθ
- ベクトルのなす角θが小さい→似ている→0に近づく

図1X 距離関数

↑

階層的クラスタリング†

図1Xデンドログラム

↑

非階層的クラスタリング†

↑

4.3 教師なし学習：次元削減†

↑

次元の呪い†

↑

次元削減†

↑

第4回 の履歴(No.16)