第7回の履歴(No.14)

【このページは現在作成中です】

第7回：教師なし学習・次元削減，機械学習の実践的アプローチ†

第7回：教師なし学習・次元削減，機械学習の実践的アプローチ
7.1 教師なし学習・次元削減【中村】
7.2 特徴量エンジニアリング【中村】
7.3 モデルのチューニング【伊藤】
7.4 アプリケーション【陳】
- 作成したモデルをAPI化する
- 訓練済みモデルの利用

↑

7.1 教師なし学習・次元削減【中村】†

↑

次元削減 (dimensionality reduction) とは†

データの変数（列）間の関係を学習し，次元数を減らすこと
- より少ない特徴量でデータを説明する
- なるべく情報量を落とさないように，複数の特徴量をまとめた新しい特徴量を作る

図1：教師あり学習と教師なし学習のイメージ（再掲）

↑

なぜ次元を削減するのか？†

データの理解・可視化
- 次元を削減することで，データの理解・可視化がやりやすくなる
- 人間が理解できる表現方法はせいぜい3次元まで
  - 1次元：サンプル同士を直接値で比較できる
  - 2次元：サンプルを2軸で説明できる
  - 3次元：サンプルを空間上で可視化できる
  - 4次元以上： 1つの図では可視化不可能
データの圧縮
- 高次元のデータを低次元に圧縮することで，計算処理を効率化できる
次元の呪いへの対処
- 次元が増えるほど訓練に必要なデータが指数的に増える（少ないままだと過学習が起こる）
- 次元削減で減らす

↑

次元削減の手法の例†

主成分分析 (principal component analysis, PCA)
- 特徴量を相互に統計的に関連しないように回転させる
非負値行列因子分解（non-negative matrix factorization, NMF）
- データを非負の重み付き和に分解する
t-SNE （ t-distributed stochastic neighbor embedding）
- データポイントの距離を可能な限り維持する2次元表現を見つけようとする (可視化専用)

↑

【例題】5科目のテスト結果の分析†

あなたは100人のクラスを担当する高校教師である
先日行われたの5科目の模擬試験(国語，数学，英語，物理，化学)の結果が返ってきている
- https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/exam-pca.csv
これらのデータを分析し，100人それぞれの学力を把握したい

↑

準備†

Google Colabを開き，新規ノートブックを作成
ノートブックの名前 Untitled.ipynb を exam-pca.ipynb に変更する

#準備（すべてに共通）
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
#↓の1行は提出時にはコメントアウトしてください
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート（モデルの保存用）
import pickle

#データフレームをきれいに表示するメソッド
from IPython.display import display

#標準化はよく使うのでインポート
from sklearn.preprocessing import StandardScaler

#データの取り込み
data = pd.read_csv("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/exam-pca.csv", index_col="受験番号")

↑

データを眺める†

display(data)
df = data.copy()

#要約統計量
display(df.describe())

#ヴァイオリン・プロット
sns.violinplot(df)
plt.show()

#相関係数
sns.heatmap(df.corr(), annot=True)

↑

課題†

上記のEDAでは，学生全体の傾向はつかめるものの，個別の学生の学力がどうなっているかは可視化できていない
よくやる方法は，5科目の合計を取って，比較する
- 合計 = 国語 + 数学 + 英語 + 物理 + 化学

#5科目の合計を計算
total = pd.DataFrame(df.sum(axis=1), columns=["合計"])
display(total)
#total.columns=["合計"]
#横棒グラフに可視化する
total.sort_values("合計").plot.barh(title="5科目の合計", figsize=(8,16))
#積み上げ棒グラフで表示する(オプショナル)
#df.loc[total.sort_values("合計").index].plot.barh(stacked=True, figsize=(8,16))

合計で説明するということは，5次元のデータを1次元で説明することに等しい
- 5次元を1次元に次元削減して分析している
5科目のデータを，合計という 新しい軸 に移して分析している

↑

情報量の減少†

新しい軸「合計」を使うと，学生全員の学力を比較・説明しやすくなる
一方で，ほぼ同じ合計点でも，異なる傾向がある学生を見分けられなくなる
- 66番と19番
- 12番と10番

#66番と19番の得点を表示
display(df.loc[[66,19],:])
display(total.loc[[66,19]])

なるべく情報量が減らないように，「新しい軸」を定義するにはどうしたらよいだろうか？

↑

主成分分析 (PCA)†

↑

新しい軸をデータがなるべく散らばるように決める†

5科目の成績の例題で，新しい軸は以下のように一般化できる

新しい軸 = w1*国語 + w2*数学 + w3*英語 + w4*物理 + w5*化学

w1 = w2 = w3 = w4 = w5 = 1.0 とした場合，「合計」の軸となる
- しかし，合計では，66番と19番の傾向の差を説明できなかった
そこで例えば，以下の新しい2軸を定義してみる
- 理系能力 = 0.3*国語 + 0.8*数学 + 0.3*英語 + 0.8*物理 + 0.8*物理
- 文系能力 = 0.8*国語 + 0.3*数学 + 0.8*英語 + 0.3*物理 + 0.3*物理

図2: 新しい軸で個々のデータを比較する

66番と19番はそれぞれの観点で比較できる
- ほぼ同じ合計点でも，66番は文系科目に秀でており，19番は理系科目が優れている
この場合，5次元のデータを2次元で説明することになる

↑

PCAの考え方†

多くの変数の情報をできるだけ損なわずに，少数の変数（主成分）に集約させることを目的とした解析手法
変数 x1, x2, ..., xn から主成分 z1 = w11*x1 + w21*x2 + ... + wn1*xn を求める時に，z1上の分散を最大化するようにw11,w21,..,wn1を決定する
- z1を第1主成分という
同様に，z2 = w12*x1 + w22*x2 + ... + wn2*xn を，z1に直交し，かつ，z2上の分散を最大化するように，w12, w22,...,wn2を決定する
- z2を第2主成分という．z1と直交させることで，z1で説明しきれなかった角度からデータを説明する
以降，z_kを決める時，z1, z2,...,z_{k-1}と直交し，かつ，z_k上の分散を最大化するように決定していく
- kはn(=もとの次元数)以下の任意の整数
【発展】z1, z2, ..., zkを求める方法
- 共分散行列 S の固有方程式 Sw = λw を解く

↑

用語†

主成分負荷量： w1k, w2k, ..., wnk を指す．主成分zkの計算に，各変数x1,x2,...,xnをどのぐらい使用しているかを表す
- 固有ベクトルに相当する
主成分得点： 元のデータを各成分z1, z2, ..., zkに変換した値を指す
- それぞれの学生の5科目の得点を，文系力，理系力に変換した後のスコア
寄与率： 各主成分z1,z2,...,zkが元のデータ全体を何%説明しているかを示す
- 主成分の重要度を理解できる

↑

sklearn.decomposition.PCA†

書式

from sklearn.decomposition import PCA
pca = PCA(ハイパーパラメータ)
 
#標準化されたデータフレームで学習させる
pca.fit(df_sc)

#主成分のラベル (データフレームの列・行に名前を付ける際に使う)
labels = [f"第{i+1}主成分" for i in range(pca.n_components_)]

#主成分得点に変換．データフレームに入れなおす
df_pca = pd.DataFrame(pca.transform(df_sc), index=df_sc, columns=labels)
#主成分得点を表示
print("【主成分得点】")
display(df_pca)

 
#主成分負荷量
df_comp = pd.DataFrame(pca.components_, index=labels, columns=df_sc.columns)
#主成分負荷量を表示
print("【主成分負荷量】")
display(df_comp)

説明書はこちら

主なハイパーパラメータ
- n_components: 保持する主成分の数kを指定．デフォルトで k=n (つまり，元のデータの次元数)
  - または，1より小さい非負数で，累積寄与率の閾値を指定し，これを超えるところまで主成分を計算することもできる
- whiten: 白色化するか否か．デフォルトはFalse．Trueにすると，導出する主成分得点を自動的に標準化する．
主な属性
- components_: 主成分負荷量．分散を最大化する固有ベクトルに相当する
- explained_variance_: 各主成分の分散．固有値に相当する
- explained_variance_ratio_: 各主成分が持つ分散の比率

↑

5科目テストのデータにPCAを適用†

5科目テストのデータにPCAを適用し，主成分を抽出してみる

#まずは標準化
sc = StandardScaler()
sc.fit(df)
df_sc = pd.DataFrame(sc.transform(df), index=df.index, columns=df.columns)

#主成分分析を行う．次元数はデフォルトで元データの次元数(5)になる
from sklearn.decomposition import PCA
pca = PCA()
pca.fit(df_sc)

#主成分のラベル (データフレームの列・行に名前を付ける際に使う)
labels = [f"第{i+1}主成分" for i in range(pca.n_components_)]

#主成分得点に変換．データフレームに入れなおす
df_pca = pd.DataFrame(pca.transform(df_sc), index=df_sc.index, columns=labels)
#主成分得点を表示
print("【主成分得点】")
display(df_pca)

#主成分負荷量
df_comp = pd.DataFrame(pca.components_, index=labels, columns=df_sc.columns)
#主成分負荷量を表示
print("【主成分負荷量】")
display(df_comp) 

#分散，寄与率
df_var = pd.DataFrame(pca.explained_variance_, index=labels, columns=["分散"])
df_var["寄与率"] = pca.explained_variance_ratio_
df_var["累積寄与率"] = pca.explained_variance_ratio_.cumsum()
print("【分散・寄与率】")
display(df_var)

第1，第2主成分のみで，可視化してみる

File not found: "7_exam_pca_results_1.png" at page "第7回"[添付]

↑

7.2 特徴量エンジニアリング【中村】†

↑

特徴量を開発する (feature engineering)†

精度の良い学習モデルを作るためには，正解データ(目的変数)をうまく説明できる特徴量（説明変数）が不可欠である
データセットにすでに特徴量がたくさんある場合
- → 効きそうなものを選択する 【特徴量選択】
データセットに特徴量がない，あるいは，効きそうなものがない場合
- → 特徴量を創る 【特徴量エンジニアリング】

↑

アプローチ†

データを眺めて考える
- EDAを行い，目的変数に関するパターンや法則が見えないか？
ドメイン知識に基づいて作る
- 目的変数に関連がありそうな要因は何か？
機械的に作る
- ある変数xの2乗，3乗を変数として加える
- 2つの変数x, y の積を変数として加える

↑

【例題】製品の売上予測†

RQ: あるスーパーで販売中のヨーグルトAの売上データに基づいて，Aが明日何個売れるかを予測したい
- ヨーグルトの売上データ

【売上データ】

#0: 売上日付
#1: 売上数 (目的変数)：その日に売れたAの戸数
#2: 売上額 (目的変数)：その日に売れたAの総売上金額

図XX：特徴量が少ないデータセット

【問題】

説明変数が日付しかない

→ 特徴量エンジニアリングによって，新しい特徴量を作る

↑

データを眺める†

#準備（すべてに共通）
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
#↓の1行は提出時にはコメントアウトしてください
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート（モデルの保存用）
import pickle

# pandasのデータフレームを表示する関数
from IPython.display import display

#データをロードする（エクセルデータの読み込み）
data = pd.read_excel("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/yogurt.xlsx")
data

#型チェック
data.dtypes

#整形
df = data.copy()
#売上日付をインデクスに
df = df.set_index("売上日付")
df

#売上個数を可視化
#箱ひげ図
df["売上数"].plot.box()

#時系列
df["売上数"].plot()

#月別に可視化
for y in [2021, 2022]: 
  for i in range(1,13):
    df[(df.index.year==y)&(df.index.month==i)]["売上数"].plot.bar(title=f"{y}年{i}月", figsize=(8,6))
    plt.show()

↑

ドメイン知識による特徴量開発†

ヨーグルトAの売上数に関係ありそうなものは何か？

曜日？

df["曜日"] = df.index.day_of_week

日？

df["日"] = df.index.day

月？

df["月"] = df.index.month

季節？：月で説明できそう．ヨーグルトに季節は関係ある？
値段：おそらく一番効くのでは？
- 売上額を売上数で割れば，単価が出るはず！！

df["単価"] = df["売上額"] / df["売上数"]

n日前の売上数？

n=3
for i in range(1, n+1):
   df[f"売上数-{n}"] = df["売上数"].shift(n)

図XX: 追加された特徴量

天気？

#天気のデータを拾ってくる．インデクスを日付に
data_weather = pd.read_csv("どこかの天気のデータ.csv")
df_w = data_weather.set_index("日付")
#売上データとマージする （参考：Python基礎演習6.2）
df_merged = pd.merge(df, df_w, left_index=True, right_index=True)

↑

機械的に作る†

↑

sklearn.preprocessing.PolynomialFeatures†

多項式を使って，特徴量を作成するライブラリ

書式

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(ハイパーパラメータ)

#データフレームをフィットさせる
poly.fit(df)  #dfは特徴量作成の元になる列を含んだデータフレーム

#データフレームを変換して，データフレームに入れなおす
df_poly = pd.DataFrame(poly.transform(df), index=df.index, columns=poly_features_names_out())

#確認する
df_poly

説明書はこちら
ハイパーパラメータ
- degree: デフォルトは2．多項式の最大次数を与える．（最小，最大）のようにタプルで与えることも可能
- interaction_only: デフォルトはFalse．Trueにすると交互作用（異なる変数同士の掛け算）の項のみを抽出
- include_bias: デフォルトはTrue．切片の項を出力するかどうか

#データフレームを適当に作る
df_sample = pd.DataFrame(data={"a":[1,2,3,4,5], "b":[60,70,80,90,100]})
df_sample

#多項式特徴量を作成する
from sklearn.preprocessing import PolynomialFeatures

poly=PolynomialFeatures(degree=3,include_bias=False)
poly.fit(df_sample)
df_poly = pd.DataFrame(poly.transform(df_sample), index=df_sample.index,
                       columns=poly.get_feature_names_out())
df_poly

図XX: 多項式特徴量の作成

↑

7.3 モデルのチューニング【伊藤】†

↑

訓練データ，検証データ，テストデータの分割†

教師データの訓練データと検証データの2つに分割する問題点
- チューニングしていくにあたり，テストデータに都合が良いようにチューニングをしてしまう
教師データを3つに分割
- ①訓練データ(training)：学習に利用するデータ
- ②検証データ(validation)：学習には利用せず，チューニングの参考にするためにモデルの予測性能だけを計算するデータ
- ③テストデータ(test)：学習にもチューニングの参考にも利用せず，最終的なモデルの予測性能を評価するためだけのデータ
分割の手順
- 1. 「①訓練データ&②検証データ」と「③テストデータ」の2つに分割
- 2. 「①訓練データ」と「②検証データ」を分割

# X, yのそれぞれを訓練データ、検証データ、テストデータに分ける
from sklearn.model_selection import train_test_split

# まず、訓練・検証データとテストデータに分ける (訓練・検証：テスト=8:2)
X_train_val, X_test, y_train_val, y_test = train_test_split(X, y, test_size=0.2, random_state=1)

# さらに、訓練データと検証データに分ける (訓練：検証=7:3)
X_train, X_val, y_train, y_val = train_test_split(X_train_val, y_train_val, test_size=0.3, random_state=1)

テストデータで最終チェックする際の注意点
- 訓練・検証データと同様の前処理をテストデータにも改めて行う
- ただし，ダミー変数化は「データ分割前に実施!!」->ランダムな分割によってダミー変数が一致しない可能性がある

シェアサイクルの需要予測問題に適用

↑

クロスバリデーション†

↑

予測性能評価†

ホールドアウト法の問題点
- ホールドアウト法：「学習に利用するデータ」と「予測性能をテストするデータ」に分割
- 分割したデータに偏りが出る可能性
- モデルの性能が低い原因が、本質的なチューニングなのか、分割時のデータの偏りなのかが不明瞭

↑

K分割交差検証†

学習データとテストデータを変え、K回評価を繰り返し、平均性能を評価
データの分け方に偏りが出ても、K回分の予測性能の評価指標の平均を取るので、偏りの影響を少なくできる

# KFoldの処理で分割時の条件を指定
from sklearn.model_selection import KFold
kf = KFold(n_splits = 3, shuffle = True, random_state = 0)

# cross_validate関数で交差検証を行う
from sklearn.model_selection import cross_validate

# 線形回帰モデルの選択
from sklearn import linear_model
model = linear_model.LinearRegression()
result = cross_validate(model, X, y, cv = kf, scoring = 'r2', return_train_score = True)
print(result)

実行結果　{'fit_time': array([0.06101942, 0.01478291, 0.00645089]), 'score_time': array([0.01288962, 0.01835108, 0.00437713]), 'test_score': array([0.53904302, 0.54059838, 0.51332463]), 'train_score': array([0.56584437, 0.56791939, 0.57737164])}

#平均値を計算する
sum(result['test_score']) / len(result['test_score'])

実行結果　0.5309886770444134

シェアサイクルの需要予測問題に適用

分類モデルを作るときの交差検証の注意点
- 分類モデルでは，「各分割ブロック内の正解データの比率が均等になる」ような指定をする必要がある。
- scikit-learnでは，StratfiedKFoldライブラリを利用
```
from sklearn.model_selection import StratfiedKFold
skf = StratfiedKFold(n_splits = 3, shuffle = True, random_state = 0)
```

↑

グリッドサーチ†

ハイパーパラメータ

↑

最適化†

伊藤先生にお任せ

↑

7.4 アプリケーション【陳】†

↑

作成したモデルをAPI化する†

↑

第7回 の履歴(No.14)

第7回：教師なし学習・次元削減，機械学習の実践的アプローチ†

7.1 教師なし学習・次元削減【中村】†

次元削減 (dimensionality reduction) とは†

なぜ次元を削減するのか？†

次元削減の手法の例†

【例題】5科目のテスト結果の分析†

準備†

データを眺める†

課題†

情報量の減少†

主成分分析 (PCA)†

新しい軸をデータがなるべく散らばるように決める†

PCAの考え方†

用語†

sklearn.decomposition.PCA†

5科目テストのデータにPCAを適用†

7.2 特徴量エンジニアリング【中村】†

特徴量を開発する (feature engineering)†

アプローチ†

【例題】製品の売上予測†

データを眺める†

ドメイン知識による特徴量開発†

機械的に作る†

sklearn.preprocessing.PolynomialFeatures†

7.3 モデルのチューニング【伊藤】†

訓練データ，検証データ，テストデータの分割†

クロスバリデーション†

予測性能評価†

K分割交差検証†

グリッドサーチ†

最適化†

7.4 アプリケーション【陳】†

作成したモデルをAPI化する†

訓練済みモデルの利用†

第7回の履歴(No.14)