第7回の履歴(No.10) - PukiWiki

【このページは現在作成中です】

第7回：教師なし学習・次元削減，機械学習の実践的アプローチ†

第7回：教師なし学習・次元削減，機械学習の実践的アプローチ
7.1 教師なし学習・次元削減【中村】
7.2 特徴量エンジニアリング【中村】
7.3 モデルのチューニング【伊藤】
7.4 アプリケーション【陳】
- 作成したモデルをAPI化する
- 訓練済みモデルの利用

7.1 教師なし学習・次元削減【中村】†

次元削減 (dimensionality reduction) とは†

データの変数（列）間の関係を学習し，次元数を減らすこと
- より少ない特徴量でデータを説明する
- なるべく情報量を落とさないように，複数の特徴量をまとめた新しい特徴量を作る

図1：教師あり学習と教師なし学習のイメージ（再掲）

なぜ次元を削減するのか？†

データの理解・可視化
- 次元を削減することで，データの理解・可視化がやりやすくなる
- 人間が理解できる表現方法はせいぜい3次元まで
  - 1次元：サンプル同士を直接値で比較できる
  - 2次元：サンプルを2軸で説明できる
  - 3次元：サンプルを空間上で可視化できる
  - 4次元以上： 1つの図では可視化不可能
データの圧縮
- 高次元のデータを低次元に圧縮することで，計算処理を効率化できる
次元の呪いへの対処
- 次元が増えるほど訓練に必要なデータが指数的に増える（少ないままだと過学習が起こる）
- 次元削減で減らす

次元削減の手法の例†

主成分分析 (principal component analysis, PCA)
- 特徴量を相互に統計的に関連しないように回転させる
非負値行列因子分解（non-negative matrix factorization, NMF）
- データを非負の重み付き和に分解する
t-SNE （ t-distributed stochastic neighbor embedding）
- データポイントの距離を可能な限り維持する2次元表現を見つけようとする (可視化専用)

【例題】5科目のテスト結果の分析†

あなたは100人のクラスを担当する高校教師である
先日行われたの5科目の模擬試験(国語，数学，英語，物理，化学)の結果が返ってきている
- https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/exam-pca.csv
これらのデータを分析し，100人それぞれの学力を把握したい

準備†

Google Colabを開き，新規ノートブックを作成
ノートブックの名前 Untitled.ipynb を exam-pca.ipynb に変更する

#準備（すべてに共通）
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
#↓の1行は提出時にはコメントアウトしてください
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート（モデルの保存用）
import pickle

#データフレームをきれいに表示するメソッド
from IPython.display import display

#標準化はよく使うのでインポート
from sklearn.preprocessing import StandardScaler

#データの取り込み
data = pd.read_csv("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/exam-pca.csv", index_col="受験番号")

データを眺める†

display(data)
df = data.copy()

#要約統計量
display(df.describe())

#ヴァイオリン・プロット
sns.violinplot(df)
plt.show()

#相関係数
sns.heatmap(df.corr(), annot=True)

課題†

上記のEDAでは，学生全体の傾向はつかめるものの，個別の学生の学力がどうなっているかは可視化できていない
よくやる方法は，5科目の合計を取って，比較する
- 合計 = 国語 + 数学 + 英語 + 物理 + 化学

#5科目の合計を計算
total = pd.DataFrame(df.sum(axis=1), columns=["合計"])
display(total)
#total.columns=["合計"]
#横棒グラフに可視化する
total.sort_values("合計").plot.barh(title="5科目の合計", figsize=(8,16))
#積み上げ棒グラフで表示する(オプショナル)
#df.loc[total.sort_values("合計").index].plot.barh(stacked=True, figsize=(8,16))

合計で説明するということは，5次元のデータを1次元で説明することに等しい
- 5次元を1次元に次元削減して分析している
5科目のデータを，合計という 新しい軸 に移して分析している

情報量の減少†

新しい軸「合計点」を使うと，学生全員の学力を比較・説明しやすくなる
一方で，ほぼ同じ合計点でも，異なる傾向がある学生を見分けられなくなる
- 66番と19番
- 12番と10番

#66番と19番の得点を表示
display(df.loc[[12,10],:])
display(total.loc[[12,10]])

なるべく情報量が減らないように，「新しい軸」を定義するにはどうしたらよいだろうか？

主成分分析 (PCA)†

新しい軸をデータがなるべく散らばるように決める†

5科目の成績の例題で，新しい軸は以下のように一般化できる

新しい軸 = w1*国語 + w2*数学 + w3*英語 + w4*物理 + w5*化学

w1 = w2 = w3 = w4 = w5 = 1.0 とした場合，「合計」の軸となる
合計では，66番と19番の傾向の差を説明できなかった
例えば，以下の新しい2軸を定義してみる

理系能力 = 0.3*国語 + 0.8*数学 + 0.3*英語 + 0.8*物理 + 0.8*物理
文系能力 = 0.8*国語 + 0.3*数学 + 0.8*英語 + 0.3*物理 + 0.3*物理

66番と19番はそれぞれの観点で比較できる

sklearn.decomposition.PCA†

書式

from sklearn.decomposition import PCA
pca = PCA(ハイパーパラメータ)
 
#標準化されたデータフレームで学習させる
pca.fit(df_sc)

#主成分のラベル (データフレームの列・行に名前を付ける際に使う)
labels = [f"第{i}主成分" for i in range(pca.n_components_)]

#主成分得点に変換して，データフレームに入れなおす
df_pca = pd.DataFrame(pca.transform(df_sc), index=df_sc, columns=labels)
 
#主成分負荷量
df_comp = pd.DataFrame(pca.components_, index=labels, columns=df_sc.columns)

7.2 特徴量エンジニアリング【中村】†

特徴量を開発する (feature engineering)†

精度の良い学習モデルを作るためには，正解データ(目的変数)をうまく説明できる特徴量（説明変数）が不可欠である
データセットにすでに特徴量がたくさんある場合
- → 効きそうなものを選択する 【特徴量選択】
データセットに特徴量がない，あるいは，効きそうなものがない場合
- → 特徴量を創る 【特徴量エンジニアリング】

アプローチ†

データを眺めて考える
- EDAを行い，目的変数に関するパターンや法則が見えないか？
ドメイン知識に基づいて作る
- 目的変数に関連がありそうな要因は何か？
機械的に作る
- ある変数xの2乗，3乗を変数として加える
- 2つの変数x, y の積を変数として加える

【例題】製品の売上予測†

RQ: あるスーパーで販売中のヨーグルトAの売上データに基づいて，Aが明日何個売れるかを予測したい
- ヨーグルトの売上データ

【売上データ】

#0: 売上日付
#1: 売上数 (目的変数)：その日に売れたAの戸数
#2: 売上額 (目的変数)：その日に売れたAの総売上金額

図XX：特徴量が少ないデータセット

【問題】

説明変数が日付しかない

→ 特徴量エンジニアリングによって，新しい特徴量を作る

データを眺める†

#準備（すべてに共通）
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
#↓の1行は提出時にはコメントアウトしてください
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート（モデルの保存用）
import pickle

# pandasのデータフレームを表示する関数
from IPython.display import display

#データをロードする（エクセルデータの読み込み）
data = pd.read_excel("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/yogurt.xlsx")
data

#型チェック
data.dtypes

#整形
df = data.copy()
#売上日付をインデクスに
df = df.set_index("売上日付")
df

#売上個数を可視化
#箱ひげ図
df["売上数"].plot.box()

#時系列
df["売上数"].plot()

#月別に可視化
for y in [2021, 2022]: 
  for i in range(1,13):
    df[(df.index.year==y)&(df.index.month==i)]["売上数"].plot.bar(title=f"{y}年{i}月", figsize=(8,6))
    plt.show()

ドメイン知識による特徴量開発†

ヨーグルトAの売上数に関係ありそうなものは何か？

曜日？

df["曜日"] = df.index.day_of_week

日？

df["日"] = df.index.day

月？

df["月"] = df.index.month

季節？：月で説明できそう．ヨーグルトに季節は関係ある？
値段：おそらく一番効くのでは？
- 売上額を売上数で割れば，単価が出るはず！！

df["単価"] = df["売上額"] / df["売上数"]

n日前の売上数？

n=3
for i in range(1, n+1):
   df[f"売上数-{n}"] = df["売上数"].shift(n)

図XX: 追加された特徴量

天気？

#天気のデータを拾ってくる．インデクスを日付に
data_weather = pd.read_csv("どこかの天気のデータ.csv")
df_w = data_weather.set_index("日付")
#売上データとマージする （参考：Python基礎演習6.2）
df_merged = pd.merge(df, df_w, left_index=True, right_index=True)

機械的に作る†

sklearn.preprocessing.PolynomialFeatures†

多項式を使って，特徴量を作成するライブラリ

書式

from sklearn.preprocessing import PolynomialFeatures
poly = PolynomialFeatures(ハイパーパラメータ)

#データフレームをフィットさせる
poly.fit(df)  #dfは特徴量作成の元になる列を含んだデータフレーム

#データフレームを変換して，データフレームに入れなおす
df_poly = pd.DataFrame(poly.transform(df), index=df.index, columns=poly_features_names_out())

#確認する
df_poly

説明書はこちら
ハイパーパラメータ
- degree: デフォルトは2．多項式の最大次数を与える．（最小，最大）のようにタプルで与えることも可能
- interaction_only: デフォルトはFalse．Trueにすると交互作用（異なる変数同士の掛け算）の項のみを抽出
- include_bias: デフォルトはTrue．切片の項を出力するかどうか

#データフレームを適当に作る
df_sample = pd.DataFrame(data={"a":[1,2,3,4,5], "b":[60,70,80,90,100]})
df_sample

#多項式特徴量を作成する
from sklearn.preprocessing import PolynomialFeatures

poly=PolynomialFeatures(degree=3,include_bias=False)
poly.fit(df_sample)
df_poly = pd.DataFrame(poly.transform(df_sample), index=df_sample.index,
                       columns=poly.get_feature_names_out())
df_poly

図XX: 多項式特徴量の作成

7.3 モデルのチューニング【伊藤】†

関数化†

あえて言う必要ない？

検証用データ†

これまでは，元データを，訓練，テストの2つに分けていた
- チューニングしていくにあたり，テストデータに合わせたチューニングになってしまうのが問題
なので，元データを，訓練，検証，テストの3つにわけるべし

クロスバリデーション†

k交差法

グリッドサーチ†

オライリーのほうに載っています

最適化†

伊藤先生にお任せ

7.4 アプリケーション【陳】†

作成したモデルをAPI化する†

訓練済みモデルの利用†