第6回/演習の履歴(No.3)

履歴一覧
ソースを表示
第6回/演習は削除されています。
- 1 (2023-08-08 (火) 11:17:23)
- 2 (2023-10-31 (火) 04:05:15)
- 3 (2023-11-03 (金) 00:02:18)
- 4 (2023-11-03 (金) 10:26:18)
- 5 (2023-11-10 (金) 10:31:22)
- 6 (2024-05-07 (火) 10:38:45)

第6回

第6回演習課題†

課題提出のページを熟読したうえで，以下の演習課題に取り組みなさい

以下では，Pythonソースコードの実践により，教師あり学習・分類の理解を深めよう

↑

基礎問題†

Q6-1【乳がんの診断（2値分類）】

ロジスティック回帰を用いて，乳がんの診断問題を解いてみよう

図1：乳がんのデータセット

【問い】下記の手順を参考し，Step 3～6 の部分を補充して分類モデルの評価結果を確認せよ

Step 1: skleanのライブラリから「breast cancer」のデータセットを読み込む

# Pandasをインポート
import pandas as pd

# データを読み込み
from sklearn.datasets import load_breast_cancer
data_breast_cancer = load_breast_cancer() 

# 【データ内容】↓
# 説明変数(特徴量データ): data_breast_cancer.data
## mean concave points - 細胞にある凹みの平均個数
## symmetry error - 細胞の左右の非対称性の度合い
## texture error - 細胞表面の明暗の標準偏差
## worst radius - 細胞の平均半径
## ...

# 目的変数(正解データ): data_breast_cancer.target
## class - 腫瘍の判定結果（悪性: 0, 良性: 1）

Step 2: 特徴量と正解データを指定

# 特徴量データ
x = data_breast_cancer.data

# 正解データ
t = data_breast_cancer.target

# 正解データの次元数を2から1へ
t = t.reshape(-1) 

## ↑次元削減しければ，Inputデータの次元が合わないとエラーが出る
### A column-vector y was passed when a 1d array was expected

Step 3: 特徴量の標準化
Step 4: 訓練データと検証用データに分割　
- ※ Step 4 のパラメータを（test_size = 0.2, random_state = 0）に指定しなさい
Step 5: ロジスティック回帰 (logistic regression) による学習　
- ※ Step 5 のパラメータを（random_state = 0, C = 0.1, multi_class = 'auto', solver = 'lbfgs'）に指定しなさい
Step 6: 適合率（precision），再現率（recall），F値（f1-score）を一括で計算

↑

応用問題†

Q6-2【手書き数値の認識（多クラス分類）】

ランダムフォレストを用いて，手書き数値の認識問題を解いてみよう

図2：0～9の手書き数字が書かれた画像データセット

【問い】下記の手順を参考し，Step 2～5 の部分を補充して分類モデルの評価結果を確認せよ

Step 1：skleanのライブラリから「digits」のデータセットを読み込む

# データを読み込み
from sklearn.datasets import load_digits
data_digits = load_digits()

# 【データ内容】↓
# 説明変数(特徴量データ): data_digits.data
## 図2 (b) のように，正確には画像ではなく数値の配列である
## 一つの手書き数字は，１チャネルで表される（モノクロ画像）
## 一つの手書き数字は，8×8のサイズで構成され，１次元の配列に格納されている
### （横向きにスライスした画像を一列につなげるイメージで，64個の数値 の配列から構成される）

# 目的変数(正解データ): data_digits.target
## class - 手書き数値の判定結果（0～9中の一つ）

Step 2: 特徴量と正解データをそれぞれx, tに定義し，正解データの次元数を2から1へ
Step 3: 訓練データと検証データに分割
- ※ Step 3 のパラメータを（test_size = 0.2, random_state = 0）に指定しなさい
Step 4: ランダムフォレストによる学習
- ※ Step 4 のパラメータを (n_estimators = 200, random_state = 0) に指定しなさい
Step 5: 精度 (accuracy)，混同行列 (confution matrix) を確認 (参考：第3回)

↑

発展問題†

Q6-3【分類モデルの性能を更に上げてみよう】

多数決アンサンブル分類器を用いて，Q6-2の手書き数値の認識問題を解いてみよう

図3：KNNとSVMとLRの3つモデルで組み合わせた多数決アンサンブル分類器

【問い】下記の手順を参考し，Step 1～6 を実行して分類モデルの評価結果を確認せよ
- Step 1: データを読み込み (Q6-2と同じ)
- Step 2: 特徴量と正解データをそれぞれx, tに定義し，正解データの次元数を2から1へ
- Step 3: 訓練データと検証データに分割
  - ※ Step 3 のパラメータを（test_size = 0.2, random_state = 123）に指定しなさい
- Step 4: 以下の3つ異なる分類モデルを学習せよ

※それぞれモデルにパラメータを図3の赤線のように指定しなさい

① k近傍法 (KNN) による学習　
② サポートベクターマシン (SVM) による学習
③ ロジスティック回帰による学習

Step 5: 多数決アンサンブル分類器の構築 (参考：sklearn.ensemble.Votingclassifier())
Step 6: 精度 (accuracy)，混同行列 (confution matrix) を確認しなさい
- レポートには，Q6-2の分類手法と比べ，どのような工夫をして，結果的に精度がどこまで向上したかを記述しなさい

作成したところまでのプログラムのipynbファイルを提出しなさい

第6回/演習 の履歴(No.3)

第6回演習課題†

基礎問題†

応用問題†

発展問題†

第6回/演習の履歴(No.3)