第5回
第5回演習課題†
課題提出のページを熟読したうえで,以下の演習課題に取り組みなさい。
以下に示すデータを利用し,シェアサイクルの需要を予測する機械学習モデルを作成しなさい。
基礎問題†
Q5-1
- データ準備としてdtedayを日付型に変換、season, holiday, weekday, workingday, weathersitをカテゴリ型に変換せよ。
- season, holiday, weekday, workingday, weathersitはダミー変数化せよ。
- 訓練データとテストデータの比率は8:2に分割しなさい。random_stateは1234とせよ。
- 数値データをスケーリング(標準化)せよ。
- 使用する機械学習モデルは線形回帰を使用せよ。
- 作成した機械学習モデルの性能(決定係数、MAE、MSE、RMSE)を確認せよ。
Q5-2
- 使用する機械学習モデルは回帰木を使用し、木の最大深さは5、random_stateは1234とせよ。
- 作成した機械学習モデルの性能(決定係数、MAE、MSE、RMSE)を確認せよ。
応用問題†
Q5-3
- Q5-1とQ5-2で構築したモデルの汎化性能を確認し、過学習の有無を確認せよ。
Q5-4
- Q5-2で構築したモデルの木の最大深さのハイパーパラメータをチューニングをし、最適な木の最大深さを明示せよ。
発展問題†
Q5-5
- シェアサイクルの需要予測問題について、上記以外の決定係数を向上させるような改良(チューニング)を行い、レポートにまとめなさい。チューニングの方法として,例えばデータから外れ値を取り除く,線形回帰モデルや回帰木以外のモデルを試してみる,などがある
- レポートには,どのような工夫をして,結果的に決定係数がどこまで向上したかを記述しなさい
作成したところまでのプログラムのipynbファイルを提出しなさい