#author("2023-10-30T22:45:54+09:00","default:cmdsadmin","cmdsadmin") [[第5回]] #author("2024-05-07T10:38:18+09:00","default:cmdsadmin","cmdsadmin") * 第5回演習課題 [#w3bb626b] [[課題提出]]のページを熟読したうえで,以下の演習課題に取り組みなさい。 以下に示すデータを利用し,シェアサイクルの需要を予測する機械学習モデルを作成しなさい。 --https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/bike-sharing-day.csv ** 基礎問題 [#e586be99] ''Q5-1'' - データ準備としてdtedayを日付型に変換、season, holiday, weekday, workingday, weathersitをカテゴリ型に変換せよ。 - season, holiday, weekday, workingday, weathersitはダミー変数化せよ。 - 訓練データとテストデータの比率は8:2に分割しなさい。random_stateは1234とせよ。 - 数値データをスケーリング(標準化)せよ。 - 使用する機械学習モデルは線形回帰を使用せよ。 - 作成した機械学習モデルの性能(決定係数、MAE、MSE、RMSE)を確認せよ。 ''Q5-2'' - 使用する機械学習モデルは回帰木を使用し、木の最大深さは5、random_stateは1234とせよ。 - 作成した機械学習モデルの性能(決定係数、MAE、MSE、RMSE)を確認せよ。 ** 応用問題 [#s5d196b8] ''Q5-3'' - Q5-1とQ5-2で構築したモデルの汎化性能を確認し、過学習の有無を確認せよ。 ''Q5-4'' - Q5-2で構築したモデルの木の最大深さのハイパーパラメータをチューニングをし、最適な木の最大深さを明示せよ。 ** 発展問題 [#saf97b3d] ''Q5-5'' - シェアサイクルの需要予測問題について、上記以外の決定係数を向上させるような改良(チューニング)を行い、レポートにまとめなさい。チューニングの方法として,例えばデータから外れ値を取り除く,線形回帰モデルや回帰木以外のモデルを試してみる,などがある - レポートには,どのような工夫をして,結果的に決定係数がどこまで向上したかを記述しなさい ''作成したところまでのプログラムのipynbファイルを提出しなさい''