#author("2023-10-30T22:45:54+09:00","default:cmdsadmin","cmdsadmin")
[[第5回]]
#author("2024-05-07T10:38:18+09:00","default:cmdsadmin","cmdsadmin")

* 第5回演習課題 [#w3bb626b]

[[課題提出]]のページを熟読したうえで,以下の演習課題に取り組みなさい。
以下に示すデータを利用し,シェアサイクルの需要を予測する機械学習モデルを作成しなさい。

--https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/bike-sharing-day.csv 

** 基礎問題 [#e586be99]
''Q5-1''

- データ準備としてdtedayを日付型に変換、season, holiday, weekday, workingday, weathersitをカテゴリ型に変換せよ。
- season, holiday, weekday, workingday, weathersitはダミー変数化せよ。
- 訓練データとテストデータの比率は8:2に分割しなさい。random_stateは1234とせよ。
- 数値データをスケーリング(標準化)せよ。
- 使用する機械学習モデルは線形回帰を使用せよ。
- 作成した機械学習モデルの性能(決定係数、MAE、MSE、RMSE)を確認せよ。

''Q5-2''

- 使用する機械学習モデルは回帰木を使用し、木の最大深さは5、random_stateは1234とせよ。
- 作成した機械学習モデルの性能(決定係数、MAE、MSE、RMSE)を確認せよ。

** 応用問題 [#s5d196b8]
''Q5-3''

- Q5-1とQ5-2で構築したモデルの汎化性能を確認し、過学習の有無を確認せよ。

''Q5-4''

- Q5-2で構築したモデルの木の最大深さのハイパーパラメータをチューニングをし、最適な木の最大深さを明示せよ。


** 発展問題 [#saf97b3d]

''Q5-5''

- シェアサイクルの需要予測問題について、上記以外の決定係数を向上させるような改良(チューニング)を行い、レポートにまとめなさい。チューニングの方法として,例えばデータから外れ値を取り除く,線形回帰モデルや回帰木以外のモデルを試してみる,などがある
- レポートには,どのような工夫をして,結果的に決定係数がどこまで向上したかを記述しなさい

''作成したところまでのプログラムのipynbファイルを提出しなさい''


トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS