【このページは現在作成中です】

第5回:教師あり学習:回帰

5.1 データの理解

探索的データ解析(Exploratory Data Analysis: EDA)

散布図行列

時系列処理

時系列データ

時系列データのデータセットの整理

データフレームの列を日時型に変換

データフレームのインデクスを日時の列にセット

プロット

再サンプリング (resample)

再サンプリングとは

時間頻度(周期)の指定

文字説明
S毎秒
T または min毎分
H毎時
D毎日
B毎営業日
W毎週(月曜始まり~日曜締め)
W-MON, W-TUE, ...毎週指定した曜日毎.W-MON, W-TUE, W-WED, W-THU, W-FRI, W-SAT, W-SAT
M毎月(月末)
MS毎月(月始)

ダウンサンプリング

アップサンプリング

例題1:不動産価格予測問題

データの確認と整形

  1. Google Colabを開き,新規ノートブックを作成
  2. ノートブックの名前 Untitled.ipynb を realestate.ipynb に変更する
#準備(すべてに共通)
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート(モデルの保存用)
import pickle

# データの取得
data = pd.read_csv("XXXXX")
data

データを眺める

Q3-4【モデルをチューニングしてみよう】

例題2:シェアサイクルの需要予測問題

5.2 前処理

数値データのスケーリング

特徴量エンジニアリング

例題1:不動産価格予測問題

例題2:シェアサイクルの需要予測問題

5.3 モデル選択・学習

5.4 モデルの評価

予測性能の指標

決定係数(R-squared :R^2^)

平均2乗誤差(mean squared error :MSE)

平均絶対誤差(mean absolute error :MAE)

二乗平均平方根誤差(root mean squared error :RMSE)

5.5 最新の回帰モデル


トップ   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS