第5回の履歴(No.13)

時系列データを新しい時間頻度（周期）で集計しなおすこと
- 例1：日ごとの売り上げを週単位で集計しなおす
- 例2： 15秒ごとのセンサデータを1時間単位で集計しなおす
新しい時間周期の粒度によって，2種類の再サンプリングの方法がとられる
- ダウンサンプリング：より大きな時間頻度で集計しなおすこと．集計の方法を集約関数で指定する必要がある
- アップサンプリング：より細かい時間頻度で集計しなおすこと．データが歯抜けになるので，穴埋めの方法を指定する必要がある

↑

時間頻度（周期）の指定†

Pandasが備えている時系列の基準頻度の代表的なものを以下に示す
- 再サンプリングの際には，文字で新しい時間頻度を指定する
- より詳細な解説

文字	説明
S	毎秒
T または min	毎分
H	毎時
D	毎日
B	毎営業日
W	毎週（月曜始まり～日曜締め）
W-MON, W-TUE, ...	毎週指定した曜日毎．W-MON, W-TUE, W-WED, W-THU, W-FRI, W-SAT, W-SAT
M	毎月（月末）
MS	毎月（月始）

↑

ダウンサンプリング†

【書式】 df.resample("時間頻度文字").集約関数().to_period()
- 最後のto_period()は，時系列データのインデクスを時刻(TimeStamp)から期間(Period)に変換する命令．省略してもよい

↑

アップサンプリング†

【書式】 df.resample("時間頻度文字").asfreq().欠損値補間関数()
- 欠損値補間には，第4回で紹介したfillna()を使う．

↑

例題1：不動産価格予測問題†

RQ: 不動産データから，不動産価格（坪単価）を予測することが可能か？
演習課題Q3-3【不動産価格を推定しよう】で扱った問題 ->予測精度を上げるためには，どうすれば良いのか．
- 決定係数は，XX

↑

データの確認と整形†

【不動産データセット】
- https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/realestate-sample.csv

Google Colabを開き，新規ノートブックを作成
ノートブックの名前 Untitled.ipynb を realestate.ipynb に変更する

#準備（すべてに共通）
# PandasとNumpyをインポート
import pandas as pd
import numpy as np

# 日本語化Matplotlibもインポート
import matplotlib.pyplot as plt
!pip install japanize-matplotlib
import japanize_matplotlib

# Seabornもインポート
import seaborn as sns

# pickleをインポート（モデルの保存用）
import pickle

# データの取得
data = pd.read_csv("XXXXX")
data

図挿入

データ項目の確認

【データの説明】
・台湾・新北市の不動産に関するデータセット
・各行が1つの不動産物件に対応し，その物件の特徴量と正解データ（不動産価格）を含んでいる
【データ項目】
0: No: 物件の番号
1: 取引日：年.月日オフセット（1/1を0.0, 12/31を1.0とした，月日の相対値）
2: 築年数： 物件の築年数
3: 駅距離：最寄りの地下鉄駅までの距離（メートル）
4: コンビニ数：徒歩圏内にあるコンビニの数
5: 緯度：物件の場所の緯度
6: 経度：物件の場所の経度
7: 坪単価：物件の1坪(3.3平米)当たりの不動産価格（1万台湾ドル）　【正解データ】

今回はクリーニングされたデータのため，整形は不要．データの整形については，第4回を参照．
注)実問題を解く際には，データのクリーニングが必要な場合が多い．

↑

データを眺める†

相関行列

散布図行列

訓練データとテストデータの比率を60:40になるよう分割しなさい．random_stateは1234とせよ
使用する機械学習モデルは，線形回帰を使用しなさい
モデル構築に使用する特徴量は，No(物件の番号)以外，すべて選びなさい
作成したモデルの回帰係数と切片を求め，モデルの説明をしなさい
作成したモデルの決定係数を求めなさい
作成したモデルの平均絶対誤差を求めなさい

Q3-4【モデルをチューニングしてみよう】

Q3-3で構築した不動産価格のモデルについて，決定係数を向上させるように改良（チューニング）を行い，レポートにまとめなさい
- チューニングの方法として，例えばデータから外れ値を取り除く，線形回帰モデル以外のモデルを試してみる，などがある
- レポートには，どのような工夫をして，結果的に決定係数がどこまで向上したかを記述しなさい

↑