【注意】課題提出サイトにおいては,選択肢の順番がシャッフルされることがあるので注意してください.
Q4-1【箱ひげ図】
Q4-2【ヒストグラム】
Q4-3【相関係数】
Q4-4【データの整形】
【データの整形】
【プログラムのスケルトン】
# Pandasをインポート
import pandas as pd
#1. pandasのデータフレームに読み込む
data = pd.###########("https://www2.cmds.kobe-u.ac.jp/~masa-n/dshandson/kobe_weather_202210_202309.csv", encoding="UTF-8")
#オリジナルのデータをコピーしておく
df = data.copy()
#2. 各列の型をチェックする
print("\n【整形前】")
df.info()
#3. 日付の列をdatetime型に変換
df["日付"] = pd.###############(df["日付"])
#4. 最大風速風向,天気概況・昼の列をcategory型に変換
df["最大風速風向"] = df["最大風速風向"].########("#######")
df["天気概況・昼"] = df["天気概況・昼"].########("#######")
#5. 日付の列をインデクスにセット
df = df.###########("日付")
#再び,各列の型をチェックする
print("\n【整形後】")
df.info()
#確認
df
Q4-5【データの欠損値処理】
平均気圧 0 合計降水量 187 平均気温 0 最高気温 0 最低気温 0 平均湿度 0 最大風速 1 最大風速風向 1 日照時間 2 天気概況・昼 0
#ここから # # Q4-4のコードをそのまま貼り付ける # #ここまで
#欠損値をチェックする
print("【欠損値の確認】\n", df.isnull().sum())
#【合計降水量】 欠損値を0で埋める df["合計降水量"] = df["合計降水量"].########(#)
#【最大風速】 欠損値を線形補間で埋める df["最大風速"] = df["最大風速"].##########()
#【日照時間】 前日の日照時間で埋める df["日照時間"] = df["日照時間"].#######(###########)
#【最大風速風向】欠損している日付のデータを見つける df[df["最大風速風向"].isnull()]
#その月の最大風速風向の最頻値を見つける df.loc["20##-##-##":"20##-##-##", "最大風速風向"].#######()
#見つかった最頻値で埋める df.loc["20##-##-##", "最大風速風向"] = "######"
#再びチェックする
print("【欠損値処理後】\n", df.isnull().sum())
Q4-6 【顧客データを眺める】
【データの説明】
#0: Channel: 販売チャンネル 1: Horeca (ホテル,レストラン,カフェ) 2: Retail (小売店) #1: Region: 消費地域 1: リスボン 2: ポルト 3: その他 #2: Fresh: 生鮮品の年間売上 #3: Milk: 乳製品の年間売上 #4: Grocery: 食料雑貨の年間売上 #5: Frozen: 冷凍品の年間売上 #6: Detergents_Paper: 洗剤,紙製品の年間売上 #7: Delicatessen: 惣菜の年間売上
このデータに対してEDAを行い,次の問いに答えなさい.