from sklearn.preprocessing import StandardScaler


import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
import numpy as np
plt.rcParams['font.family'] = 'IPAPGothic'  # 全体のフォントを設定

# データの読み込み（月ごとの平均気温）
df_temperature = pd.read_csv("data/temperature_data_kofu.csv")
df_temperature['date'] = pd.to_datetime(df_temperature['年月'])
df_temperature['year'] = df_temperature['date'].dt.year
# 1920以降のデータを採用
origin_year=1920
df_temperature = df_temperature[df_temperature['year']>=origin_year]
# 年平均の算出
df_annual = df_temperature[["year","平均気温(℃)"]].groupby('year').mean().reset_index()
# 1945を除く
df_annual = df_annual[df_annual["year"]!=1945]
df_annual.plot(kind="line", x="year", y="平均気温(℃)")

<AxesSubplot: xlabel='year'>


import numpy as np

# M次多項式近似の場合は、べき乗の値を列とするM+1列の行列(計画行列)
deg = 5
poly_feature = np.vander((df_annual['year'] - origin_year).to_list(), deg+1)

# SVR, RVRはカーネルを指定するだけなので、1列だけでよい
single_feature = np.array([(df_annual['year'] - origin_year).to_list()]).T

# 説明変数の正規化 (Neural Netについては、正規化データを与えないとよい結果が得られない
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler().fit(poly_feature) #正規化
scaled_poly_feature = scaler.transform(poly_feature)

#single_feature
target = df_annual["平均気温(℃)"].to_list()

# テストデータ (ここでは、推定曲線を出力させるだけなので、featureをそのまま使ってもよい)
n=100
test_single = np.linspace(0, 2022-origin_year, n)
test_single = test_single[:, np.newaxis]
test_poly = np.vander(np.linspace(0, 2022-origin_year, n)[:], deg+1)
scaled_test_poly = scaler.transform(test_poly)


# scikit-learnの各種モデル
# {model, title(name), 説明変数, 目的変数, test(predict)用データ}の配列を用意する

models = {}

# 非線形回帰:多項式近似 (vander行列をデータとして入力 ⇒ 線形重回帰へ入力)
from sklearn import linear_model as lm
models['LM'] = {"model": lm.LinearRegression(),
               "name": "Simple Polynomial Model " + str(deg) +"次",
              "feature": poly_feature, "target": target, "test_data": test_poly}

# SVR
from sklearn import svm
models["SVR"] = {"model": svm.SVR(kernel='rbf'),
               "name": "Support Vector Regression",
              "feature": single_feature, "target": target, "test_data": test_single}

# RVR (pipでインストールする必要あり)
from sklearn_rvm import EMRVR
models["RVR"] = {"model": EMRVR(kernel='rbf', gamma="scale"),
               "name": "Relevant Vector Regression",
              "feature": single_feature, "target": target, "test_data": test_single}

# Neural Network 
from sklearn.neural_network import MLPRegressor as MLPR
models["NN"] = {"model": MLPR((100,), activation="identity", solver="lbfgs",
                            max_iter=2000, tol=1e-8),
               "name": "Neural Network",
               "feature": scaled_poly_feature, "target": target, "test_data": scaled_test_poly}


# Random Forest
from sklearn.ensemble import RandomForestRegressor as RFR
models["RFR"] = {"model": RFR(max_depth=3, n_estimators=100), # 深さをいろいろ変えてみる
               "name": "Random Forest Regression",
               "feature": poly_feature, "target": target, "test_data": test_poly}

# Mixture model


# 各モデルの学習　⇒　推定　⇒　値をmodelsの1要素に格納
for k in models.keys():
    models[k]['model'].fit(models[k]['feature'], models[k]['target'])
    models[k]['predict'] = models[k]['model'].predict(models[k]['test_data'])


# 結果の描画
fig, ax = plt.subplots()

# 表示するものをインタラクティブに選択したかったのだが。。。
models2show = ["LM", "SVR", "RVR", "NN", "RFR"]
for m in models2show:
    ax.plot(test_single+origin_year, models[m]['predict'], label=models[m]['name'])
    
ax.legend()
df_annual.plot(kind='scatter',x="year", y="平均気温(℃)", ax=ax)

<AxesSubplot: xlabel='year', ylabel='平均気温(℃)'>


%%html
<link rel="stylesheet" type="text/css" href="custom.css">

Summary¶

機械学習によるデータ処理の手法¶

1. 最小２乗法と過学習の問題¶

2. 加重減衰(正則化項)による過学習の回避¶

3. 非線形関係を表す様々なフィッティング関数¶

4. ベイズ統計回帰モデル¶

カーネル法¶

5. サポートベクトル回帰¶

6. その他の機械学習手法による回帰問題へのアプローチ¶

7. より進んだ話題：ロジスティック回帰、ポアソン回帰、混合モデル¶

8. 回帰のパフォーマンス向上のための手法：skit-learnに含まれる機械学習法の共通事項¶

自然科学とデータサイエンス¶

【付録】各種方法の比較¶

データの準備¶