Jupyter Notebook 自習

プログラミング

Anacondaを起動。

New>Folderを作成

フォルダを選択して、リネームで名前を変える

New>Python3をクリックしてノートブックを開く


データサイエンス入門

重要なのは、膨大なデータから何を読み解くか?

記述統計 データ全体からデータの特徴を読み解く手法

推測統計 一部のデータからデータ全体の性質を推測する手法


平均

import numpy as np
data = np.array([154, 177, 162, 180, 175, 155, 164, 168])
print(np.mean(data))

中央値

import numpy as np
data = np.array([154, 177, 162, 180, 175, 155, 164, 168])
print(np.median(data))

最頻値 度数の一番多い階級値

import numpy as np
data = np.array([5, 8, 1, 3, 8, 9, 2, 3, 8, 5])

unique, freq = np.unique(data, return_counts=True)

print(unique)
print(freq)

mode = unique[np.argmax(freq)]
print(mode)

分散 データのばらつきを表す値

import numpy as np

data1 = np.array([170, 170, 170, 170])
data2 = np.array([182, 155, 166, 177])

print('表1の分散:' + str(np.var(data1)))
print('表2の分散:' + str(np.var(data2)))

標準偏差 データのばらつきを表す値 分散の正の平方根

import numpy as np

data = np.array([182, 155, 166, 177])

sd = np.std(data)

print('表2の標準偏差:' + str(sd))

共分散 2組のデータの関係

import numpy as np

data = np.array([[154.0, 177.0, 162.0, 180.0, 175.0, 155.0, 164.0, 168.0], [23.0, 27.0, 24.5, 28.5, 26.5, 24.0, 24.5, 25.5]])

c = np.cov(data, ddof=0)

print('共分散:' + str(c[0][1]))

相関係数(r)と相関関係の目安

相関係数(r)相関関係(目安)
-1 <= r <= -0.7強い負の相関
-0.7 <= r <= -0.4負の相関
-0.4 <= r <= -0.2弱い負の相関
-0.2 <= r<= 0.2相関がほぼない
0.2 <= r <= 0.4弱い正の相関
0.4 <= r <= 0.7正の相関
0.7 <= r <= 1強い正の相関

相関係数を求める Numpy corrcoef関数

import numpy as np

# 各月の平均気温とレタスの売上
data = [[5.4, 8.5, 12.8, 15.1, 19.6, 22.7, 25.9, 27.4, 22.3, 18.2, 13.7, 7.9],[28, 29, 18, 53, 100, 88, 63, 85, 42, 31, 28, 13]]

# 相関係数を求める
r = np.corrcoef(data)

print(str(r))

機械学習

「教師あり学習」は、「正解ラベルが付いた学習モデル」を使う点が特徴。

ラベルのないデータを渡し、正解ラベルと一致するか予測させ、正解か不正解でモデルの「精度」がわかる。

「教師なし学習」は、「正解ラベルのない大量のデータを学習」して、「データ同士に共通する特徴やパターンを調べる」方法

scikit-learn

回帰 regression実数値をデータで学習し、実数値を予測する。SGD回帰、LASSO回帰
分類
classification
正解ラベルとそのデータを学習し、データに対してのラベルを予測する。カーネル近似、k近傍法
クラスタリング
clustering
データの似ている部分をグループにして、データの特徴やパターンを発見する。k平均法、スペクトラルクラスタリング
次元圧縮
dimensionality reduction
データの次元を削減して、固有の構造を見つけ出す手法。主成分分析(PCA)、カーネルPCA
Choosing the right estimator
Often the hardest part of solving a machine learning problem can be finding the right estimator for the job. Different e...

アルゴリズムチートシート

回帰分析は、結果のデータと結果に影響を与えるデータの関係性を統計的に求める手法です。

関係性を式で表すことができれば、その式を使って推測できるわけです。

タイトルとURLをコピーしました