こんにちは、たっくです。
この記事では機械学習初心者の方にもわかりやすくPythonでの機械学習モデルの実装方法を”scikit-learn”を用いて行っていこうと思います。
scikit-learnとは
scikit-learn(サイキット・ラーン)はPython用の機械学習ライブラリです。
scikit-learnはオープンソースで公開されており、個人・商用問わず、誰でも無料で利用することが出来ます。
また、教師あり学習、教師なし学習に関するアルゴリズム(サポートベクターマシン、ランダムフォレスト、回帰、クラスタリングなど)が一通り利用出来る上、サンプルのデータセット(トイデータセットと呼びます)が豊富に揃っています。
実際に実装してみよう!
まずは今回の実装で使用するデータを取得します。
今回はscikit-learnの’load_breast_cancer”を使用します。
from sklearn.datasets import load_breast_cancer
cancer = load_breast_cancer()
次に機械学習に必要なライブラリをインストールします。
今回は”K-nearest neighbors“というアルゴリズムを使用します。
from sklearn.neighbors import KNeighborsClassifier # アルゴリズムクラス
from sklearn.model_selection import train_test_split #練習・テストデータを分けるためのもの
それではまずはサンプルを機械学習の練習用とテスト用に分けます。
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=0)
“random_state=0″とはサンプルの分け方を固定するためのものです。
次に実際に機械学習アルゴリズムを練習用データにフィットしていきます。
knn = KNeighborsClassifier().fit(X_train, y_train)
これで機械学習は終了です。
最後にこのモデルを評価していきます。
print("model accuracy for train: {:.2f}".format(knn.score(X_train, y_train)))
# model accuracy for train: 0.94
print("model accuracy for test: {:.2f}".format(knn.score(X_test, y_test)))
# model accuracy for test: 0.94
最終的にどちらとも正確性が0.94と出たためモデルとしては上出来です。
まとめ
ご覧の通りPythonではscikit-learnを使用するととても簡単に機械学習の実装を行うことができます。
皆さんもぜひ試してみてください!
それではまた明日!
コメント