機械学習

kaggleとは?入門編に挑戦!Rossmann Store Sales

2018年7月12日

Rossmann Store Sales
https://www.kaggle.com/c/rossmann-store-sales

ヨーロッパのドラッグストア「Rossmann」の、ドイツ国内1,115店舗の6週間の売上を当てる問題です。

【事前準備】

trainデータのうち「customer」(来店客数)についてはtestデータに無かったので、モデル作成時には省いてしまいました。
またstoreデータがあるので、IDをキーにtrainとtestと結合しておきます。

※こういった、ちょっとしたテーブルの結合はexcelのvlookup関数を使っています。
(単純にAccessとかを持っていないだけなのですが。)
なのですがさすがexcel。大量データの編集はすぐに固まりますね。。

【試したアルゴリズムと結果】

既に2015年にコンペは終了してしまっているため、自己満足の世界になります。

VowpalWabbit:0.40724
TensorFlow:0.39693
RandomForest:0.18977
DecisionTree:0.15434
XGBoost:0.14479

同じ教師データを使っているのに結構バラつきありますね。。

なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。

とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。

更にランクを上げていくには修行が必要ですが、入門編としておすすめ。

書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。

kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。

機械学習関連の記事まとめ

続きを見る

-機械学習