Rossmann Store Sales
https://www.kaggle.com/c/rossmann-store-sales
ヨーロッパのドラッグストア「Rossmann」の、ドイツ国内1,115店舗の6週間の売上を当てる問題です。
【事前準備】
trainデータのうち「customer」(来店客数)についてはtestデータに無かったので、モデル作成時には省いてしまいました。
またstoreデータがあるので、IDをキーにtrainとtestと結合しておきます。
※こういった、ちょっとしたテーブルの結合はexcelのvlookup関数を使っています。
(単純にAccessとかを持っていないだけなのですが。)
なのですがさすがexcel。大量データの編集はすぐに固まりますね。。
【試したアルゴリズムと結果】
既に2015年にコンペは終了してしまっているため、自己満足の世界になります。
VowpalWabbit:0.40724
TensorFlow:0.39693
RandomForest:0.18977
DecisionTree:0.15434
XGBoost:0.14479
同じ教師データを使っているのに結構バラつきありますね。。
なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。
とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。
更にランクを上げていくには修行が必要ですが、入門編としておすすめ。
書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。
kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。
-
機械学習関連の記事まとめ
続きを見る