目次
SIGNATEコンペに挑戦!国勢調査からの収入予測
恐らく多くの人がkaggleのHome Credit Default Riskに夢中になっている時間帯かと思いますが、私はsantander同様に早々と諦めてしまいました。
次に新しいコンペが出たら本気出す!ってことで新しくリリースされたSIGNATEの問題に取り組みたいと思います。
※カレーちゃんさん、santanderでGOLD獲得おめでとうございます!
会社辞めて専業になったその根性と、GOLD獲っても謙虚な人柄を見習いたい。
国勢調査からの収入予測:データチェック
train,test共に1.8MB程度。貧弱環境の私には助かります。
説明変数は14個。欠損値アリとの事ですが、ざっと見る限り大体埋まっていそう。なのでそのまま使っちゃいます。
年齢や職業、教育年数や職業、配偶者有無など、いわゆる普通の個人情報です。
国勢調査からの収入予測:アルゴリズム
最近自分の中で流行っている
・XGBoost
・RandomForest
・SVM
等のblenderとしました。
アンサンブルは超面倒なので遊びコンペでしか使わないので、練習になります。
普通、実務でこんな遊びしてたら怒られますからねぇ。。。
国勢調査からの収入予測:結果
AUCで0.9288という現実世界では有り得ない高精度。。leakしてるんじゃないの?って位ですが、恐らくSIGNATEの中の人が色々データをいじって調整してるのでしょうね。というわけでこのまま続けていきます。
この記事を書いている現在は3人しか投稿していないので、1位を取れるチャンスなんじゃないかとワクワク!
ちなみに特徴量の中では、
・capital_gain
・age
・material_status
・capital_loss
等が良く効いているようです。
そんな結果できたモデルで算出した結果を投稿したところ、暫定評価0.87544で、まずは1位でした!
ただ2位の人と精度0.01しか変わらないので、たぶんそのうち抜かれるでしょう。
とりあえず証拠写真だけはパシャリ。
国勢調査からの収入予測:考察
1.6万件のtrain dataのうち、「>50K」「<=50K」の確率が半々くらいのデータが約2千件程ありましたので、これらを除けばもっと精度は上がるのではないかと思いましたが、そこまでの情熱は維持できずここで断念です。
誰かがtwitterで「精度向上=いかにそのデータを愛せるか」みたいな事を言っていましたが、ここからの精度向上には愛と気合いが必要なんでしょうね。
なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。
とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。
更にランクを上げていくには修行が必要ですが、入門編としておすすめ。
書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。
kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。
-
機械学習関連の記事まとめ
続きを見る