機械学習

【1位】SIGNATEコンペに挑戦!練習問題:国勢調査からの収入予測

2018年8月22日

SIGNATEコンペに挑戦!国勢調査からの収入予測

[blogcard url="https://signate.jp/competitions/107"]
恐らく多くの人がkaggleのHome Credit Default Riskに夢中になっている時間帯かと思いますが、私はsantander同様に早々と諦めてしまいました。
[blogcard url="https://www.kaggle.com/c/home-credit-default-risk"]

次に新しいコンペが出たら本気出す!ってことで新しくリリースされたSIGNATEの問題に取り組みたいと思います。

カレーちゃんさん、santanderでGOLD獲得おめでとうございます!
[blogcard url="https://www.currypurin.com/archive/category/Kaggle"]

会社辞めて専業になったその根性と、GOLD獲っても謙虚な人柄を見習いたい。

国勢調査からの収入予測:データチェック

train,test共に1.8MB程度。貧弱環境の私には助かります。

説明変数は14個。欠損値アリとの事ですが、ざっと見る限り大体埋まっていそう。なのでそのまま使っちゃいます。

データの置き場所と説明はココ!

年齢や職業、教育年数や職業、配偶者有無など、いわゆる普通の個人情報です。

国勢調査からの収入予測:アルゴリズム

最近自分の中で流行っている
・XGBoost
・RandomForest
・SVM
等のblenderとしました。

アンサンブルは超面倒なので遊びコンペでしか使わないので、練習になります。

普通、実務でこんな遊びしてたら怒られますからねぇ。。。

国勢調査からの収入予測:結果

AUCで0.9288という現実世界では有り得ない高精度。。leakしてるんじゃないの?って位ですが、恐らくSIGNATEの中の人が色々データをいじって調整してるのでしょうね。というわけでこのまま続けていきます。

この記事を書いている現在は3人しか投稿していないので、1位を取れるチャンスなんじゃないかとワクワク!

ちなみに特徴量の中では、

・capital_gain
・age
・material_status
・capital_loss

等が良く効いているようです。

 

そんな結果できたモデルで算出した結果を投稿したところ、暫定評価0.87544で、まずは1位でした!

ただ2位の人と精度0.01しか変わらないので、たぶんそのうち抜かれるでしょう。

とりあえず証拠写真だけはパシャリ。

 

 

国勢調査からの収入予測:考察

1.6万件のtrain dataのうち、「>50K」「<=50K」の確率が半々くらいのデータが約2千件程ありましたので、これらを除けばもっと精度は上がるのではないかと思いましたが、そこまでの情熱は維持できずここで断念です。

誰かがtwitterで「精度向上=いかにそのデータを愛せるか」みたいな事を言っていましたが、ここからの精度向上には愛と気合いが必要なんでしょうね。

[st_af id="2474"]

-機械学習