SIGNATEコンペに挑戦!国勢調査からの収入予測
[blogcard url="https://signate.jp/competitions/107"]
恐らく多くの人がkaggleのHome Credit Default Riskに夢中になっている時間帯かと思いますが、私はsantander同様に早々と諦めてしまいました。
[blogcard url="https://www.kaggle.com/c/home-credit-default-risk"]
次に新しいコンペが出たら本気出す!ってことで新しくリリースされたSIGNATEの問題に取り組みたいと思います。
※カレーちゃんさん、santanderでGOLD獲得おめでとうございます!
[blogcard url="https://www.currypurin.com/archive/category/Kaggle"]
会社辞めて専業になったその根性と、GOLD獲っても謙虚な人柄を見習いたい。
国勢調査からの収入予測:データチェック
train,test共に1.8MB程度。貧弱環境の私には助かります。
説明変数は14個。欠損値アリとの事ですが、ざっと見る限り大体埋まっていそう。なのでそのまま使っちゃいます。
年齢や職業、教育年数や職業、配偶者有無など、いわゆる普通の個人情報です。
国勢調査からの収入予測:アルゴリズム
最近自分の中で流行っている
・XGBoost
・RandomForest
・SVM
等のblenderとしました。
アンサンブルは超面倒なので遊びコンペでしか使わないので、練習になります。
普通、実務でこんな遊びしてたら怒られますからねぇ。。。
国勢調査からの収入予測:結果
AUCで0.9288という現実世界では有り得ない高精度。。leakしてるんじゃないの?って位ですが、恐らくSIGNATEの中の人が色々データをいじって調整してるのでしょうね。というわけでこのまま続けていきます。
この記事を書いている現在は3人しか投稿していないので、1位を取れるチャンスなんじゃないかとワクワク!
ちなみに特徴量の中では、
・capital_gain
・age
・material_status
・capital_loss
等が良く効いているようです。
そんな結果できたモデルで算出した結果を投稿したところ、暫定評価0.87544で、まずは1位でした!
ただ2位の人と精度0.01しか変わらないので、たぶんそのうち抜かれるでしょう。
とりあえず証拠写真だけはパシャリ。
国勢調査からの収入予測:考察
1.6万件のtrain dataのうち、「>50K」「<=50K」の確率が半々くらいのデータが約2千件程ありましたので、これらを除けばもっと精度は上がるのではないかと思いましたが、そこまでの情熱は維持できずここで断念です。
誰かがtwitterで「精度向上=いかにそのデータを愛せるか」みたいな事を言っていましたが、ここからの精度向上には愛と気合いが必要なんでしょうね。
[st_af id="2474"]