【1位】SIGNATEコンペに挑戦！練習問題：国勢調査からの収入予測

1 SIGNATEコンペに挑戦！国勢調査からの収入予測
2 国勢調査からの収入予測：データチェック
3 国勢調査からの収入予測：アルゴリズム
4 国勢調査からの収入予測：結果
5 国勢調査からの収入予測：考察

SIGNATEコンペに挑戦！国勢調査からの収入予測

SIGNATE

【練習問題】国勢調査からの収入予測 | SIGNATE - Data Science Competition

https://signate.jp/competitions/107

恐らく多くの人がkaggleのHome Credit Default Riskに夢中になっている時間帯かと思いますが、私はsantander同様に早々と諦めてしまいました。

www.kaggle.com

Home Credit Default Risk

https://www.kaggle.com/c/home-credit-default-risk

Can you predict how capable each applicant is of repaying a loan?

次に新しいコンペが出たら本気出す！ってことで新しくリリースされたSIGNATEの問題に取り組みたいと思います。

※カレーちゃんさん、santanderでGOLD獲得おめでとうございます！

カレーちゃんブログ

Kaggle カテゴリーの記事一覧 - カレーちゃんブログ

https://www.currypurin.com/archive/category/Kaggle

Kaggleや競技プログラミングなどのこと

会社辞めて専業になったその根性と、GOLD獲っても謙虚な人柄を見習いたい。

国勢調査からの収入予測：データチェック

train,test共に1.8MB程度。貧弱環境の私には助かります。

説明変数は14個。欠損値アリとの事ですが、ざっと見る限り大体埋まっていそう。なのでそのまま使っちゃいます。

データの置き場所と説明はココ！

年齢や職業、教育年数や職業、配偶者有無など、いわゆる普通の個人情報です。

国勢調査からの収入予測：アルゴリズム

最近自分の中で流行っている
・XGBoost
・RandomForest
・SVM
等のblenderとしました。

アンサンブルは超面倒なので遊びコンペでしか使わないので、練習になります。

普通、実務でこんな遊びしてたら怒られますからねぇ。。。

国勢調査からの収入予測：結果

AUCで0.9288という現実世界では有り得ない高精度。。leakしてるんじゃないの？って位ですが、恐らくSIGNATEの中の人が色々データをいじって調整してるのでしょうね。というわけでこのまま続けていきます。

この記事を書いている現在は3人しか投稿していないので、1位を取れるチャンスなんじゃないかとワクワク！

ちなみに特徴量の中では、

・capital_gain
・age
・material_status
・capital_loss

等が良く効いているようです。

そんな結果できたモデルで算出した結果を投稿したところ、暫定評価0.87544で、まずは1位でした！

ただ2位の人と精度0.01しか変わらないので、たぶんそのうち抜かれるでしょう。

とりあえず証拠写真だけはパシャリ。

国勢調査からの収入予測：考察

1.6万件のtrain dataのうち、「>50K」「<=50K」の確率が半々くらいのデータが約2千件程ありましたので、これらを除けばもっと精度は上がるのではないかと思いましたが、そこまでの情熱は維持できずここで断念です。

誰かがtwitterで「精度向上＝いかにそのデータを愛せるか」みたいな事を言っていましたが、ここからの精度向上には愛と気合いが必要なんでしょうね。

なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。

機械学習のための「前処理」入門

＞Amazonの商品レビュー・口コミを見る

とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。

更にランクを上げていくには修行が必要ですが、入門編としておすすめ。

書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。

Udemy │ みんなのAI講座ゼロからPythonで学ぶ人工知能と機械学習

公式サイトでチェック

kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。

: 機械学習関連の記事まとめ

続きを見る