今回トライしようとしている問題はこちらです
Home Credit Default Risk
https://www.kaggle.com/c/home-credit-default-risk/
全て英語なのが辛いところですが、「Can you predict how capable each applicant is of repaying a loan?」と聞かれているので、きっと各個人の属性情報を元に、その人がローンを返せるかどうかを予測するのでしょう。
データは7種類くらいあって、それぞれが「SK_ID_CURR」とか「SK_ID_PREV」とかいうキー項目で結合できるようです。
まず思うのが、一つ一つのファイルがとにかくでかい!train.csvに至っては160MBくらいあるし・・・ダウンロードして各テーブルをくっつけていくのも一苦労な感じがします。
とりあえず粛々と進めます。
なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。
とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。
更にランクを上げていくには修行が必要ですが、入門編としておすすめ。
書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。
kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。
-
機械学習関連の記事まとめ
続きを見る