今回トライしようとしている問題はこちらです
Home Credit Default Risk
https://www.kaggle.com/c/home-credit-default-risk/
全て英語なのが辛いところですが、「Can you predict how capable each applicant is of repaying a loan?」と聞かれているので、きっと各個人の属性情報を元に、その人がローンを返せるかどうかを予測するのでしょう。
データは7種類くらいあって、それぞれが「SK_ID_CURR」とか「SK_ID_PREV」とかいうキー項目で結合できるようです。
まず思うのが、一つ一つのファイルがとにかくでかい!train.csvに至っては160MBくらいあるし・・・ダウンロードして各テーブルをくっつけていくのも一苦労な感じがします。
とりあえず粛々と進めます。
[st_af id="2474"]