SIGNATEコンペ:ボットの判別
アワビの年齢予測と同タイミングで追加されたのが、このボットの判別 問題です。
ボットの判別:trainデータ
いわゆるtwitter?のアカウントに対して、ツイート数やフォロワー数などの属性情報を元に、発信元が人間かボットかを当てる問題です。
フィーチャーエンジニアリングの介入余地は少ない気がします。
また、trainにあってtestに無い列(account_age_hours)は削除してしまいました。
一旦は特徴量追加などはなしでそのままトライ。
ボットの判別:アルゴリズム
色々試した中で、XGBoostが最も精度が良さそうだったのでこれにしました。
最近アンサンブルモデルにハマっているのですが今回は面倒なのでこのまま。
ボットの判別:結果
スコア0.70870、10人中3位の結果でした。これが良いのか悪いのか・・・
ちなみに記事更新時点(8/25)、ユーザ数37名、順位は10位に落ちてしまっていました・・・むぅ。
しかしtwitterを見てもSIGNATEは全く盛り上がってなくて悲しいですね。。
なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。
とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。
更にランクを上げていくには修行が必要ですが、入門編としておすすめ。
書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。
kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。
-
機械学習関連の記事まとめ
続きを見る