上位7%(スコア0.80861)を達成しました!!昨日(今朝まで)粘った甲斐があった!
Titanic: Machine Learning from Disaster
https://www.kaggle.com/c/titanic
もう少しスコアを上げられないかな~って事で昨日の続き。飽きるまでやります。
【本日1回目】
日中色々あって昨日の最後を忘れてしまったので、復習の意味でまずはRandomForestでモデル作成。
survivalやpclass、sex、cabinやembarkedはデータタイプをカテゴリに変換します。
結果:スコア0.80861
次にまずはアルゴリズムを変えて試します
【2回目】Vowpal Wabbitの結果 スコア0.76555
【3回目】TensorFlowの結果 スコア 0.77033
【4回目】XGBoostの結果 スコア0.79904
・・・やっぱダメですね。。結局RandomForestがいいんでしょうね
【5回目】
survival=0.5前後のあやふやなデータは予測の邪魔なのではないかと考えました。
アルゴリズムをRandomForestに絞って教師データを間引きしていきます。
0.475以上0.525未満を間引いた結果:スコア0.80382!
ちょっと下がってしまいました。
【6回目】
ちょっと間引き範囲を拡げて、0.45以上0.55未満を間引いた結果:スコア0.80382
間引き数をちょっと変えた位では5回目と変わらないですね
【7回目】
更に間引き範囲を拡げて0.4以上0.6未満を間引いた結果:0.75598
どんどん悪くなっていきますね。。。
【8回目:今日はこれで最後】
0.485以上0.515未満を間引いて今日は終わりにします。
スコア:0.79904
・・・
結果、
0.485以上0.515未満を間引く:スコア0.79904
0.475以上0.525未満を間引く:スコア0.80382
0.45以上0.55未満を間引く :スコア0.80382
0.4以上0.6未満を間引く :スコア0.75598
結局昨日(今朝)の記録は更新できず。
教師データを間引くのはあまり効果が無いってことなんですかね。。って中途半端な結果に終わってしまいました。
なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。
とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。
更にランクを上げていくには修行が必要ですが、入門編としておすすめ。
書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。
kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。
-
機械学習関連の記事まとめ
続きを見る