機械学習

kaggleコンペに挑戦!入門編:タイタニック生存者予測 ~続き~

2018年6月20日

上位7%(スコア0.80861)を達成しました!!昨日(今朝まで)粘った甲斐があった!

Titanic: Machine Learning from Disaster
https://www.kaggle.com/c/titanic

もう少しスコアを上げられないかな~って事で昨日の続き。飽きるまでやります。

【本日1回目】

日中色々あって昨日の最後を忘れてしまったので、復習の意味でまずはRandomForestでモデル作成。
survivalやpclass、sex、cabinやembarkedはデータタイプをカテゴリに変換します。

結果:スコア0.80861

次にまずはアルゴリズムを変えて試します

【2回目】Vowpal Wabbitの結果 スコア0.76555
【3回目】TensorFlowの結果 スコア 0.77033
【4回目】XGBoostの結果 スコア0.79904

・・・やっぱダメですね。。結局RandomForestがいいんでしょうね

【5回目】

survival=0.5前後のあやふやなデータは予測の邪魔なのではないかと考えました。
アルゴリズムをRandomForestに絞って教師データを間引きしていきます。

0.475以上0.525未満を間引いた結果:スコア0.80382!
ちょっと下がってしまいました。

【6回目】

ちょっと間引き範囲を拡げて、0.45以上0.55未満を間引いた結果:スコア0.80382
間引き数をちょっと変えた位では5回目と変わらないですね

【7回目】

更に間引き範囲を拡げて0.4以上0.6未満を間引いた結果:0.75598
どんどん悪くなっていきますね。。。

【8回目:今日はこれで最後】

0.485以上0.515未満を間引いて今日は終わりにします。
スコア:0.79904

・・・
結果、
0.485以上0.515未満を間引く:スコア0.79904
0.475以上0.525未満を間引く:スコア0.80382
0.45以上0.55未満を間引く :スコア0.80382
0.4以上0.6未満を間引く  :スコア0.75598

結局昨日(今朝)の記録は更新できず。
教師データを間引くのはあまり効果が無いってことなんですかね。。って中途半端な結果に終わってしまいました。

[st_af id="2474"]

-機械学習