SIGNATEコンペに挑戦!自動車の評価
この問題をやっている時にやっと気づきました。
自分は元データが綺麗じゃない問題への意欲が薄い!(要は前処理が嫌い)
SIGNATEの練習問題ばっかやる気が出るのはそのせいだったのですね・・・。自分自身で謎が解けてよかったw
あと、こういう奴って現実世界の問題を機械学習使って解いていくのには不向きですよね。こんな私は機械学習は生業としてはやっていけない・あくまで遊びの範囲で。という事にも気づけたのでよかったw
最近SIGNATEは練習問題の追加が頻繁で嬉しいですね。
車の属性情報等を元に車の評価値を分類する問題になります。
ちなみに記事投稿時点で投稿者はゼロ(運営?のサンプル投稿1件)。ですのでモデル作成が間に合えば一番乗りです!
自動車の評価:データチェック
説明変数6、サンプル数900弱、データ容量も30KBと、かなりライトな内容です。
(恐らくSIGNATE至上最軽量なのではないでしょうか)
欠損値も無く綺麗なデータになります。
自動車の評価:アルゴリズム
SIGNATEに挑戦!国勢調査からの収入予測と同様にアンサンブルモデルです。
最近はこの手法にハマってます。異なる癖を持つモデルを混ぜ合わせるだけで精度が上がりやすい、但し非常にメンドクサイ、というやつです。
実際の業務だったらいちいちこんな事する時間は無いのですが(少なくとも我々がやらなければいけない問題はそこまで精度を求められないので)、これは遊びだから情熱を持って取り組めるw
自動車の評価:結果
作ったアンサンブルモデルはAUC=0.9960という、現実世界では有り得ないくらいの高精度でした。
きっと中の人が勉強用に色々データを調整してくれているのでしょう。
なお特徴量の中では
・safety(安全性:低~高)
・persons(乗車定員)
・buying(車の売値)
・maint(整備代:低い~とても高い)
等の順で効いているようです。
最終的に作ったモデルで予測した結果を投稿したところ、暫定評価0.97569 でした。
一人しか投稿していないので当然1位です。
ただ、精度的には結構良い結果だったのではないかと。
自動車の評価:考察
testデータ全864件のうち、判断に迷うものがものが25件ほどありました。
「国勢調査からの収入予測」同様に、trainデータのうち判断に迷う、際どい結果のものを除いてモデルを作成すれば更に良い結果が出るのではないかと推察します。が・・・(以下略)。
・・・私はまずこの面倒くさがりの性格から直したほうが良さそうです
なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。
とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。
更にランクを上げていくには修行が必要ですが、入門編としておすすめ。
書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。
kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。
-
機械学習関連の記事まとめ
続きを見る