SIGNATEコンペに挑戦!自動車の走行距離予測
[blogcard url="https://signate.jp/competitions/121/"]
【練習問題】自動車の評価 と同タイミングでリリースされた問題です。
参考:SIGNATEに挑戦!自動車の評価
[blogcard url="https://1blog.jp/car/"]
自動車の属性情報を元に、ガソリン1ガロンあたりの走行距離(燃費)を予測する回帰問題です。
元データはいつものここですね。
UCI Machine Learning Repository Auto MPG Data Set
[blogcard url="https://archive.ics.uci.edu/ml/datasets/Auto+MPG"]
記事投稿時点で投稿者は2名のみ。これからだとは思いますが、もうちょっと賑わうと嬉しいですね。
自動車の走行距離予測:データチェック
サンプル数は200件余り、説明変数8つ。欠損値アリですが数行なのでそれ程影響は無さそうです。
データ件数も10KB程度。恐らくこれはSIGNATE至上最軽量だと思います。
ちなみにtrainデータの上位を見ると、トヨタのカローラやスターレット、ホンダのシビックなどが名を連ねており、日本車が評価されている事は嬉しく思います。
また自動車メーカー「mazda」を「maxda」と誤記していたりと、かなりリアルなデータな感じがしますね。
自動車の走行距離予測:アルゴリズム
今回は時間も無かったのでアンサンブルはやめてSVMにしました。
また少しだけ工夫として、「car name」列の文字列を目検して、新たに「メーカー名」「国名」の特徴量だけは追加してみました。
自動車の走行距離予測:結果
できたモデルはMAPEで8.0180なのですが、これが良いのか悪いのか。。。
よく効く特徴量は以下です(効いている順)
・model year(起源 ??)
・horsepower(馬力)
・weight(重量)
・displacement(変位 ??)
・acceleration(加速度)
一回目、特徴量を追加しないで作ったモデルで予測した投稿結果は、暫定評価2.93464。
その後国名とメーカー名を追加して作ったモデルは、暫定評価2.87987と少し改善しました。
どうやらメーカー名が少し効いたようです。
投稿2回にしては良い結果だったのではないかと思います。
自動車の走行距離予測:考察
実データということで、車名からカタログスペックを検索して追加していけばかなり良い結果になるのではないかと考えますが、私はそこまでデータを愛すことはできませんでした。。。
また基本的に車は詳細スペックが構造化されたデータとして一般公開されているので、機械学習との相性は良いかもしれませんね。
どなたか試したら結果を教えて下さい。
[st_af id="2474"]