機械学習

kaggleコンペに挑戦!ニューヨークのタクシー走行時間を予測

2018年6月30日

New York City Taxi Trip Duration
https://www.kaggle.com/c/nyc-taxi-trip-duration

ニューヨークのタクシーの総走行時間を予測する問題

データの説明

id - 走行ID
vendor_id - データセットを提供してくれたベンダのID
pickup_datetime - メーター開始日時(乗車日時)
dropoff_datetime - メーター終了日時(降車日時)
passenger_count - 乗車人数(ドライバーを含める)
pickup_longitude - ピックアップ時の場所(経度)
pickup_latitude - ピックアップ時の場所(緯度)
dropoff_longitude - 降車時の場所(経度)
dropoff_latitude - 降車時の場所(緯度)
store_and_fwd_flag - ネット接続されていない車両とのデータ転送方法ですかね・・・ Yは後からバッチ転送、Nは・・?
trip_duration - 総走行時間

1回目:

RandomForestでスコア0.55557、870/1257位でした
やっぱ特徴量を追加しないとダメですね

なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。

とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。

更にランクを上げていくには修行が必要ですが、入門編としておすすめ。

書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。

kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。

機械学習関連の記事まとめ

続きを見る

-機械学習

© 2024 あざらし情報局