New York City Taxi Trip Duration
https://www.kaggle.com/c/nyc-taxi-trip-duration
ニューヨークのタクシーの総走行時間を予測する問題
データの説明
id - 走行ID
vendor_id - データセットを提供してくれたベンダのID
pickup_datetime - メーター開始日時(乗車日時)
dropoff_datetime - メーター終了日時(降車日時)
passenger_count - 乗車人数(ドライバーを含める)
pickup_longitude - ピックアップ時の場所(経度)
pickup_latitude - ピックアップ時の場所(緯度)
dropoff_longitude - 降車時の場所(経度)
dropoff_latitude - 降車時の場所(緯度)
store_and_fwd_flag - ネット接続されていない車両とのデータ転送方法ですかね・・・ Yは後からバッチ転送、Nは・・?
trip_duration - 総走行時間
1回目:
RandomForestでスコア0.55557、870/1257位でした
やっぱ特徴量を追加しないとダメですね
なお、私が参考にしているのは以下の本「機械学習のための前処理入門」です。
とりあえずこの一冊があれば、私のようなpythonド素人であってもとコンペで戦うことだけはできます。
更にランクを上げていくには修行が必要ですが、入門編としておすすめ。
書籍での独学が苦手という方は、千円ちょっとで学習できるUdemyのオンライン講座が安くて高品質です。
kaggleやSIGNATE挑戦記など、その他AI・機械学習関連の記事をまとめたものはこちら。
-
機械学習関連の記事まとめ
続きを見る