機械学習

【1位タイ】SIGNATEコンペに挑戦!練習問題:毒キノコの分類

2018年7月12日

SIGNATEコンペに挑戦!毒キノコの分類

https://signate.jp/competitions/105/

キノコの特性から、毒キノコかどうかを当てる問題です。

この問題、本日日中はトップ画面→Conpetitionの「プラクティス」から辿れたのですが、今見るとなぜか辿れなくなっています。
(URL直打ちや、Googleで「SINGNATE 毒きのこ」と検索すると出てくる)

毒キノコの分類:前処理

データセットの説明は以下にあるので割愛します。

https://signate.jp/competitions/105/data

"Y"列の値が"p"=毒キノコ、"e"=食用キノコで、4062行のうち毒キノコが約48%、食用キノコが52%。全特徴量共に欠損値は無いので楽です。
"stalk-root"(根っこの形態?)の中に、"?"の値が結構入っていてなんか気持ち悪かったので、ここだけ"zzz"に置換しました。
前処理が楽な問題はいいですね。

毒キノコの分類:モデル作成

シンプルにロジスティック回帰でチャレンジです。
なのですが、一発目の投稿からいきなりスコア1.00000が出ました。。。
ちなみにこのブログを投稿している7/12現在、自分を含めて3名の人が投稿しているのですが、みんな1.00000です。
もしかしたらリークしているのかもしれません。

SIGNATE、もう少し問題の出題頻度が多くなると良いですね。また過去に終了したコンペティションも、データダウンロード&投稿ができるといいのに。もちろん、期限内に投稿した方々とは別枠のランキングでいいので表示されると嬉しいんだけどな。

毒キノコの分類:2018/0713追記

SIGNATEのトップ画面からちゃんと辿れるようになってました。

[st_af id="2474"]

-機械学習