データサイエンス,と俺

とある大学院生がデータサイエンティストに成るまでのお話.しかし成れるかどうかは別のお話.

続・Rも後一歩足りない

 昨日は適当に書き過ぎたので,今日はもう少し丁寧に何が足りなかったのかを書こうと思う.

やりたいこと

 決定木のCARTというアルゴリズムを使った分析.さらにCARTで作った木の枝刈り(pruning)や各変数の重要度(feature importance)算出もやりたい.

pythonのscikit-learnができること・できないこと

 scikit-learnの中にあるDecisionTreeクラスは,各変数の重要度を算出することが出来るのだけど,枝刈りができない.

Rのrpart・mvpartができること・できないこと

 rpart・mvpartは枝刈りは出来るのだけど,各変数の重要度を算出できない.ただ,このサイト(http://www.redbrick.dcu.ie/~noel/R_classification.html)に変数の重要度を算出するプログラム「importance.R」のソースが貼ってあり,もしかして出来るのか!?と試してみると,結果が全部0になって上手くいかない.

まとめ

 まとめると,scikit-learnもRもやりたい事に後一歩足りないという感じ.昨日も書いたけど,結局自分で作るのが色んな意味で良さそうなのでpythonを使って自作しますー.ただ3日本気だして作れる気がしなかったら,また別の方法を考えようかな.

参考資料

scikit-learn_DecisionTree:

http://scikitlearn.org/0.13/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier

R_mvpart:

http://cran.r-project.org/web/packages/mvpart/mvpart.pdf