続・Rも後一歩足りない
昨日は適当に書き過ぎたので,今日はもう少し丁寧に何が足りなかったのかを書こうと思う.
やりたいこと
決定木のCARTというアルゴリズムを使った分析.さらにCARTで作った木の枝刈り(pruning)や各変数の重要度(feature importance)算出もやりたい.
pythonのscikit-learnができること・できないこと
scikit-learnの中にあるDecisionTreeクラスは,各変数の重要度を算出することが出来るのだけど,枝刈りができない.
Rのrpart・mvpartができること・できないこと
rpart・mvpartは枝刈りは出来るのだけど,各変数の重要度を算出できない.ただ,このサイト(http://www.redbrick.dcu.ie/~noel/R_classification.html)に変数の重要度を算出するプログラム「importance.R」のソースが貼ってあり,もしかして出来るのか!?と試してみると,結果が全部0になって上手くいかない.
まとめ
まとめると,scikit-learnもRもやりたい事に後一歩足りないという感じ.昨日も書いたけど,結局自分で作るのが色んな意味で良さそうなのでpythonを使って自作しますー.ただ3日本気だして作れる気がしなかったら,また別の方法を考えようかな.
参考資料
scikit-learn_DecisionTree:
R_mvpart:
http://cran.r-project.org/web/packages/mvpart/mvpart.pdf