データサイエンス,と俺

とある大学院生がデータサイエンティストに成るまでのお話.しかし成れるかどうかは別のお話.

正則化って何ぞや?

 今日から2日間くらいで,「正則化」について勉強したまとめを載せようと思います.方針としては,まず簡単に正則化について説明し,その後,正則化回帰分析について簡単な説明と検証を行う形でいこうと思います. 

*注*

 今回の記事の中には間違った記述が含まれている可能性があります.気づいた時点で訂正しますが,正しく理解したい方は最下部にある参考資料などをお読みください.

正則化とは

 英語ではRegularizationといいます.正則化について非常にざっくり説明すると,「モデルの過適合を防ぐ」ために必要なものです.「過適合って何?」という人はwikiで「過剰適合」と検索しよう!

 過適合の問題は,予測・分類系の手法を用いる際には常に付き纏う問題で,分析においては必ず考慮しなくてはならない問題なのです.

 前述したように正則化は「過適合」を防ぐためのものですが,最近はそれだけでなく変数選択(モデル選択)を同時に行ってくれる正則化もあるようなのです.

L1,L2正則化

 英語ではL1正則化をLasso,L2正則化をRidgeといい,これらを取り入れた回帰分析をそれぞれ,LassoRegression, RidgeRegressionといいます.詳しい話はググろう!

 ちなみに,今回は特にLassoに注目して勉強しました.何故かというと,Lasso正則化を取り入れた分析を行うと,データの持つ多数の変数から特に重要なものだけシステマティックに選択したモデル構築ができるからです!

Lassoの利点

 上でも述べましたが,Lassoの利点は多数の変数から特に重要なものをシステマティックに選んでモデル構築をしてくれるところです.

 この利点を例えて言うと,リサイクルとゴミの分別に例えられます.Lassoを用いない回帰分析においては,結果を出す(リサイクル品を作る)ためには,ゴミと資源の分別(変数の選択)を,人間が行わなければなりませんでした.しかしLassoを用いると,分別はLassoが自動で行い,有用と判断されたもの(資源)で結果を出してくれます.

 これは,ゴミか有用か判断が難しい変数でも,とりあえず入れておけばLassoが判断して分別してくれることを意味しており,これまで厳選された少しの変数でしか出来なかった分析が,不純物混じりの多くの変数でも可能となることを意味しています.

Lassoこそデータマイニングに不可欠なものなのでは!?

 というのも,これまでの厳選された少数の変数による分析というのは,分析する前に人間が結果をある程度予測できてしまうことが多かったのです.これでは,データからの意外な発見というのはあまり期待できません.

 しかしLassoがあれば,人間では結果を予測し得ない程の多数の変数を用いて分析ができるわけですから,当然意外な発見というのも増えるのではないかと予想できます.これは,データからの知識発見を目指すデータマイニングにおいて,Lassoが非常に重要な役割を果たすことを意味するものだと思います.

 

 これらが今回私がLassoに注目した理由となります.明日の記事では,実際にデータを用いて普通の回帰分析とLasso回帰分析との違いを比較・検証していきたいと思います.

 

参考資料

回帰モデリングと L1 型正則化法の最近の展開

http://www.terrapub.co.jp/journals/jjssj/pdf/3902/39020211.pdf