Page 28 -
P. 28

3.8      머신 러닝 모델링                                           KAGGLE






               여기서는 캐글 경진대회에서 자주 사용하는 LightGBM 머신 러닝 기법을 사용하겠습니다.
               LightGBM은 결정 트리(decision tree)계의 대표적인 알고리즘입니다. 우선은 결정 트리 알고리즘

               의 발전과 LightGBM을 간단히 설명하겠습니다.



               결정 트리
               결정 트리란 역치 조건에 따라 데이터 분기를 반복하는 것으로, 회귀 및 분류에 사용하는 방법입

               니다. 그림 3-26은 ‘연령이 30세 이상인가’, ‘남성인가’ 등 조건을 반복하여 최종적으로 각 조건의
               조합에 따른 생존 및 사망 수를 나타내는 예입니다.

               역치 조건은 ‘원래 데이터가 어떤 조건에 따라 다른 성질을 가지는 두 데이터로 잘 나뉘었는가’로
               자동으로 결정됩니다. 데이터 분석자는 어느 정도까지 분기를 나눌지(최대 깊이를 얼마로 할지),
               데이터를 나누었을 때 각 그룹의 최저 데이터 수는 얼마로 할지 등을 조정하면서 분류나 예측의
               정확도를 향상시킵니다.


                  그림 3-26 결정 트리의 개요와 출력 예(수치나 조건은 가상으로 지정)
                               연령이 30세 이상인가?

                            Yes             No

                          연령이 60세 이상인가?             남성인가?
                  Yes       No              Yes       No


               생존 = 60      생존 = 12      생존 = 15     생존 = 39
               사망 = 5       사망 = 35      사망 = 8      사망 = 11



               랜덤 포레스트

               결정 트리는 출력될 때까지 과정을 비교적 파악하기 쉽고, 얻은 모델을 수월하게 응용할 수 있어
               유용하지만, 이상치(극단적인 값)에 약하고 처음 분기가 한쪽으로 잘못 치우쳐 버리면 이후 분기
               들 모두 정확도가 나빠진다는 단점이 있습니다. 따라서 결정 트리를 여러 개 만들어 합하는(이를

               앙상블 기법이라고 함) 랜덤 포레스트 방법이 제안되었습니다(그림 3-27).



         130
   23   24   25   26   27   28   29   30   31   32   33