Page 28 -
P. 28
3.8 머신 러닝 모델링 KAGGLE
여기서는 캐글 경진대회에서 자주 사용하는 LightGBM 머신 러닝 기법을 사용하겠습니다.
LightGBM은 결정 트리(decision tree)계의 대표적인 알고리즘입니다. 우선은 결정 트리 알고리즘
의 발전과 LightGBM을 간단히 설명하겠습니다.
결정 트리
결정 트리란 역치 조건에 따라 데이터 분기를 반복하는 것으로, 회귀 및 분류에 사용하는 방법입
니다. 그림 3-26은 ‘연령이 30세 이상인가’, ‘남성인가’ 등 조건을 반복하여 최종적으로 각 조건의
조합에 따른 생존 및 사망 수를 나타내는 예입니다.
역치 조건은 ‘원래 데이터가 어떤 조건에 따라 다른 성질을 가지는 두 데이터로 잘 나뉘었는가’로
자동으로 결정됩니다. 데이터 분석자는 어느 정도까지 분기를 나눌지(최대 깊이를 얼마로 할지),
데이터를 나누었을 때 각 그룹의 최저 데이터 수는 얼마로 할지 등을 조정하면서 분류나 예측의
정확도를 향상시킵니다.
그림 3-26 결정 트리의 개요와 출력 예(수치나 조건은 가상으로 지정)
연령이 30세 이상인가?
Yes No
연령이 60세 이상인가? 남성인가?
Yes No Yes No
생존 = 60 생존 = 12 생존 = 15 생존 = 39
사망 = 5 사망 = 35 사망 = 8 사망 = 11
랜덤 포레스트
결정 트리는 출력될 때까지 과정을 비교적 파악하기 쉽고, 얻은 모델을 수월하게 응용할 수 있어
유용하지만, 이상치(극단적인 값)에 약하고 처음 분기가 한쪽으로 잘못 치우쳐 버리면 이후 분기
들 모두 정확도가 나빠진다는 단점이 있습니다. 따라서 결정 트리를 여러 개 만들어 합하는(이를
앙상블 기법이라고 함) 랜덤 포레스트 방법이 제안되었습니다(그림 3-27).
130