Page 12 -
P. 12
우리나라 주민등록번호 뒷자리 7개 숫자 중 첫 번째 숫자는 성별을 표시한다는
사실을 알고 있나요? 1900년대에 태어난 남자는 1, 여자는 2이고, 2000년대에
태어난 남자는 3, 여자는 4로 표기한답니다. 1900년대에 태어난 외국인 남자는
5, 여자는 6으로, 2000년대에 태어난 외국인 남자는 7, 여자는 8로 나타냅니다.
이처럼 범주형 데이터는 숫자 형태로 나타낼 수 있다는 사실에 유의하시기 바랍
니다. Part 2
머신러닝에서는 중요한 데이터 속성(특성)을 선택하는 것이 중요합니다. 이를 특
성 선택(Feature Selection)이라고 합니다. 과거에는 사람이 직접 이 과정을 수
행했지만, 딥러닝이 등장하면서 컴퓨터가 알아서 중요한 특성을 선택할 수 있게
되었습니다. 하지만 딥러닝을 사용하려면 많은 데이터가 필요한데, 데이터가 많
지 않을 때는 사람이 직접 특성을 분석하는 과정이 여전히 중요합니다.
이때는 탐색적 데이터 분석(EDA)이나 주성분 분석(PCA)과 같은 방법을 통해 데
이터를 이해하고 중요한 데이터 특성을 찾는 과정이 필요합니다. 이렇게 식별된
특성을 문제 해결에 적합하게 변형하거나 처리하는 종합적인 과정을 특성 공학
(Feature Engineering)이라고 합니다. 이 과정을 통해 데이터 분석과 인공지능
모델의 성능을 높일 수 있습니다.
생각해 보기 머신러닝 모델과 데이터 속성
머신러닝 모델에 사용할 데이터 속성을 어떻게 선택하고 활용해야 할지, 다음의 질문에 답변하
며 생각해 봅시다.
1. 머신러닝 모델이 최적의 성능이 나오려면 몇 개의 데이터 속성을 선택해야 할까요?
2. 과적합, 과소적합, 차원의 저주는 무엇을 의미하고 언제 발생할까요?
3. 텍스트나 이미지 데이터의 경우 어떻게 데이터 속성을 추출 및 선택해야 할까요?
4. 탐색적 데이터 분석(EDA)과 주성분 분석(PCA)의 목적과 방법에는 어떤 차이점이 있을까
요?
091