Page 14 -
P. 14
1
특성 추출
머신 러닝에서 컴퓨터가 스스로 학습하려면, 즉 컴퓨터가 입력받은 데이터를 분석하여 일정한 패턴이나 규칙을 찾아
내려면 사람이 인지하는 데이터를 컴퓨터가 인지할 수 있는 데이터로 변환해 주어야 합니다. 이때 데이터별로 어떤 특 머신 러닝과 딥러닝
징을 가지고 있는지 찾아내고, 그것을 토대로 데이터를 벡터로 변환하는 작업을 특성 추출(feature extraction)이라
고 합니다.
그림 1-4 특성 추출
য়ష߄ ਃ ౠࢿ
ౠࢿ ୶
ঌҊ્ܻ
머신 러닝의 주요 구성 요소는 데이터와 모델(모형)입니다.
데이터는 머신 러닝이 학습 모델을 만드는 데 사용하는 것으로, 훈련 데이터가 나쁘다면 실제 현상
의 특성을 제대로 반영할 수 없으므로 실제 데이터의 특징이 잘 반영되고 편향되지 않는 훈련 데
이터를 확보하는 것이 중요합니다.
또한, 학습에 필요한 데이터가 수집되었다면 ‘훈련 데이터셋’과 ‘테스트 데이터셋’ 용도로 분리해서
사용합니다. 혹은 ‘훈련 데이터셋’을 또다시 ‘훈련 데이터셋’과 ‘검증 데이터셋’으로 분리해서 사용
하기도 합니다. 보통 데이터의 80%는 훈련용으로, 20%는 테스트용으로 분리해서 사용합니다.
모델은 머신 러닝의 학습 단계에서 얻은 최종 결과물로 가설이라고도 합니다. 예를 들어 “입력 데이
터의 패턴은 A와 같다.”라는 가정을 머신 러닝에서는 모델이라고 합니다. 모델의 학습 절차는 다음
과 같습니다.
1. 모델(또는 가설) 선택
2. 모델 학습 및 평가
3. 평가를 바탕으로 모델 업데이트
이 세 단계를 반복하면서 주어진 문제를 가장 잘 풀 수 있는 모델을 찾습니다.
021