Page 16 - 006975

P. 16

리 보통 대량의 복잡한 데이터셋(예를 들어 몇 만 개의 픽셀로 구성된 이미지가 수백만 개가 있는

데이터셋)을 다루기 때문에 베이지안 분석(Bayesian analysis) 같은 전통적인 통계 분석 방법은 현실
적으로 적용하기 힘듭니다. 이런 이유 때문에 머신 러닝, 특히 딥러닝은 수학적 이론이 비교적 부 1
족하고(어쩌면 아주 부족하고) 엔지니어링 지향적입니다. 이런 실천적인 접근 방식 때문에 이론보
4
다는 경험을 바탕으로 아이디어가 증명되는 경우가 많습니다. 딥러닝이란 무엇인가?

1.1.3 데이터에서 표현을 학습하기

딥러닝을 정의하고 다른 머신 러닝 방식과의 차이점을 이해하기 위해 먼저 머신 러닝 알고리즘이
하는 일이 무엇인지 알아야 합니다. 머신 러닝은 샘플과 기댓값이 주어졌을 때 데이터 처리 작업
을 위한 실행 규칙을 찾는 것입니다. 머신 러닝을 하기 위해서는 세 가지가 필요합니다.

● 입력 데이터 포인트: 예를 들어 주어진 문제가 음성 인식이라면, 이 데이터 포인트는 사람의
대화가 녹음된 사운드 파일입니다. 만약 이미지 태깅에 관한 작업이라면 데이터 포인트는
사진이 됩니다.

● 기대 출력: 음성 인식 작업에서는 사람이 사운드 파일을 듣고 옮긴 글입니다. 이미지 작업에
서 기대하는 출력은 ‘강아지’, ‘고양이’ 등과 같은 태그입니다.

● 알고리즘의 성능을 측정하는 방법: 알고리즘의 현재 출력과 기대 출력 간의 차이를 결정하기
위해 필요합니다. 측정값은 알고리즘의 작동 방식을 교정하기 위한 신호로 다시 피드백됩니
다. 이런 수정 단계를 학습(learning)이라고 말합니다.

머신 러닝 모델은 입력 데이터를 의미 있는 출력으로 변환합니다. 이것이 알고 있는 입력과 출력
의 샘플로부터 학습하는 과정입니다. 그렇기 때문에 머신 러닝과 딥러닝의 핵심 문제는 의미 있는
데이터로의 변환입니다. 다시 말하면 입력 데이터를 기반으로 기대 출력에 가깝게 만드는 유용한
표현(representation)을 학습하는 것입니다. 여기에서 표현이란 무엇일까요? 핵심은 데이터를 인코

딩(encoding)하거나 묘사하기 위해 데이터를 바라보는 다른 방법입니다. 예를 들어 컬러 이미지는
RGB 포맷(빨간색-녹색-파란색 )이나 HSV 포맷(색상-채도-명도)으로 인코딩될 수 있습니다. 이
들은 같은 데이터의 두 가지 다른 표현입니다. 어떤 표현으로는 해결하기 힘든 문제가 다른 표현

4 역주 NIPS 2017에서 구글의 알리 라히미(Ali Rahimi)가 이를 연금술(Alchemy)에 비유(https://goo.gl/ajtvhX)해서 얀 르쿤(Yann
LeCun) 박사와 다소 설전이 있기도 했습니다. 대부분의 사람들은 연금술이란 단어에 대해 우호적인 편이지만 여기서는 이론적 배경이 부족
하다는 것을 꼬집는 말입니다.

031

deeplearning_07.indd 31 2018-10-05 오전 9:08:58

11 12 13 14 15 16 17 18 19