Page 10 -

P. 10

딥러닝 분야에서는 세계 규모의 이미지 인식 콘테스트(ImageNet Large Scale Visual Recognition 1
Challenge, ILSVRC)에서의 성과가 자주 거론됩니다. 힌튼(Geoffrey E. Hinton)의 AlexNet, 구글이
개발한 GoogLeNet도 ILSVRC에서의 점수를 기준으로 성능을 이야기합니다. ILSVRC 대회에 딥러닝 시작하기
참가해 우승하려면 당연히 방대한 계산 자원과 아이디어가 필요합니다. ILSVRC라는 이미지 인
식 콘테스트에서의 과제는 2012년부터 계속 ImageNet에서 지정한 1000종류의 이미지를 분류

하는 성능을 높이는 것입니다. 이 종류를 머신 러닝 용어로는 클래스나 라벨이라고 부릅니다. 앞
에서 설명한 프로그램으로 분류한 곳에서 Classify(클래시파이)가 있는 것은 그 때문입니다. 엄밀
히 의미는 다르지만 기본적으로 클래스와 라벨은 같은 것으로 인식해도 좋을 것입니다. 단어가 많
으면 혼란이 가중되므로 가능한 늘리지 않는 것이 좋겠네요.

자, 이제 합성곱 신경망의 구조로 처음 큰 성과를 내 주목받은 힌튼의 AlexNet 구성을 봅시다(그
림 1-15).

그림 1-15 AlexNet[출처: Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton(2012). ‘ImageNet Classification with
Deep Convolutional Neural Networks’(Figure 2) Advances in Neural Information Processing Systems 25(NIPS
2012)]
합성곱 층 전 결합층

3
3
5 3 3
3
5 3
11 3 2048 2048 dense
11 48 27 128 192 192 128
55
13 13 13
5 3 3
224 3 3
5 13 3 dense dense
27 3 3 13 13
11 3
55 1000
11 192 192 128 Max
224 Max Max pooling 2048 2048
Stride pooling 128 pooling
of 4
3 48
이 그림을 보고 한눈에 “아~ 그렇구나”라고 이해하시겠나요? 솔직히 말하면 필자는 처음 봤을 때
전혀 이해하지 못했습니다. 이것을 이해하게 된 것은 실제로 프로그램을 작성해서 실행해본 이후
입니다. 왼쪽 끝이 이미지 입력이라는 것은 압니다. 오른쪽 끝이 클래스 출력이라는 것도 압니다.
하지만 그 중간의 그림은 모르겠습니다. 이것은 도대체 무엇을 어떻게 하는 것일까요? 이것에 대

해서는 나중에 자세히 설명하겠습니다.

041

deeplearing_07.indd 41 2018-04-11 오전 8:12:10

5 6 7 8 9 10 11 12 13