Page 10 -
P. 10

딥러닝 분야에서는 세계 규모의 이미지 인식 콘테스트(ImageNet Large Scale Visual Recognition              1
                        Challenge, ILSVRC)에서의 성과가 자주 거론됩니다. 힌튼(Geoffrey E. Hinton)의 AlexNet, 구글이
                        개발한 GoogLeNet도 ILSVRC에서의 점수를 기준으로 성능을 이야기합니다. ILSVRC 대회에                          딥러닝 시작하기
                        참가해 우승하려면 당연히 방대한 계산 자원과 아이디어가 필요합니다. ILSVRC라는 이미지 인
                        식 콘테스트에서의 과제는 2012년부터 계속 ImageNet에서 지정한 1000종류의 이미지를 분류

                        하는 성능을 높이는 것입니다. 이 종류를 머신 러닝 용어로는 클래스나 라벨이라고 부릅니다. 앞
                        에서 설명한 프로그램으로 분류한 곳에서 Classify(클래시파이)가 있는 것은 그 때문입니다. 엄밀
                        히 의미는 다르지만 기본적으로 클래스와 라벨은 같은 것으로 인식해도 좋을 것입니다. 단어가 많
                        으면 혼란이 가중되므로 가능한 늘리지 않는 것이 좋겠네요.

                        자, 이제 합성곱 신경망의 구조로 처음 큰 성과를 내 주목받은 힌튼의 AlexNet 구성을 봅시다(그
                        림 1-15).


                           그림 1-15 AlexNet[출처: Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton(2012). ‘ImageNet Classification with
                          Deep Convolutional Neural Networks’(Figure 2) Advances in Neural Information Processing Systems 25(NIPS
                          2012)]
                                                     합성곱 층                                   전 결합층

                                                               3
                                                 3
                                    5                          3            3
                                                  3
                                     5                                      3
                         11                        3                                     2048  2048  dense
                          11       48      27  128         192         192        128
                                 55
                                                       13          13          13
                                    5             3                        3
                         224                      3                         3
                                    5                   13      3                     dense  dense
                                            27    3             3   13          13
                           11                     3
                                  55                                                               1000
                           11                              192         192        128  Max
                         224          Max           Max                             pooling  2048  2048
                             Stride   pooling  128  pooling
                             of 4
                            3      48
                        이 그림을 보고 한눈에 “아~ 그렇구나”라고 이해하시겠나요? 솔직히 말하면 필자는 처음 봤을 때
                        전혀 이해하지 못했습니다. 이것을 이해하게 된 것은 실제로 프로그램을 작성해서 실행해본 이후
                        입니다. 왼쪽 끝이 이미지 입력이라는 것은 압니다. 오른쪽 끝이 클래스 출력이라는 것도 압니다.
                        하지만 그 중간의 그림은 모르겠습니다. 이것은 도대체 무엇을 어떻게 하는 것일까요? 이것에 대

                        해서는 나중에 자세히 설명하겠습니다.










                                                                                                      041




         deeplearing_07.indd   41                                                                2018-04-11   오전 8:12:10
   5   6   7   8   9   10   11   12   13