Page 15 -
P. 15

그림 1-5 머신 러닝의 문제 풀이 과정





                                ݽ؛                             ݽ؛
                                оࢸ ੸ਊ                        সؘ੉౟



                                                         పझ౟ UFTU           ޙઁী ੸ਊ
                                                          ؘ੉ఠࣇ        ୭ઙ
                       ݽ؛
                      সؘ੉౟               ݽ؛ ಣо                        ݽ؛

                                                               ݽ؛
                                                               ੸ਊ
                           ള۲ USBJOJOH  ؘ੉ఠࣇ






               최종적으로 완성된 모델(모형)을 해결하고자 하는 문제에 적용해서 분류 및 예측 결과를 도출합니다.


                        훈련과 검증, 테스트 데이터셋
                 수집된 데이터셋은 크게 훈련(training)과 테스트(test) 데이터셋으로 분리하여 사용됩니다. 하지만 종종 훈련 데이터셋
                 을 다시 훈련과 검증(validation) 용도로 분리해서 사용하는 경우를 볼 수 있는데 이들 간의 차이를 알아봅시다.

                   그림 1-6 훈련과 검증, 테스트 데이터셋
                                     ੹୓ ؘ੉ఠࣇ

                             ള۲ ؘ੉ఠࣇ                పझ౟ ؘ੉ఠࣇ
                       ള۲ ؘ੉ఠࣇ         Ѩૐ ؘ੉ఠࣇ      పझ౟ ؘ੉ఠࣇ


                 일반적으로 훈련과 테스트 용도의 데이터셋만 필요할 것 같은데, 검증 데이터셋을 사용하는 이유는 모델 성능을 평가
                 하기 위해서입니다. 즉, 훈련 데이터셋으로 모델을 학습시킨 후 모델이 잘 예측하는지 그 성능을 평가하기 위해서 사
                 용합니다. 하지만 검증 용도의 데이터셋은 훈련 데이터셋의 일부를 떼어서 사용하기 때문에 학습에 사용되는 데이터
                 셋의 양이 많지 않다면 검증 데이터셋을 사용하는 것은 좋지 않습니다.

                 그러면 모델 성능의 평가는 왜 필요할까요? 첫 번째는 테스트 데이터셋에 대한 성능을 가늠해 볼 수 있기 때문입니다.
                 딥러닝의 목적은 새롭게 수집될 데이터에 대해 정확한 예측을 하는 데 있습니다. 이때 검증 데이터셋을 사용해서 새롭
                 게 수집될 데이터에 대해 예측을 평가해 볼 수 있습니다. 두 번째는 모델 성능을 높이는 데 도움을 줍니다. 예를 들어
                 훈련 데이터셋에 대한 정확도는 높은데 검증 데이터셋에 대한 정확도가 낮다면 훈련 데이터셋에 과적합이 일어났을
                 가능성을 생각해 볼 수 있습니다. 이 경우 정규화(regularization)를 하거나 에포크(epoch)를 줄이는 방식으로 과적
                 합을 막을 수 있습니다.



         022
   10   11   12   13   14   15   16   17   18   19   20