Page 13 -
P. 13

Machine Learning






                     17.3  합성곱 GAN과 바서슈타인 GAN으로 합성 이미지 품질 높이기  744
                           17.3.1 전치 합성곱  745
                           17.3.2 배치 정규화  747
                           17.3.3 생성자와 판별자 구현  749
                           17.3.4 두 분포 사이의 거리 측정  755
                           17.3.5 GAN에 EM 거리 사용  759
                           17.3.6 그레이디언트 페널티  759
                           17.3.7 WGAN-GP로 dCGAN 모델 훈련  760
                           17.3.8 모드 붕괴  765
                     17.4  다른 GAN 애플리케이션  766

                     17.5  요약  767




                     18장 강화 학습으로 복잡한 환경에서 의사 결정                                  769


                     18.1  경험에서 배운다  770
                           18.1.1 강화 학습 이해  771
                           18.1.2 강화 학습 시스템의 에이전트-환경 인터페이스 정의  772
                     18.2  강화 학습의 기초 이론  774
                           18.2.1 마르코프 결정 과정  774
                           18.2.2 마르코프 결정 과정의 수학 공식  775
                           18.2.3 강화 학습 용어: 대가, 정책, 가치 함수  778
                           18.2.4 벨먼 방정식을 사용한 동적 계획법  782
                     18.3  강화 학습 알고리즘  783
                           18.3.1 동적 계획법  783
                           18.3.2 몬테카를로를 사용한 강화 학습  786
                           18.3.3 시간 차 학습  788

                     18.4  첫 번째 강화 학습 알고리즘 구현  791
                           18.4.1 OpenAI 짐 툴킷 소개  791
                           18.4.2 Q-러닝으로 그리드 월드 문제 풀기  801
                           18.4.3 심층 Q-러닝  805

                     18.5  전체 요약  813











     machinelearning_06.indd   29                                                           2021-03-17   오후 12:35:58
   8   9   10   11   12   13   14   15   16   17   18