Page 13 -
P. 13
Machine Learning
17.3 합성곱 GAN과 바서슈타인 GAN으로 합성 이미지 품질 높이기 744
17.3.1 전치 합성곱 745
17.3.2 배치 정규화 747
17.3.3 생성자와 판별자 구현 749
17.3.4 두 분포 사이의 거리 측정 755
17.3.5 GAN에 EM 거리 사용 759
17.3.6 그레이디언트 페널티 759
17.3.7 WGAN-GP로 dCGAN 모델 훈련 760
17.3.8 모드 붕괴 765
17.4 다른 GAN 애플리케이션 766
17.5 요약 767
18장 강화 학습으로 복잡한 환경에서 의사 결정 769
18.1 경험에서 배운다 770
18.1.1 강화 학습 이해 771
18.1.2 강화 학습 시스템의 에이전트-환경 인터페이스 정의 772
18.2 강화 학습의 기초 이론 774
18.2.1 마르코프 결정 과정 774
18.2.2 마르코프 결정 과정의 수학 공식 775
18.2.3 강화 학습 용어: 대가, 정책, 가치 함수 778
18.2.4 벨먼 방정식을 사용한 동적 계획법 782
18.3 강화 학습 알고리즘 783
18.3.1 동적 계획법 783
18.3.2 몬테카를로를 사용한 강화 학습 786
18.3.3 시간 차 학습 788
18.4 첫 번째 강화 학습 알고리즘 구현 791
18.4.1 OpenAI 짐 툴킷 소개 791
18.4.2 Q-러닝으로 그리드 월드 문제 풀기 801
18.4.3 심층 Q-러닝 805
18.5 전체 요약 813
machinelearning_06.indd 29 2021-03-17 오후 12:35:58