Page 22 -

P. 22

그림 1-5 강화 학습

환경
보상
상태

행동

에이전트

강화 학습에는 여러 하위 분류가 있습니다. 일반적인 구조는 강화 학습 에이전트가 환경과 상호
작용하여 보상을 최대화하는 것입니다. 각 상태는 양의 보상이나 음의 보상과 연관됩니다. 보상은
체스 게임의 승리나 패배처럼 전체 목표를 달성하는 것으로 정의할 수 있습니다. 예를 들어 체스

에서 기물의 이동으로 나타난 결과는 각기 다른 환경 상태로 생각할 수 있습니다.
체스 예제를 좀 더 살펴보죠. 체스판 위의 특정 상황이 승리로 이어질 가능성이 높은 상태와 연관

될 수 있습니다. 예를 들어 상대 체스 기물을 잡거나 퀸을 위협하는 것입니다. 반면 어떤 위치는
게임에 질 가능성이 높은 상태와 연관됩니다. 예를 들어 다음 차례에 상대에게 기물을 잃게 되는
경우입니다. 체스 게임에서 보상(승리하면 양의 보상, 게임에 지면 음의 보상)은 게임이 끝날 때까
지 주어지지 않습니다. 또한, 최종 보상은 상대의 플레이 방식에 따라 다릅니다. 예를 들어 상대가

퀸을 잃었지만 결국 게임에서 이길 수 있습니다.
강화 학습은 행동을 수행하고 즉시 얻거나 지연된 피드백을 통해 얻은 전체 보상을 최대화하는 일

련의 행동을 학습합니다.

1.2.3 비지도 학습으로 숨겨진 구조 발견

지도 학습에서는 모델을 훈련할 때 사전에 옳은 답을 알고 있습니다. 강화 학습에서는 에이전트의
특정 행동을 보상하는 방법을 정의합니다. 비지도 학습에서는 레이블되지 않거나 구조를 알 수 없

는 데이터를 다룹니다. 비지도 학습 기법을 사용하면 알려진 출력 값이나 보상 함수의 도움을 받
지 않고 의미 있는 정보를 추출하기 위해 데이터 구조를 탐색할 수 있습니다.

038

machinelearning_06.indd 38 2021-03-17 오후 12:36:05

17 18 19 20 21 22 23