다음과 같은 게임이 있다. S에서 출발하여 G에 도착하는 게임인데 F는 지나갈 수 있고 H에 가게되면 빠져 죽는 게임이라고 한다. 이 게임에 대해서 알고리즘을 Agent가 environment에서 action을 취하며 돌아다닐 것이다. 이 action에 따라서 enviroment는 상태를 돌려준다. 여기서는 index를 state로서 되돌려 줄 것이다. 그리고 reward는 G에 도착하게 되었을때 점수를 줄 것이다. 예를 들어보자. 만약 S에서 오른쪽으로 한 칸 움직였다면, state:1, reward:0이 된다. 이것을 일반화 하면 Frozen Lack 뿐만 아니라 거의 모든 환경에 적용할 수 있다. OpenAI Gym에 가면 많은 정보를 얻을 수 있다. gym.openai.com/ OpenAI를 사용..
Reinforcement가 어떤 의미를 가지고 있는지, Reinforceabling이 뭐하는 것인지, 어떤 문제를 풀 수 있는지 개략적으로 알아보겠다. reinforcement는 굉장히 폭넓은 분야에서 사용되고 있는데 그 중 하나가 어떤 것을 훈련시킬때 사용된다. 우리의 삶에서 어떤 것을 배울 때 하는 행동들이 Reinforcement와 유사하다. 환경속에서 상태 변경되면 내가 어떤 행동을 할 때 마다 상태가 업데이트 된다. 치즈를 찾는게 목표인데 돌아다니며 매 순간마다 잘했다 못했다라는 것은 주어지지 않지만 마지막에 운이 좋아서 치즈를 발견하게 된다면 보상으로 받게 된다. 이런 형태의 환경으로 구성할 수 있는 것이 Reinforcement Learning이다. Reinforcement는 최근들어 나와있..