강화학습 - 정책과 가치함수

Shared on June 6, 2026

07:51:36

지금 이제 구장 그 강화 학습에 라는 것에 대해서 배우고 있는데요 지난 시간에 강화 학습이라는 것이 어떤 건지 에 대해서 살펴봤고 어 그중에 이 정책이라는 것이 무엇인지에 대해서 얘기 했었죠 기본적으로 강화 학습이라는 것은 에이전트가 어떤 상황에 처했을 때 어떤 식으로 행동하는 것이 최적일지 그거를 이제 뭐 학습하는 것이 기본적인 강화 학습이 하는 일이죠 그래서 어떤 상태에서 어떤 행동을 한다

07:52:16

라는 것을 정한 것 그것을 이제 정책이라고 우리가 얘기를 한다고 했는데 어떤 정책을 가지고 행동을 한다 라면은 어떤 이런 상황에 처하면 어떤 액션을 채우고 저런 상황에 처하면 어떤 액션을 채우고 그렇게 이제 정해놓을 것 그거를 어떤 뭐 결정론적으로 100% 이 상황이면은 이 행동만 한다 라는 식으로 정할 수도 있고 아니면은 이런 상황이면은 이런 A라는 행동을 취할 확률을 3분의 1로 하고 B라는 행동을 3분의 2로 하고 그런 식으로 확률적으로 어떤 행동을 취한다라는 것을 정하는 형태로 정책을 얘기를 하기도 할 수도 있겠죠

07:52:56

아무튼 어떤 순간에 그 상황에서 어떤 행동을 해야 되는지 정해놓은 것, 어떤 황금도 하는지 정해놓은 것, 그게 이제 정책이라고 했는데 그런데 기본적으로 지금 강화학습이라고 하는 것은 어떤 에이전트가 그 중간중간에 행동을 취할 때 또는 뭐 나중에 다 끝나고 행동이 다 끝났을 때 그 주어지는 그런 보상을 최대로 얻을 수 있도록 잘한 행동에 대해서 보상을 주는 방식으로 해서 그 잘하는 행동을 할 수 있는 것을 학습시키는 거니까

07:53:34

누적의 보상액을 최대로 하는 그런 행동들을 쭉 취해 나갈 수 있도록 하는 그런 정책을 찾는 것이 사실은 강화학습이라는 것의 목표가 되겠죠. 그래서 정책이라는 것에 대해서 또 그리고 정책을 결정할 수 있는 최적의 정책을 찾을 수 있는 그런 방법으로서 사용할 수 있는 가치함수라는 것. 그 다음에 그 가치함수 중에 최적의 가치함수라는 것 이런 것들에 대해서 9.2절에서 좀 알아보려고 해요.

07:54:07

그래서 강화학습이라는 것은 기본적으로 좋은 정책을 찾으려고 하는 거다. 어떤 순간에 어떤 행정을 취하는 것이 좋을지 좋은 정책을 찾으려고 하는 거다. 좋은 정책이라고 하는 것은 유적 보상의 공을 최대로 하는 그런 행동. 그것이 좋은 행동들을 정해놓은 것이 최적의 정책이 되겠죠. 그래서 이런 좋은 정책을 찾는 것이 기본적인 핵심인데 이거는

07:54:44

우리가 앞에서 지도학습 같은 거를 얘기를 할 때 목적함수를 주어주고 목적함수, 손질함수, 오류함수든지 아무튼 그거를 최적화할 수 있는 그런 것들을 결국은 가중치를 찾는 일인데

07:55:08

해 과중치로서 목적함수가 최적의 해가 될 수 있는 그런 것이 목표라고 한다면 좋은 정책을 찾는 것은 강화학습에서의 목표라고 볼 수 있겠죠. 그래서 좋은 정책이라는 것은 기본적으로 누적의 보상을 최대화하려고 하는 거다. 어떤 순간순간에 주어지는 보상이 있을 수도 있을 텐데 그냥 단순히 로펄이 좋아보이는 국제적으로 좋아보이는 그런 것들만을 선택하는 그런 정책이

07:55:45

최적의 정책이 아닐 수도 있죠. 때로는 전체적으로는 최적의 누적 보상을 얻으려면 어떤 순간에 취하는 액션으로부터 얻을 수 있는 그런 보상은 사실은 적을 수도 있는 그런 것일 수 있죠. 그래서 실제로 글로벌한 그런 이런 누적 보상의 최대를 위해서는 못하게 어떻게 말한 것만 항상 추구하는 그런 일을 해서는

07:56:17

안 될 거다. 바둑 같은 데서 주변의 상황만 보고 얻으려고 한다면 실제 결과가 안 좋을 수도 있는 그런 상황이 될 수 있으니까 아무튼 이런 조그만 희생을 둔다, 중간에 둔다 하더라도 나중에 그 결과적으로는 누적의 보상이 최대가 되도록 하려고 하는 그런 정책을 찾는 데 목표가 있다고 볼 수 있죠. 그래서 기본적으로 아까도 얘기를 했지만

07:56:51

정책 파일하고 우리가 부른다면 어떤 상태에서 어떤 액션을 취할지를 뭐 예를 들어서 필요하다면 확률적으로 정해놓은 그러한 더 이게 이제 파워지죠 정책이죠 좀 어떤 상황에 어떤 상태에서 어떤 행동 행동 취한다 이런 정책이죠 그래서 우리가 지금 예로 들고 있는 요 그리트 월드에서 16개의 4x4의 그런 샌들이 있는

07:57:22

그리스로서 목적 지점까지 이동을 해가는 에이전트를 생각을 했을 때 예를 들어서 각 셀에서 동서남북 방향으로 이동을 할 수 있는 액션을 취할 수 있는데 그 A들 그럴 때 어떤 상태, 지금 I라는 셀에 있다고 했을 때 동쪽으로 이동할 확률을 예를 들어서 4분의 1, 똑같은 데서 서쪽, 남쪽, 북쪽으로 이동할 확률을 예를 들어서 4분의 1식으로 해놓으면

07:57:57

어떤 아이라는 그 상태에 있을 때 취할 수 있는 네 가지의 행동을 똑같은 확률로서 취할 수 있도록 하는 그런 정책인 거죠. 그렇죠. 그래서 동으로 가는 액션도 4분의 1의 확률로서 취할 수 있고 서로 가는 확률도 서로 가는 액션도 4분의 1로서 그렇지 못하다 정해놓은 이런 것들 모든 상태에 대해서 그 거기에 취할 수 있는 모든 액션에 대해서 확률이 있다면 확률로서 이렇게 정해놓은 그것 자체가 정책이라고 우리가 부를 수 있는 거죠.

07:58:30

그리즈 월드 격자세계라고 얘기했는데 여러 가지 격자세계에서 어떤 셀에 있을 때 어떤 방향으로 행동을 취하느냐 정하는 정책이 여러 가지 있을 수 있는데 예를 들어서 여기 있는 모든 셀에서 이건 목표 지점에 해당하는 그레이 표시가 되어 있는 셀 외에 모든 이동할 수 있는 지점에서 동서남북 방향으로의 액션을 다 취하는

07:59:02

예를 들어서 4분의 1씩의 확률로 취하는 그런 정책 그것도 정책이라고 볼 수 있을 거고 그것을 파이 원이라고 부른다면 그러면 예를 들어서 이 셀에 있다면 4가지 액션이 다 가능하고 예를 들어서 이쪽으로 가는 일을 했다가 또 여기도 다 가능하니까 이렇게 갔다가 이렇게 갔다가 마음대로 어느 셀에 있든지 갈 수 있는 방향이 있다면 여기서 오른쪽으로 가는 건 안 되겠지만 벽에 부딪혀서는 그쪽으로 나가지는 못할 거고 아무튼 이 안에서 돌아다닐 수 있는 벽에 부딪혀서는 그쪽으로 나가지는 못할 거고

07:59:37

그런 방법으로서는 뭐 이런 것도 나름대로 정책이라고 볼 수 있는 거겠죠. 이건 사실은 뭐 배회를 하는 또는 뭐 산책을 하는 아무데나 아무 방향으로나 다 이동을 하는 그런 정책. 그 다음에 발투라고 하는 것도 나름대로의 정책인데 어떤 셀에 있던 거 아닌 항상 남쪽으로 가는 액션 남행의 액션을 100% 취한다. 이것도 하나의 정책일 거예요. 그렇죠? 다른 쪽으로 이동하는 그런 확률은 영이고 남쪽으로만 이동한다. 그러면 예를 들어서 이건 어디에 있느냐에 따라서 여기

08:00:16

파란색으로 표현한 셀에 있었다면 밑으로 팔 수밖에 없을 거고 하나밖에 없으니까 여기서는 밑으로 또 아는 액션을 취할 텐데 바우스 될 거고 계속 제자리에서 바우스하는 그런 경로만의 사실은 택할 수밖에 없죠 그래서 어디에 있느냐에 따라서 이런 셀에 있었다면 목표로 갈 수 있는 그런 액션의 시퀀스가 가능하지만 나머지 셀이 있는 경우라면 목표 지점에 도달할 수 있는 방법은 전혀 없는 그런

08:00:51

정책이 되겠죠. 그 다음에 파이3라고 하는 정책. 이거는 뭐요? 여기에 이렇게 이러한 모든 셀에서 동서남북 방향으로 가는 것이 아니라 이렇게 벽에 있는 또는 장애물이 이렇게 목표지점에 대한 장애물 같은 것이 있는 그런 경우, 코너에 있는 그런 경우들은 그쪽 방향으로 이동을 안 하도록 하는 그런 정책이라면 예를 들어서 이렇게 표현할 수 있겠죠. 이렇게 벽으로 부딪치지 않는 액션들만

08:01:24

수 있고 여기는 어떤 방향으로 인사하고 그런 것. 그 다음에 파이프4 같은 경우에는 여기에 있는 것들은 어떤 셀이건 제일 적은 이동을 통해서 목표하는 지점에 이를 수 있도록 그렇게 만들어 놓은 정책이죠. 그래서 여기 코너 셀이 있다면 이쪽으로 이동해서 도달할 수도 있고 이쪽으로 도달할 수도 있으니까 그쪽 방향으로 이동만 한 이쪽 벽이라든지 이쪽 벽은

08:02:04

그리고 여기는 제일 가까이 이동할 수 있는 셀 쪽으로 가는 액션만 취하고 여기도 마찬가지, 이런 식으로 대신 여기에 있는 것들은 이렇게 가나 이렇게 가나 똑같기 때문에 똑같은 그런 4분의 1시계 확률로서 어느 방향으로 이동 가능하게 하고 이런 식으로 만들어 놨다면 여기는 가까운 쪽의 목표 지점으로 빨리 갈 수 있도록 액션을 갈고 이러면 사실은

08:02:35

이것은 각각의 셀에서 목표지점으로 도달했을 때 지금 보상을 5라고 받고 이동하는데 보상을 -1씩 받는 목표가 아닌 쪽으로 이동한다면 -1씩 받는 그런 식이라면 그러면 제일 어티말한 이동을 최단의 경로를 통해서 목적지에 도달할 수 있는 그런 정책이다라고 봅니다. 그래서 산책을 하는 것, 계획을 하는 것이 목표인 로봇을 만드는 거라면 이런 식의 정책을 찾아도 상관없을 거고

08:03:19

제일 경로를 짧게 해서 목적지점에 도달할 수 있는 그런 것을 학습시키는 거라면 정책적으로 이런 정책을 체계해야 되는 거겠죠. 요셀에서는 항상 이쪽으로 가도록 하고 이쪽으로 가도록 하고 그렇죠? 그래서 어느 위치에 있던 제일 옵티멜한 라우트를 통해서 목적지점에 도달할 수 있도록 여기서는 뭐 이렇게 가는 거랑 똑같으니까 뭐 이쪽으로 가도 상관은 없는데 아무튼 그런 식으로 자 그래서 여기 파이2라는 정책은 아까 요 파이1은 뭐 모든 요 아이에 대해서 동서남북이 다 좀 똑같은 확률로 이렇게 있는

08:03:58

이런 정책일거고 여기 파이2라고 하는 것은 남쪽으로 가는 모든 셀에 대해서 다 동서부근 이동 안하고 남쪽으로만 가는 이것이 100%인 그런 정책인거죠. 각각의 정책을 이런식으로 어느 방향으로 가는지 확률이 얼마인지 이런식으로 표현을 해 둘 수가 있다. 파이3에 대해서는 이렇게 표현할 수 있겠다라는 거죠.

08:04:40

파이4는 뭐 이런 식으로 각각의 어느 위치에 있느냐에 따라서 아이가 뭐냐에 따라서 다 이렇게 최적의 이동을 통해서 목표로 도달할 수 있는 그런 정책인 셈이죠.

08:05:04

그래서 학습을 지키는 데 최적의 경로로서 항상 어디에 있든지 최적의 경로로서 갈 수 있는 그런 정책을 찾아내는 것이 목표인 경우라면 사실은 어떤 식의 이동을 했을 때 보상이 어떤 식으로 주어야 되는지도 실제로 좀 다를 거예요. 예를 들어서 상책을 하는 이런 아무데나 이렇게 막 돌아다닐 수 있는데 다 돌아다녀보는 뭐 이런 식의 것을 학습하는 게 목표라면 사실은 이제 보상을 어떤 쪽으로 이동해서

08:05:41

각언 적절히 줘야 될 거고 여기 목표에 도달하는 동안에 줘야 될 거고 이 경우라면은 빨리 갈 수 있는 쪽으로 이동을 해가는 것을 잘 찾을 수 있다면 그쪽으로 보상을 줘야 되는 거겠죠 그래서 보상을 달리 함으로 해서 어떤 정책을 찾아낼 수 있느냐가 달라질 거예요 그래서 기본적으로 지금 찾고자 하는 거는 최적의 정책을 찾고자 하는 거다 하려고 하는 것이 뭐냐에 따라서

08:06:13

정치권을 찾고자 하는 거다. 그러면 그것을 최적이다. 좋은 것들 중에서도 제일 좋은 것이 뭐다라는 것을 판정할 수 있는 어떤 척도가 당연히 필요하겠죠. 그거에 따라서 그 중에 제일 좋은 거다. 나쁜 것 같다. 그가 판정될 수 있을 테니까. 그래서 소위 가치 함수라는 것을 그 과정에서 계산을 해서 그 가치 함수, 값이 큰 쪽으로 나타나도록 하는 그 정책

08:06:45

그거를 찾으려고 해요 그래서 이제 이 가치함수 정책이라는 것이 있을 때 이 가치함수라는 거는 그 정책이 얼만큼 좋은지 그거를 측정하는 함수예요 자 그러면은 이제 이거는 기본적으로 특정 정책에 대해서 하는 건데 그러면은 이제 어떤 정책이라는 거는 뭐예요 어떤 상황에서 어떤 상태에서 어떤 액션을 취할 확률이 얼마다 라는 것을 명시를 해놓은 게 정책이라고 했었죠.

08:07:21

그러면은 이제 어떤 특정한 정책이다 그러면 예를 들어서 아까 1, 2, 3, 4 이런 것들이 다 정책에 각각의 예의일 수 있는데 그런 어떤 정책을 정해놓으면은 그러면은 모든 상황에서 요 액션을 취할 확률이 얼마 이런 것들이 다 정해진 상태인 거니까 그러면 그 정책을 고정시켜 놨을 때 그때 각각의 정책에서의 각각의 상태에 가치가 있을 거예요

08:07:53

그래서 그것을 가치함수라고 하는데 보통 이런 식으로 표현을 해요. 정체 파일을 이용을 해서 각각 S, 그리드에 어떤 셀이 에이전트가 있는지 그것을 각각의 상태라고 나타낸다면 그 상태에 대해서 측정하는 값함수 그게 가치함수예요. 그래서 정체을 다른 걸로 하면 똑같은 상태에 대해서 다른 값을 주겠죠. 그래서 그것 중에

08:08:28

최대가 되는 그것을 다질려고 하는 거죠 자 그래서 여러가지 정책에 대해서 얘기했는데 정책에 아까 1,2,3,4,5,1,2,3,4 말고 또 다른 정책 5,5라는 것이 이런 식으로 있다고 해보죠 그러면은 예를 들어서 여기 있는 거는 왼쪽, 여기 있는 거는 왼쪽 여기는 위쪽으로 다 가게 하고 여기는 위쪽 여기는 왼쪽, 이런 쪽으로 가게 하는 즉 이쪽에 어디에 있든지 간에 이쪽에 목표지점에는 다르지 못하도록 하는 그런 정책이에요 이거는 보면은 그렇죠?

08:09:07

이거는 뭐 어디에 있든 간에 자신의 가까운 곳에 제일 최단의 경로로서 갈 수 있도록 하는 그런 정책에 해당하는 거고 자 그럼 파일 파이브도 이렇게 이제 이런 형태로 어떤 셀에 있을 때 어떤 방향으로 갈지 뭐 100%로 정하는 경우도 있고 뭐 50% 50% 이런 식으로 반반인 경우도 있고 확률을 이렇게 이제 다 정할 수 있겠죠 이런 정책 자체를 이렇게 표현을 할 수가 있을 거예요 아까 했었고

08:09:38

그러면 이렇게 있을 때 이제 각각의 상태에 대해서 거기서 얻을 수 있는 유적의 보상각 그거를 할 수가 있겠죠. 그래서 이제 셀이 1,2,3,4,5,6,7,8 이렇게 쭉 있다고 했을 때 16번까지 이렇게 셀 번호들이 있는데 이거 가지고 V5라는 거 V4라는 것 이 정책 두 개를 가지고 각각의 정책이

08:10:16

이것을 고정을 시켰을 때 그 정책을 이용하는 경우 각각의 상태의 가치 이것을 계산하는 것을 생각을 해보죠. 예를 들어서 여기 셀번호 이것을 16번까지 S가 1부터 16까지의 값을 갖는 거예요. 그중에 1하고 16은 목표 지점에 해당하는 것이고 여기에 도달하는 것이

08:10:52

그래서 거기에 도달하면 보상이 크게 주어진다. 그래서 그 보상을 크게 받을 수 있는 쪽으로 이동을 해 갈 수 있도록 하는 거죠. 예를 들어서 PI가 PI5 이 정책이라고 해보죠. 그럴 때 2번 셀에 가치함수의 갓 이 정책을 썼을 때 썼을 때 이번 셀의 이 가치함수 V5I의 각

08:11:24

계산을 한번 해보죠. 자 그럼 여기에 있는 상태예요. 그래서 이 정책을 이용한다면 그러면 여기서는 이쪽으로 가는 이 액션 하나만 100%로 취하는 거죠. 그래서 지금 이 목표지정 여기에 도달하게 되면 보상을 지금 5만큼 5라는 숫자만큼 받는다 라고 하고 그 액션을 취했을 때 그러면은 여기서의 요 액션을 취하면 5라는 보상을 받을 수 있다는 얘기예요. 그렇죠? 그러면은

08:11:57

이 5에 대한 이 값은 5죠. 이거 여기서 이 핵심 취하면 5라는 보상을 얻는다고 했으니까 5라는 값이에요. 그 다음에 상태가 3이라면 여기 지금 이거는 5고 3이면 그러면 도달하려면 어떻게 해야 돼요? 서쪽으로 갔다가 또 서쪽으로 가는 두 번의 액션을 취하면 여기 도달하려면

08:12:34

도달하면서 5호의 보상을 얻어요. 그런데 그 과정에서 왼쪽으로 하나 이동했을 때 -1 방금씩의 중간중간에 보상을 받는다면 이동을 한 번 하는데에 따라서 - 보상을 조금씩 받는다. 그래서 너무 이동을 많이 해서 안 가도 이동을 많이 안해서 할 수 있도록 - 보상을 준다면 그러면 이 정책으로 하면 - 여기에서는 이쪽으로 갈 수밖에 없고 - 여기에서는 또 이쪽으로 갈 수밖에 없고 - 그 행동 하나밖에 없으니까

08:13:07

여기서 가면서 -1만큼의 보상을 얻었고 여기서 다시 이쪽으로 가면서 5만큼의 그래서 -1+5만큼의 보상을 얻게 되겠죠. 그러면 그건 제4죠. 그 다음에 여기 있으면 마찬가지로 이렇게 세 번의 무브를 해야 되고 그러면 도달할 수 있고 할 수 있는 무브는 그것만으로 정해져 있는 거니까 이 경우 -1, -1+5 해서 3이 됐고

08:13:40

6번에 있는 경우다. 라면은 이거는 3에요. 뜻을 안했지만 6번에 있는 경우 라면은 그러면은 지금 이쪽으로 갈 확률이 2분의 1 이쪽으로 갈 확률이 또 2분의 1이죠. 이쪽으로 갈 수도 있고 이쪽으로 갈 수도 있고 두 가지 액션이 다 가능한 거니까 그러면은 2분의 1에 확률로서 이쪽으로 이동해서 가보면은 또 이쪽 갈 수 있는 것밖에 없고 그래서 이렇게 해서 목표에 도달할 수 있는 방법이 하나가 있고 경로가

08:14:13

그 다음에 여기서 왼쪽으로 갔다가 이렇게 도달할 수 있는 것이 다 가능성이 있죠. 다 1/2의 가능성이 있어요. 그러니까 이쪽으로 이동하는 과정에서 아직 목표지점에 도달하지 않으면서 이동을 한 번에서 -1에 보상을 하고 그 다음에 이쪽으로 가면서 +5니까 이쪽으로 이동해서 여기에 도달하게 되면 누적 보상은 4가 되는 거고 확률은 지금 1/2를 택해서 그쪽으로 하는 거니까 1/2만큼 그렇죠?

08:14:47

그 다음에 여기 이쪽으로 가면은 마찬가지로 1/2의 확률로서 -1, 5, +5에서 4만큼의 누적 보상을 얻으니까 그것도 계산을 해야 될 거고 그래서 1/2 각각의 1/2 확률로서 이만큼의 누적 보상, 누적 보상 그래서 기대보상은 4, 6 이 정책을 썼을 때 상태 6에 있을 때의 그 기대보상, 누적 보상에 대한 기대감은 이거죠

08:15:21

그래서 모든 셀에 대해서 이런 방식으로 값들을 계산할 수 있어요 그게 5, 4 이런 식으로 예를 들어서 이거 셀도 따져보면 이것도 방향은 위쪽으로 갈 수 있는 무게만 할 수 있는 단단식의 가능성을 갖도록 확률로 정해놓은 거라면

08:15:54

그러면은 여기서도 실제로는 만약에 이런 이동이 가능했다면은 이렇게 가는 것이 바르겠지만 그거는 지금 불가한 그런 정책이니까 그 상태의 정책 하에서 이 상태의 가치라고 하는 것 계산해보면은 이렇게 가서 이렇게 가거나 이렇게 가서 이렇게 가거나 이렇게 이렇게 가거나 이렇게 가거나 뭐 갈 수 있는 여러가지 방법들 다 따져서 그거의 평균 값으로서 보상의 평균 값으로서 계산을 해야 될 거예요 기대 보상이죠

08:16:30

그러면 여기서 지금 갈 수 있는 방법이 아까 얘기했듯이 이렇게 북북서서해서 도달하거나 아니면 북서북서해서 가거나 북서서북가거나 이런 식으로 갈 수 있는 경로 다 따져서 그 경로상의 누적보상이 얼마냐 그쪽 경로의 확률이 얼마냐 따져가지고 해봐야 되겠죠. 그래서 지금 여기서 이런 데

08:17:02

액션들을 중간에 취할 수 있다고 했을 때 여기에 도달할 수 있는 그런 경로 길은 여기 있는 것처럼 이렇게 6가지가 있어요. 따져보면은 각각의 6가지 중에 1분의 1의 확률로서 이쪽으로 가서 또 그 중에 1분의 1의 확률로서 이쪽으로 가서 이렇게 해서 그거를 다 따져야 되는 거죠. 그래서 이렇게 이렇게 이렇게 가서 이거는 100%의 확률이니까 뭐 2분의 1 이런 것들이 안 곱해지겠지만 그런 고백이거든요.