2025/07/10 썸네일형 리스트형 강화 학습 입문하기[11] - 동적계획법: Value Iteration 앞서 Policy Iteration이 정책 평가와 정책 개선을 번갈아 수행하는 구조였다면, 이번에는 Value Iteration이 어떻게 이 두 과정을 하나로 결합해 훨씬 더 효율적으로 최적 정책을 찾는지 설명하겠습니다.Value Iteration의 핵심 아이디어Value Iteration은 정책 평가와 정책 개선을 “한 번에” 진행합니다. 각 반복에서 벨만 최적 방정식(Bellman Optimality Equation)을 바로 적용하여, 가치 함수($V_*$)를 한 단계씩 최적에 가까워지게 만듭니다. 가치 함수가 충분히 수렴하면, 그때의 가치 함수로부터 최적 정책을 바로 도출할 수 있습니다. 알고리즘 목표 및 입력/출력은 다음과 같습니다. 입력 상태 전이 확률 $P(s'|s, a)$보상 함수 $R(s,.. 더보기 강화 학습 입문하기[10] - 동적계획법: Policy Iteration 정책 평가(Policy Evaluation)와 정책 개선(Policy Improvement)이라는 두 가지 핵심 개념을 살펴보았습니다. 이제 이 두 가지를 결합한 Policy Iteration에 대해 자세히 알아보겠습니다.Policy Iteration의 핵심 아이디어Policy Iteration은 정책 평가와 정책 개선을 번갈아 수행하며 최적 정책으로 수렴시키는 방법입니다. 이 과정의 핵심은 현재 정책이 더 이상 개선되지 않을 때까지 이 두 단계를 반복하는 것입니다. 수학적으로 표현하면, 목표는 다음과 같습니다: 입력: 초기 정책 $\pi_0$ (임의 지정)출력: 최적 정책 $\pi^*$와 해당 가치 함수 $V_{\pi^*}(s)$알고리즘의 구체적인 흐름1. 초기화 단계먼저 임의의 정책 $\pi_0$에서.. 더보기 강화 학습 입문하기[9] - 강화학습과 동적계획법 강화학습에서 동적 계획법(Dynamic Programming, DP)은 복잡한 순차적 의사결정 문제를 체계적으로 해결하기 위한 핵심 최적화 기법입니다. DP의 원리와 강화학습에서의 실제 활용 방식을 단계별로 정리해보겠습니다.동적 계획법(DP)이란? 동적 계획법(DP)은 여러 단계에 걸쳐 발생하는 복잡한 결정 문제를 효율적이고 체계적으로 최적화하기 위한 수학적 기법입니다. ‘동적(Dynamic)’: 문제를 시간의 흐름에 따라 여러 단계로 쪼개어, 각 단계별로 순차적으로 해결한다는 의미입니다.‘계획법(Programming)’: 프로그래밍 언어와는 무관하며, 1940~50년대 수리 계획법(mathematical programming)에서 유래한 용어로, 각 단계별로 미리 계획을 세워 최적의 해를 찾는다는 뜻입.. 더보기 이전 1 다음