'마르코프 결정 프로세스' 태그의 글 목록

본문 바로가기

마르코프 결정 프로세스

강화 학습 입문하기[5] - Prediction과 Control Prediction과 Control: 강화학습의 두 핵심 문제지금까지 강화학습의 기본 구조와 가치 함수에 대해 살펴보았다면, 이제 실제로 강화학습 문제를 해결할 때 반드시 마주하게 되는 두 가지 핵심 문제—Prediction(정책 평가)과 Control(정책 최적화)—에 대해 알아보겠습니다.Prediction 문제 (정책 평가, Policy Evaluation)Prediction 문제란, 주어진 정책 $\pi$가 있을 때, 그 정책을 따를 경우 각 상태 $s$의 기대 누적 보상(가치 함수 $V_\pi(s)$ 또는 $Q_\pi(s,a)$)을 평가하는 문제입니다. 실제 환경에서 정책이 얼마나 효과적인지, 즉 "이 정책을 따르면 장기적으로 얼마나 많은 보상을 받을 수 있는가?"를 정량적으로 평가해야만 정책의 .. 더보기

강화 학습 입문하기[4] - 마르코프 결정 프로세스 마르코프 결정 프로세스(Markov Decision Process, MDP)란? 앞서 상태 가치 함수와 그 한계를 살펴보았으니, 이제 마르코프 결정 프로세스(MDP)에 대해 본격적으로 알아보겠습니다. MDP는 강화학습에서 순차적 의사결정 문제를 수학적으로 모델링하는 가장 대표적인 프레임워크입니다. MDP는 단순히 상태의 전이만을 고려하는 것이 아니라, 에이전트가 각 상태에서 선택할 수 있는 다양한 행동(action)까지 명시적으로 모델링합니다. 이를 통해, 각 상태에서 어떤 행동을 선택해야 장기적으로 기대 보상을 최대화할 수 있을지 체계적으로 학습할 수 있습니다. MDP의 구성 요소 MDP는 다음과 같은 다섯 가지 핵심 요소로 정의됩니다. $S$ (상태 집합, States): 에이전트가 처할 수 있는 모.. 더보기

강화 학습 입문하기[3] - 마르코프 보상 프로세스 마르코프 보상 프로세스(Markov Reward Process, MRP)란? 앞서 마르코프 프로세스(MP)가 상태 간의 전이만을 다루는 모델임을 살펴보았습니다. 이제 여기에 보상(Reward)의 개념을 추가한 마르코프 보상 프로세스(MRP)에 대해 알아보겠습니다.1. MRP의 정의 MRP는 MP에 보상 함수를 추가한 모델입니다. 시스템이 어떤 상태에 도달했을 때, 그 상태에서 받는 보상을 함께 고려합니다. 즉, 상태 전이뿐만 아니라, 각 상태에서 받는 보상까지 함께 모델링합니다. MRP는 다음과 같이 네 가지 요소로 정의됩니다. $S$ (상태 집합): 시스템이 가질 수 있는 모든 상태들의 집합 $P$ (전이 확률 행렬): 한 상태에서 다른 상태로 이동할 확률 $R$ (보상 함수): 각 상태에 도달했을 때.. 더보기

강화 학습 입문하기[2] - 마르코프 프로세스 마르코프 모델의 계층적 발전: MP, MRP, MDP앞서 강화학습이 순차적 의사결정 문제를 다루는 방법론임을 살펴보았습니다. 이제 이러한 순차적 의사결정 문제를 수학적으로 모델링하는 세 가지 핵심 개념, 마르코프 프로세스(MP), 마르코프 보상 프로세스(MRP), 마르코프 결정 프로세스(MDP)에 대해 간단히 설명드리겠습니다.1. 마르코프 프로세스 (Markov Process, MP)가장 기본적인 모델로, 시스템이 여러 상태(state) 중 하나에 존재하며, 시간에 따라 한 상태에서 다른 상태로 전이(transition)하는 확률만을 고려합니다.현재 상태만 알면 미래 상태의 확률 분포를 예측할 수 있는 마르코프 성질을 만족합니다.즉, 과거의 상태는 현재 상태에만 영향을 주고, 미래는 오직 현재 상태에만 .. 더보기

이전 1 다음

티스토리툴바