강화 학습 입문하기[2] - 마르코프 프로세스
마르코프 모델의 계층적 발전: MP, MRP, MDP앞서 강화학습이 순차적 의사결정 문제를 다루는 방법론임을 살펴보았습니다. 이제 이러한 순차적 의사결정 문제를 수학적으로 모델링하는 세 가지 핵심 개념, 마르코프 프로세스(MP), 마르코프 보상 프로세스(MRP), 마르코프 결정 프로세스(MDP)에 대해 간단히 설명드리겠습니다.1. 마르코프 프로세스 (Markov Process, MP)가장 기본적인 모델로, 시스템이 여러 상태(state) 중 하나에 존재하며, 시간에 따라 한 상태에서 다른 상태로 전이(transition)하는 확률만을 고려합니다.현재 상태만 알면 미래 상태의 확률 분포를 예측할 수 있는 마르코프 성질을 만족합니다.즉, 과거의 상태는 현재 상태에만 영향을 주고, 미래는 오직 현재 상태에만 ..
더보기