Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- javascript
- 이중구조분해할당
- catastrophic forgetting
- 인공지능
- 순차적의시결정
- 상태가치함수
- 시간차학습
- AI투자
- MDP
- 장고
- Voltage Drop
- 마르코프 보상 프로세스
- Django
- Power Loss
- 모델-프리 강화학습
- 행동가치함수
- 동적계획법
- mrp
- MP
- 강화학습
- fine grained
- 인프런
- 인공지능 학회
- python
- 투자일기
- 마르코프 결정 프로세스
- 마르코프 프로세스
- 자바스크립트
- stability-plasticity trade-off
- javacript
Archives
- Today
- Total
목록2025/07/09 (1)
점점 미쳐가는 개발 일기

강화학습 문제는 문제의 크기와 환경(MDP) 모델 정보의 유무에 따라 크게 분류할 수 있습니다. 각각의 분류 기준에 따라 적용되는 알고리즘과 학습 방식이 달라집니다.문제의 크기에 따른 분류소규모 MDP (Small-scale / Tabular)상태(state)와 행동(action)의 개수가 적어, 모든 상태-행동 쌍을 표(테이블) 형태로 명시적으로 저장·관리할 수 있는 문제입니다.(예: 체스 엔드게임, 작은 격자 환경(gridworld), 간단한 게임 등) 적용 방법 테이블 기반 저장: 모든 상태-행동 쌍에 대해 가치 함수($V(s), Q(s, a)$) 값을 테이블에 저장하고, 반복적으로 업데이트충분한 탐험: 에이전트가 충분히 환경을 탐험하면 모든 상태-행동 쌍을 직접 방문하여, 경험을 바탕으로 정확한 ..
인공지능/Reinforcement Learning
2025. 7. 9. 14:32