Ml Reinforce

less than 1 minute read

에이전트 = 프로그램

순서 : 엑션 -> 보상 -> 상태변경, 이걸 계에에에속 반복하면서 학습하기

비지도 학습 vs 지도학습 vs 강화학습

비지도학습 : input만 주어지고 정답없음, 함수찾기

지도학습 : input과 정답이 같이 주어짐 , 패턴(군집) 구분하기

강화학습 : 행위와 보상의 관계, 최대 보상을 받는 경우 찾기(제일 개꿀빨 수 있는 알고리즘 찾기)

마르코프 결정과정 : 과거의 영향을 생각하지 않으면서 미래의 상태를 예측하는 모델

과거의 영향을 고려하지 않는 이유는 궤적에서 어떠한 상태는 이전의 모든 상태에 대한 정보를 포함한다고 가정하는데, 이를 마르코프 속성(markov property)이라고 부른다.

강화학습 예시 : 막대기 중앙에 새우기 위해서는 강하게 새게 치는것보단 약하게 살삭 치는게 좋다 -> 적당히 약하게 치면 보상 많이 주기

Ts