전체 글 썸네일형 리스트형 강화학습을 이용한 Top-K 추천시스템 이번 포스트에서는 "Top-𝐾 Off-Policy Correction for a REINFORCE Recommender System" (https://arxiv.org/pdf/1812.02353.pdf)라는 논문을 소개하고자 한다. Introduction Objective 아이템 추천으로 유저의 장기적인 만족도를 최대화할 수 있는 RL Agent 학습 Challenges Large, non-stationary state and action space: 추천시스템 문제를 MDP로 모델링하기 위해 유저의 취향을 state, 추천할 아이템을 action으로 정의한다. 유저의 취향은 매우 복잡하고 시간에 따라 변한다. 아이템의 개수는 무수히 많고 새로운 아이템이 계속 유입된다. Off-policy trainin.. 더보기 이전 1 2 3 4 다음