RLHF-Actor-Critic

2024-05-07

简介

值函数希望学习一个价值函数，这个值可以用于评估当前决策的分值。策略函数希望学习一个策略函数，拿到其动作的概率分布。

Actor-Critic是在策略函数的基础上，额外引入学习价值函数，来帮助策略函数更好地学习。

下面这个图很好表示了两者关系。

重点看actor-critic算法中update函数log_probs部分。actor采用策略，critic来进行评价。

jsonContent: meta: false pages: false posts: title: true date: true path: true text: false raw: false content: false slug: false updated: false comments: false link: false permalink: false excerpt: false categories: false tags: true