简介
值函数希望学习一个价值函数,这个值可以用于评估当前决策的分值。策略函数希望学习一个策略函数,拿到其动作的概率分布。
Actor-Critic是在策略函数的基础上,额外引入学习价值函数,来帮助策略函数更好地学习。
下面这个图很好表示了两者关系。
重点看actor-critic算法中update函数log_probs部分。actor采用策略,critic来进行评价。
缺失模块。
1、请确保node版本大于6.2
2、在博客根目录(注意不是yilia根目录)执行以下命令:
npm i hexo-generator-json-content --save
3、在根目录_config.yml里添加配置:
jsonContent:
meta: false
pages: false
posts:
title: true
date: true
path: true
text: false
raw: false
content: false
slug: false
updated: false
comments: false
link: false
permalink: false
excerpt: false
categories: false
tags: true