摘要:   很早之前看到这篇文章的时候,觉得这篇文章的思想很朴素,没有让人眼前一亮的东西就没有太在意。之后读到很多Multi Agent或者并行训练的文章,都会提到这个算法,比如第一视角多人游戏( "Quake III Arena Capture the Flag" )的超人表现,Neu阅读全文
posted @ 2019-03-12 20:06 initial_h 阅读(182) 评论(0) 编辑
摘要: AlphaZero Gomoku MPI Link Github : "AlphaZero Gomoku MPI" Overview This repo is based on "junxiaosong/AlphaZero_Gomoku" , sincerely grateful for it. I阅读全文
posted @ 2018-12-14 13:34 initial_h 阅读(410) 评论(0) 编辑
摘要:   之前看MADDPG论文的时候,作者提到在离散的信息交流环境中,使用了Gumbel Softmax estimator。于是去搜了一下,发现该技巧应用甚广,如深度学习中的各种GAN、强化学习中的A2C和MADDPG算法等等。只要涉及在离散分布上运用重参数技巧时(re param阅读全文
posted @ 2018-08-13 17:03 initial_h 阅读(4629) 评论(0) 编辑
摘要: "MADDPG原文链接" "OpenAI bog" "DDPG链接" 目录 "一.摘要" "二.效果展示" "三.方法细节" "问题分析" "具体方法" "伪代码" "网络结构" "四.实验结果" "五.总结" "附录" "Proposition 1" 一.摘要   文章探索了多阅读全文
posted @ 2018-08-06 13:15 initial_h 阅读(1117) 评论(0) 编辑
摘要: "论文链接" "油管链接" 一、摘要   当环境奖励特别稀疏的时候,强化学习方法通常很难训练(traditionally struggle)。一个有效的方式是通过人类示范者(human demonstrator)提供模仿轨迹(imitate trajectories)来指导强化学阅读全文
posted @ 2018-07-28 12:53 initial_h 阅读(421) 评论(0) 编辑
摘要: MDP概述   马尔科夫决策过程(Markov Decision Process)是强化学习(reinforcement learning)最基本的模型框架。它对序列化的决策过程做了很多限制。比如状态$S_t$和动作$a_t$只有有限个、$(S_t,a_t)$对应的回报$R_t$山西快乐十分走势
posted @ 2018-07-17 10:52 initial_h 阅读(871) 评论(0) 编辑
  • 高温“烤验”,品读这些自带凉意的避暑诗词 2019-05-19
  • 2015科教频道中秋晚会《天涯共此时》 2019-05-19
  • 特朗普政府用政治“边缘政策”处理贸易问题是玩火 2019-05-17
  • 高清:探访苟坝见证历史 红军在此留下珍贵遗物 2019-05-15
  • 交通小事故,几分钟就能处理完 2019-05-15
  • 在现时代,无论中国还是西方发达国家都是社会财富公有制和私有制并存的社会,由于仍旧存在社会财富私有制,所以必然存在贫富差别,离开私有制来谈“贫”和“富”... 2019-05-15
  • 【学习时刻·经济实说②】管清友:中央经济工作会议的十大亮点 2019-05-15
  • 绿染江源,千湖归来——三江源生态保护建设取得阶段性成效 2019-05-13
  • 把握和传承好“变则通”思想(大家手笔) 2019-05-13
  • 5月份70个大中城市商品住宅销售情况:一线城市商品房价格同比持续下降 2019-05-08
  • 官方:装备管理失职 恒大俱乐部总经理等人遭处罚 2019-05-01
  • 中共一大代表中最早辞世的王尽美:3首小诗与27年人生 2019-04-29
  • 不管怎么修饰辞藻,只要放弃革命,就是苏联的结果,还用证明吗? 2019-04-27
  • 新和县:12333为参保群众提供咨询便利 2019-04-22
  • 秋冬进补“小人参” 称霸国人餐桌3000年 2019-04-22
  • 796| 306| 622| 503| 925| 694| 590| 900| 916| 966|