DevilKing's blog
冷灯看剑,剑上几分功名?炉香无需计苍生,纵一穿烟逝,万丈云埋,孤阳还照古陵
Home
Categories
Tags
Archives
0%
Q-learning
Posted on
2021-02-04
In
ML
原文链接
通过reward值,可以形成矩阵
将agent的每一次探索称为一个episode,即从任意初始状态到达目标状态