It is rational to adopt the average reward reinforcement learning algorithms for solving the absorbing goal states cyclical tasks: It has the merit of converging quickly and robustly.

 
  • 摘要對于有吸收目標狀態(tài)的循環(huán)任務(wù),比較合理的方法是采用基于平均報酬模型的強化學(xué)習。平均報酬模型強化學(xué)習具有收斂速度快、魯棒性強等優(yōu)點(diǎn)。
今日熱詞
目錄 附錄 查詞歷史
国内精品美女A∨在线播放xuan