The objective is to find an optimal policy which maximizes the expected average reward per time step over infinite horizon.

 
  • 目的是尋找使得長(cháng)期每階段期望平均報酬最大的最優(yōu)控制策略。
今日熱詞
目錄 附錄 查詞歷史
国内精品美女A∨在线播放xuan