在这篇论文中,作者提出了一种使用联邦学习优化强化学习算法的方法,这个方法的特点在于少见,引起了我的极大兴趣。该论文的独特之处不仅在于算法的设计,还在于作者在论文中提到的一些有趣且少见的细节。
论文地址:
http://xwxt.sict.ac.cn/CN/Y2024/V45/I7/1552
PS:
这篇论文中提到的学习率使用了数据量占一次优化总数据量的大小作为学习率。这种操作具有独创性,但其可行性尚不明确,这值得进一步探讨。
PS:
在论文中,状态转移概率和策略的动作选择概率出现了相似之处。同时,论文中提到的AC算法或PPO算法未使用V函数,而是使用Q函数,这种做法虽然不常见,但也值得关注。
PS:
论文提到的重要采样角度便于理解,但未必符合理论解释。此外,论文中出现了状态转移概率取代策略动作概率的情况。值得一提的是,该算法同时在critic部分输出V函数值和Q函数值,这在强化学习算法中并不常见。
PS:
论文中的公式5和公式9虽然相似,但出现了一定差异。此外,论文中在公式10中引入了两个超参数
\(\lambda_1\)
和
\(\lambda_2\)
,这点颇具独创性。另外,论文采用了“一层全连接网络”的方法,这在强化学习算法中并不常见。
PS:
在接下来的部分,又出现了两层全连接网络,这似乎存在些许矛盾。
PS:
在这篇论文中,一些操作和说法引起了我的关注,例如在输入数据上加噪音被称作攻击,这在强化学习领域还不常见,其意义值得深入探讨。
PS:
在论文的攻击性研究中,作者提到输入数据的加噪音可以改变输出动作的动作空间,这一点颇为新奇。同时,论文中还提及强化学习算法在输入的状态和动作的基础上生成新的动作,这一设想颇为前卫。
论文中的观点和论述十分引人注目,但灌水和造假仍需慎重对待。对于国内论文质量的提升,仍有进步的空间。
PS:
这篇论文的研究方法和结论引人深思,作者关于在输入数据上加噪音可以改变输出的动作空间的观点颇具开拓性,值得业界深入探讨。