A single interaction is often nonbeneficial,so repeated interaction strategy is given.
重复交互可以使Agent彼此共享信息,通过惩罚来达到系统的平衡,惩罚是通过忽视被惩罚的Agent的询问来实现的。
Copyright © mingxiaow.com All Rights Reserved. 杭州优配网络科技有限公司 版权所有 未经书面允许不得转载、复制信息内容、建立镜像
本网站内容仅供参考,请以各学校实际情况为主!内容侵权或错误投诉:841539661@qq.com 工信部备案号:浙ICP备20019715号