登录 [F2] | 注册 | 找回密码 | 软件下载 | 更新历史 | 关于本站 | 管理团队
首页 排行榜 录像 雷界 论坛 教程 雷神殿 我的地盘 新手上路
[技术]【计划】扫雷AI开发初步计划:目的、可行性、安全性 (10/1202)
 [雷神] 王嘉宁 发表于 2021年2月3日
目的:(1)闲着没事观看AI在与人类相同条件下的决策过程。(2)找到人类玩家目前的技术短板。(3)了解DRL算法能否用于伪造录像。
目标:依托黑猫扫雷软件,将AI模块嵌入其中。最终可以在黑猫扫雷里方便地观看AI如何扫雷。
算法:基于pytorch开发。方案一:状态为2通道矩阵,记录局面状态和鼠标位置;动作为3通道矩阵,代表在局面中相应位置的L/R/D操作,环境为标准扫雷规则,采用PPO算法。方案二:状态为2通道矩阵,记录局面状态和鼠标位置;动作为3维连续量,代表在局面中(x,y)位置的L/R/D操作,用连续动作空间强化学习代替混合动作空间(位置是连续量,点哪个键是离散量)强化学习,采用TD3算法。环境为标准扫雷规则。方案三:采用PPO+TD3混合算法(双智能体合作博弈)求解此混合动作空间强化学习模型。
安全性:对网络参数加密,加密、解密、训练文件不开源。因此只有在黑猫扫雷能观看,无法用于制作攻击Arbiter的AI。
难点:(1)在实践层面,软件直接打包体积可能过大(约2G),看接受程度视情况优化。(2)方案一为离散动作解决方案,与alphago的设计思路相似,缺点是状态、动作维度极高,分别为960、1220维,收敛慢。方案二维度为960、3维,缺点是用连续动作空间强化学习代替混合动作空间强化学习,收敛性缺少证明。貌似方案三最好没有缺点。
示意图如下图所示。

最近一次修改:2021-2-6 1:19:45
回复此主题
第 1 楼
 [雷神] 苗晓正 回复于 2021年2月3日
大的!
第 2 楼
 [雷圣] 濮天羿 回复于 2021年2月3日
可以依托服务器计算,不给客户端下放ai程序,服务器也可以保存每局数据防止被滥用
第 3 楼
 [雷神] 王嘉宁 回复于 2021年2月3日
计算拟定用个人PC的算力,大约要算几天。国内免费服务器的算力比较弱,谷歌的服务器只能用12小时。客户端计划放一份加密的参数文件,大约几兆。就是说拟定神经网络结构公开,但参数不公开,训练出该参数的模块也不公开。
第 4 楼
 [状元] 龚秋源 回复于 2021年2月5日
支持,期待进一步成果
第 5 楼
 [雷神] 苗晓正 回复于 2021年4月8日
铲来,虽然计划没什么声音了,但还是羡慕有计划就能出东西的各位
第 6 楼
 [雷神] 苗晓正 回复于 2021年4月8日
btw,path扣分好餐饮,无情!
第 7 楼
 [雷神] 王嘉宁 回复于 2021年4月8日
这个计划要等黑猫扫雷基本稳定以后才能实施
第 8 楼
 [雷神] 王嘉宁 回复于 2021年4月8日
然后要看放多少假
第 9 楼
 [雷圣] 翁逸杰 回复于 2021年4月8日
纯脑洞,设置path扣分的话会不会出现训练到最后AI发现不扫是最优解的情况(x
第 10 楼
 [雷神] 王嘉宁 回复于 2021年4月9日
回楼上,奖励(reward)的设置正是强化学习里很重要的东西
  共 10 篇回复  首页 | 上一页 | 下一页 | 末页  现在是第 1/1 页
楼主信息
Copyright @ 2008 扫雷网 Saolei.wang 版权所有 陕ICP备19026089号-1