信息熵与局面难度可能存在关系

首页

排行榜

录像

雷界

论坛

教程

雷神殿

我的地盘

新手上路

[技术]信息熵与局面难度可能存在关系.精 (9/1746)

　[雷神] 王嘉宁发表于 2019年3月2日

摘要：采用图像处理领域方法，引入信息熵研究雷图。研究表明，雷图的3BV越大，则信息熵越小；3BV相同，信息熵越大，局面看起来越难。雷图信息熵作为一个易于求得、意义明确的特征值，在未来有望成为计算或衡量局面难度的重要工具。
关键词：信息熵，局面难度，图像处理方法
1.    信息熵的算法与含义
作者首先通过算法随机生成雷图，1代表雷，0代表非雷；将矩阵的边界延拓，然后对雷图3*3均值滤波后乘9；最后用公式entropy=-∑p(i)log(2,p(i))，i=0,2,…,9计算信息熵，其中p(i)表示数字i在该雷图中的比例。

最初熵在热力学领域被用来表示系统的混乱程度。后来被引入信息论领域用来定量表达信息量的大小。计算雷图的信息熵相当于定量描述雷图的“混乱程度”，对于指定的雷图，如果局面中只有1，那么计算得到的信息熵最小，如果数字0到9都出现且出现次数相同，那么计算得到的信息熵最大。

初次了解这个概念的雷友需要注意，信息熵的值只和数字的数量有关，而与数字的位置无关。
2.    信息熵与3BV关系

图1
如图，通过计算10000组（信息熵，3BV）值，可得，3BV越大，则信息熵越小。

将相同3BV，不同信息熵的雷图进行比较，图2为（173，2.078）；

图2
图3为（173，2.385）

图3
图2中有约17块OP，而图3中有约3块，作者认为他们的难度是不同的。目前已有计算局面难度算法，只能通过计算扫开后的3BV/S与个人平均3BV/S的比值。本文提出的计算信息熵的方法，可能可以无需扫开就事先计算局面难度。
3.    其他计算局面难度的思路与未来展望
谈到局面难度就不得不提起猜雷次数这个重要的特征值。目前在公开的文献中没有相关算法。这个问题将在以后被重点研究。

作者放弃的一个思路是，对雷图的每中3*3局部赋权，再加权求和。这种方法含义不明确，且权值难确定，遂放弃。

另一种思路是大量搜集同一玩家的录像，计算已知成绩的雷图的特征值，以特征值为输入，成绩为输出，训练神经网络。或者其他数据挖掘算法不再赘述。这个思路是可行的，但是有两个前提，一是选取雷图的若干特征值，上文提到的信息熵亦可成为输入神经网络的特征值之一；二是同一玩家的大量录像数据，目前没有，也不着急。
4.    结语
无

最近一次修改:2019-3-2 20:48:55

回复此主题

第 1 楼

　[状元] 龚秋源回复于 2019年3月2日

雷网贴图编辑不易，能否给个完整编辑好的文章外链？

第 2 楼

　[雷神] 王嘉宁回复于 2019年3月2日

把原word文件放在百度云；链接: https://pan.baidu.com/s/1xaWCV8NXIRAvrCV_pEc9cA 提取码: aphg

第 3 楼

　[状元] 龚秋源回复于 2019年3月2日

看完了，谈一下我的看法
1.关于熵的定义：我没有看懂“边界延拓，然后对雷图3*3均值滤波后乘9”是什么意思。比如一个给定的6*6局面，能否具体说一下是怎么计算的？
2.虽然没有透彻弄懂熵的定义，但我理解是：熵越大，局面越混乱，1-7各种数字可能都有而且比例相近；熵越小，局面越简单，全是1为主偶尔穿插几个其他小数字。如果局面全是1为主，明显比有各种4567的判雷来得简单，这是我理解的作者熵影响难度的原理，不知道理解的对不对。
3.如果上一点没错的话，那熵衡量的就是对大数字的敏感度。因为不熟练的玩家对大数字不敏感，周围雷型不熟悉，会造成判雷上的难度，使额外的时间用于思考。
4.关于举例的图2和图3：目前学界公认的是，op和is越少，局面越完整，越容易一口气解决；op和is越多代表3bv越零散，玩家也不得不移动鼠标去局面各个地方解决各个3bv，从而造成绕路及移动距离的增加，耗时增加。因此图2和图3，我觉得大部分雷友会觉得熵更大的图3更容易扫出好成绩。
5.因此，熵衡量的只是局面上大数字的种类及比例，但这个因素对于难度（指速度上的难度）的影响有待商榷。一般来说，高级45左右的玩家即不再惧怕大数字了，只要是能判的，和小数字是一样的。而45-80段可能或多或少有些影响，根据个人情况。80以上可能影响较大。
总结：作者提出了一个新的指标，用于衡量局面数字的混乱程度。但这个指标的实用性及具体意义尚需进一步确认。
附1：我隐约觉得熵和3bv以及op数量高度相关。作者有没有试过在控制3bv和op的情况下，熵取值范围波动是多少？
附2：关于局面难度的评判：目前有自动扫雷的算法，自动算出每一格概率。可以尝试让程序从同一个开局点自动扫，看看至少要几次猜，以及路线长度，作为衡量判雷上的难度。当然这计算量很大，只能用于单独分析，没法普遍应用于每一个局面计算。

第 4 楼

　[雷神] 王嘉宁回复于 2019年3月3日

对于“边界延拓，然后对雷图3*3均值滤波后乘9”举例计算：
map=

[0 0 0 0
0 1 0 0
0 0 1 0
0 0 0 1]
这个雷图有三个雷。编程时为避免讨论边界情况对其周围加一圈零。
map2=
[0 0 0 0 0 0
0 0 0 0 0 0
0 0 1 0 0 0
0 0 0 1 0 0
0 0 0 0 1 0
0 0 0 0 0 0]
均值滤波本意是取3*3范围内平均数，得
[0 0 0 0 0 0
0 1/9 1/9 1/9 0 0
0 1/9 2/9 2/9 1/9 0
0 1/9 2/9 1/3 2/9 1/9
0 0 1/9 2/9 2/9 1/9
0 0 0 1/9 1/9 1/9]
乘9后就得到我们熟知的雷图，只不过雷的位置也有数
[0 0 0 0 0 0
0 1 1 1 0 0
0 1 2 2 1 0
0 1 2 3 2 1
0 0 1 2 2 1
0 0 0 1 1 1]
最后去掉周围一圈
[1 1 1 0
1 2 2 1
1 2 3 2
0 1 2 2]

第 5 楼

　[雷神] 王嘉宁回复于 2019年3月3日

感性的理解，“雷图的信息熵越大，局面越混乱，1-7各种数字可能都有而且比例相近；雷图的信息熵越小，局面越简单，全是1为主偶尔穿插几个其他小数字。”是正确的。
这个概念是常用的，其他地方应该有更加详实的表述。但我补充一个可能存在疑问。

有人可能会问，为什么信息越整齐，信息量就越少；越混乱信息量就越大？原因是这样的，“整齐”的信息信息量的减少，是通过合理的编码实现的。为便于快速理解，举例：
求3141572610的二进制的信息量，可能有人说，用000表示0，001表示1，010表示2，...，111表示7，这样得到信息量是3*10=30个字节。
但是现代信息论告诉我们，这样的编码不是最优的，由于数字“1”在10个数字里出现了3次，超过了1/4的概率，假如把编码方式改成00表示1，1110表示0，1111表示2，010表示3，011表示4，100表示5，101表示6，110表示7，则此时的信息量就为3*2+5*3+2*4=29个字节。

上述例子旨在说明信息量随编码方式变化，而且对于指定的一段信息，存在信息量最短的编码方式。

第 6 楼

　[雷神] 王嘉宁回复于 2019年3月3日

op、is、3BV都是重要、直观地衡量局面难度的特征值这是无疑的。但我认为只有他们还不够，或者说还不够精准。

具体来说，op、is、3BV到底在何种程度上影响局面难度，谁的影响大，谁的影响小？是否对所有人都具有同等程度的影响？如果只控制这三个参数不变，是否就确实能控制时间相对不变，而不受其他因素的影响？这些问题目前都没有答案。

我给出的只是一个阶段性结论，之后会分析更多的特征值，最后综合比较（进展会很慢），这样一个思路。

第 7 楼

　[雷圣] 张少武回复于 2019年3月4日

大佬们都像爱因斯坦一样想搞个统一场么……虽然很佩服，不过不确定量太多了。op和is对局面的影响也是不稳定的，不只是数量的问题，二者数量提高确实会让效率下降，但也会降低判雷难度，同时op的形状和位置也极大影响难度。数字就更不用说了……完全不知道怎么量化难度。大佬们任重而道远啊

第 8 楼

　[状元] 龚秋源回复于 2019年3月4日

同意楼上，不确定量太多。不同流派、或者同一流派的不同玩家对不同因素都会有不同倾向，不可能相同。
什么算好图？事实上每幅图都会或多或少的猜个几次，只不过成为记录的都没炸，同样的图给别人玩可能80%都会炸。有的图适当的猜个几次就可以很快，选择来回绕路的话就快不起来，因此这还牵涉到玩家风险偏好的问题。
这方面研究方向应该是得出更多的特征值。比如熵就是衡量大数字比例的，判雷难度的特征值之一。但有更多的特征值很难被量化。想要精准量化各个特征值，并控制这些值不变从而实现时间也不变，这个目标，至少从目前来看，不现实且不实际。
还有，我还是不明白为什么要滤波。能否直接取全局上1-7数字的平均值替代？同样是衡量大数字比例的指标，有没有证据或理论基础表示熵比上述更为精准？

第 9 楼

　[雷神] 王嘉宁回复于 2019年3月4日

直接取全局上1-7数字的平均值也是一个将被分析的特征值，这个值反映了雷相邻的次数，进一步反映了雷聚集的程度。但和熵不一样，哪个有优势也说不准。至于难度问题，相信做过理工科研究的朋友都心中有数。

至于为什么用滤波这么奇怪的方法处理雷图，原因是这样做有美感。熵这个特征值与传统的特征值不同，它不是依靠机理分析的方法提出的，所以它的价值不能被立刻证明，以后会继续研究。

目前的成果只是阶段性的，说到底就是没什么用，用不着关注太多。

　　共 9 篇回复首页 | 上一页 | 下一页 | 末页现在是第 1/1 页

楼主信息

赞助广告

近期不再显示