测试数据
对于每一局游戏来说我们都希望记录一组能够反映牌运气好坏的数据,数值越高,证明获胜的几率越大。我们想到的一个方案是评估在一局绝对公平、无偏袒性的游戏里,这些测试数据的取值,再和我们怀疑可能存在偏向性的游戏中记录的数据值进行比较。
一旦最初的十张牌都确定下来,我们就能计算出“保证轮数(guaranteed turns,GT)”,即玩家在被迫更换至另一排之前能够确定亮出的牌的最少数目。无论何时,当新的一排的十张牌已经确定下来后,我们都可以做一个类似的计算,假装它是新的一局游戏的开始。这样一来我们就可以计算出GT的平均值(AGT)。如果几轮下来GT的值很小,那么玩家就要有麻烦了。要说明的是AGT和玩家本身无关,所以很容易通过进行很多次实验(即确定很多排)来模拟出AGT的概率分布。
经验来谈,如果卡牌的整体分布比较糟糕的时候,玩家同样会陷入麻烦。比如说有七张Q但是只有两张J没有打出来的时候,即使你有一列或者多列已经清空,仍然会有问题出现。因此在这里定义一个整体方差(total square variation,TSV),取值为相邻大小的牌的数目的负的平方之和。在刚才的例子里,七张 Q 和两张 J 在求和时会贡献出 -(7-2)2=-25 一项。这里取负值是为了确保 TSV 的增减性与获胜概率的增减性一致,就和AGT一样。每亮出一张新牌我们就计算一下TSV,这样我们可以算出来单局游戏的平均TSV(ATSV)。要提起注意的是ATSV同样与玩家无关,我们假定玩游戏的玩家会按照一个随机顺序把所有扣着的牌都亮出来(尽管玩家可以选择先亮哪张牌,但是亮出的每张牌概率是一样的)。幸运的是这一点可以通过模拟很容易就做到。
蜘蛛纸牌的典型散点图(○=获胜,×=落败)
一个典型的散点图如上图,这里蓝色圆圈和红色叉叉依次表示获胜和落败。
模拟结果显示对于没有偏袒的游戏程序而言,在大量局数的游戏之后,AGT应该等于3.96而ATSV应该等于-32.29。在下面这个示例的起始位置中,GT=1,TSV=-42,因为这局游戏还没结束,我们还不知道AGT和ATSV的值是多少。
示例,起始位置GT=1,TSV=-42
计算如下:
假设检验
为了检验一个蜘蛛纸牌游戏是不是有偏向性,我们采用一种叫假设检验的手段。我们先制定一个零假设(意思就是我们怀疑的效应可能不存在),在我们这里是指“蜘蛛纸牌程序并不存在偏向性”,那互补的假设就是“蜘蛛纸牌程序故意使绊子使得玩家的胜率下降”。
首先选取一个较大的数N作为待检测的蜘蛛纸牌游戏的局数,然后每一局我们计算一次AGT和ATSV。接下来的总体思路是求出我们要比对的观察结果的概率(即P值),或者更极端一点说,零假设为真(即程序没有偏向性)的概率。如果概率低于某一个阈值(即显著性水平),一个没有偏向性的程序就不太可能产生我们在N局游戏中观察到的这种AGT和ATSV值,那我们就拒绝零假设并且得到“游戏有偏向性”的结论。
那我们如何计算得到 p 值,即观察到我们已经观察到的AGT和ATSV值(这证明游戏没有偏向性)的概率呢?在模拟中我们已经得到了在无偏向性的游戏中AGT和ATSV的期望值,依次是3.96和-32.9。更有意思的是,概率论会告诉我们,在无偏向性的游戏中AGT和ATSV的值是如何分布的,换句话说,它可以帮助我们计算出观察到某一特定AGT和ATSV值的概率。所谓的“学生 t 检验”可以把所有这些数值考虑进去并得出我们想要的p值。详细内容这里略过,有兴趣的可以参照概率与统计的相关内容。
从本文的角度出发我们选择 N=100 作为我们玩这个待检验的游戏程序的局数,得到了显著性水平值为 0.05。
胜率估计
除了AGT和ATSV之外,我们也想评估一下对于“无偏向性”的蜘蛛纸牌程序来讲,“真正的”获胜概率。一个明显的困难在于胜率是和玩家有关的,所以很难验证“一个玩家能赢50%的游戏”这种说法。另一个情况是我在不同的蜘蛛纸牌游戏程序中得到了从45%到60%的胜率,而且没有证据显示我在使用这些程序的过程中胜率有所提高(也就是说,我的胜率并不随着时间增加而呈现出正相关)。
一个比较有意思的免费在线纸牌游戏网站 Pipkin's Idiot's Delight Solitaire Server,这里面包含了许许多多的纸牌游戏。它允许玩家在从1到999999的数字中指定一个“种子数”。举例来说,如果种子数为142857,起始的10张牌就总是2J56J9JQ59这几张,但是组合方式会不同。要注意的是,要是玩家在游戏之前随机生成一长串种子数,那么程序就不能根据玩家的胜率来调整难度水平了。正是因为这个原因,可以选择这个网站来估计胜率。
在零假设为真的时候拒绝零假设被称为第一类错误,它出现的概率等于显著性水平。假说检验中的另一类错误被称为第二类错误,它是指在零假设为假的情况下接受零假设。
我在Idiot's Delight上玩了100局游戏,使用了从1到100的种子数。最终我赢了59局,输了41局。所以我估计我在玩“无偏向性”的蜘蛛纸牌游戏的时候胜率会在59%左右。
估计值
我在Free Spider Solitaire上玩了100局蜘蛛纸牌游戏。虽然选择了在这里玩游戏但是试验之后,这里的游戏体验真的很“糟糕”:尽管可以赢,但是就算高手玩家玩起来也会很困难。每一局游戏记录下游戏的输赢结果以及AGT和ATSV数据。我观察到AGT和ATSV的p值依次是 0.115 和 0.201。这意味着AGT和ATSV的数据都要低于预期(也就是说,玩家会吃亏),但是因为这两个数值都高于我们的0.05的阈值,它们在统计上都不显著:这可能是因为偶然变化导致了较低的值的出现。
不幸的是我只赢了其中的46局,比预期少了13局。这说明可能还需要进一步测试验证。然而要知道每个玩家的胜率都不一样,我很有可能在这100局里还没有发挥出最佳状态。
从中我给出的结论是没有足够的证据证明Free Spider Solitaire上的程序是有偏向性的。46局的胜局数是有一点让人沮丧,但是确实,这次这个程序经受住了考验。然而其他的蜘蛛纸牌程序可能就没这么幸运了。
作者:Trevor Tao
翻译:Dannis
审校:Nuor
原文链接:
https://plus.maths.org/content/spider-solitaire
tian
福
tian
利
xiang
时
shang
间
今天我们将送出由机械工业出版社提供的优质科普书籍《天才与算法》。
美、英两国双料院士马库斯·杜·索托伊先生巅峰作品。我们即将进入一个由算法主导世界,AI将在绘画、音乐、写作等向人类发起挑战,作者用数学帮我们理解算法及创造力的本质,帮助人类去创造一个人与机器共存的美好未来。
阅读本书,你将会惊叹思维之美妙、见识之广博,更会惊叹人类的创造力有着如此严密的逻辑和音符般的节奏。
【互动问题:你在生活中还运用过哪些具体的统计学知识?】
请大家严格按照 互动:问题答案的格式在评论区留言参与互动,格式不符合要求者无效。
*本活动仅限于微信平台
编辑:aki
↓ 点击标题即可查看 ↓
1. 套娃吗?你先看这个岛中湖中岛中湖中岛
2. 都靠这位天才科学家20岁时的论文,你才能用手机拍照发朋友圈
3. 朝天空开枪,子弹掉下来还有杀伤力吗?| No.206
4. 乐高还能悬浮在半空中?上百万人已看懵!
5. 古装片的射箭动作把物理学家看笑了,导演咱能不能专业点?
6. 即使被它淹没也不会窒息,这是什么神奇液体?
7. 数学课上捡了个橡皮,勾股定理就看不懂了
8. 物理学写给你的情书
9. 唯一两次获得诺贝物理学奖的人,你却不一定认识他
10. 妈妈问我的桌子为什么这么乱!返回搜狐,查看更多