![Rank: 3](templates/yantan/img/star_level1.gif) ![Rank: 3](templates/yantan/img/star_level1.gif) ![Rank: 3](templates/yantan/img/star_level1.gif)
- UID
- 14746
- 帖子
- 1347
- 精华
- 2
- 性别
- 男
- 注册时间
- 2010-4-18
访问个人博客
|
85楼
发表于 2012-2-19 22:39
| 只看该作者
本帖最后由 wolfzhang 于 2012-2-19 22:42 编辑
原文链接:http://blog.sina.com.cn/s/blog_a06ed1e40100wppe.html
也谈贝叶斯分析以及吐槽(2012-02-05 05:27:40)转载▼标签: 杂谈
方尺规
在进入正题之前,我想先吐槽一下:我非常理解韩寒现在退出这场争论,除了骄傲与自尊的因素外,更是因为韩黑方的主力们已经深深陷入了一种自说自话的意淫状态。请重温一下哈维尔对话守则“5.不要坚持错误不改”“6.要分清对话与只准自己讲话的区别”。如果对话的一方不能保持倾听和自我审视,那么另一方除了争锋相对,把对话变成一场毫无意义的争吵之外,剩下的只有沉默而已。
对于 “方不败”“方教主”我已经不想多说什么了。凡举各类逻辑错误,我顶多也就怀疑方教主从大学开始的各类考试和论文是代笔的,文凭是伪造的,因而逻辑水平低下。但简单的事实错误被指出后,不更正和道歉,还死皮赖脸的将虚假事实和以此作出的推论挂在网上,利用自己的网络话语权和公信力,让人误以为其质疑都是基于“事实”。我如果和这样的“假打”斗士当面对质,怕会忍不住用喷某个中年猥琐男一脸鲜橙多。
优等生彭同学一直试图在展示自己的逻辑和理性,但是在看到她博文的如下内容后,我败退了:
挺韩一方,目前唯一硕果仅存的辩护词是:
“你不能证实你的观点,所以别跟我争论!”
“你不能证实你的观点,所以你不能再说韩寒有代笔了!”
我勒个去, 感情您压根儿没看挺韩方的文章,一直是在跟一台理想图灵机辩论,好歹你也去翻翻@马日拉 的博客,不说你完全同意,至少请把那些你觉得已经得到解释的质疑从你们的List 上划掉, 而觉得哪些解释尚不充分,请说明理由。
言归正传,关于贝叶斯方法,我要谈几点看法:(参见 @老师木 @火车是运茶的 相关博文)
1.先验分布的假设
(ps:彭同学谈到“诉诸无知”的概念,这在形而上的逻辑框架内是一种谬误,在统计应用中却是一个无法回避的基本假设)
一个命题的真伪,用一个0-1 变量 Y 来表示(Y=1 代表异常事件如 “黑衣人是贼”“韩寒有代笔”等), 在没有先验知识的时候,我们无偏假定P(Y=0)=P(Y=1)=0.5。这个假设就是基于我们对这个命题一无所知。但是等一下,难道我们是在讨论 “上帝有没有养狗吗”? 我们讨论的是一个“作家是否代笔”的问题。 如果是一个纯客观问题,例如“方教主是否生病”,我会推荐使用“先验经验分布”来决定“先验分布”,即: 如果世界上所有的“打假斗士”有90%都是健康的,我们便设P(Y=0)=0.9, P(Y=1)=0.1。 只是这个先验经验分布有时很难估计。而如果一个命题涉及到人的权利时,我们通常还会受到道德和法律上的预设约束。 法律和道德都要求我们,对一个“陌生人”(无先验信息), 我们应当以大概率相信其是无辜的即“无罪推定”。数学上就是要求我们将 “有罪”这一事件的先验概率设得小些,越是严重的罪行越要如此。譬如,在民事案件中,我们谨慎地假定 P(Y=1)=0.05,而在刑事案件中,我们要“宁可放过一千,不可错杀一个”,相当于预设P(Y=1)<0.001。(具体数值与量刑轻重有关,仅供法律界人士参考)。
2.独立性假设
@火车是运茶的 把黑衣人问题作了两遍, 可惜还是漏了“好人做出几种反常行为的相关性”,而忽略这种相关性是对嫌疑人极端不利的。 我们设想我们遇上了一个带麻袋的蒙面黑衣人砸窗进入珠宝店,如果该黑衣人是个好人,黑衣蒙面是万圣节的cosplay装束,那么多带个麻袋作为道具也不算太奇怪吧。 黑衣人可能就是珠宝店店主,平时都会记得带钥匙, 而恰巧今天全身上下换了装束,导致钥匙丢在平时穿的衣服兜里了,可能性也不小吧。因而 P(X|Y=0) 实际上远远大于独立性假设下的值,而黑衣人的嫌疑 P(Y=1|X) 却大大减小了(凡是能看懂的都会算,计算从略)。结论:“好人做出几种反常行为的相关性”是用弱证据合成强证据的最大障碍。
3.无偏采样
任何统计方法,都要求样本的采集是没有偏见的,即无偏采样(non-biased sampling)。 一旦使用贝叶斯分析,就必须没有偏见的使用所能采集到的所有信息。在黑衣人案例中,假设我们看见黑衣人旁边有两个警察,我们就得到了一个有利于黑衣人的后验信息X6,
P(X6| Y=0)>> (X6| Y=1),使得黑衣人嫌疑大大减小。所以,我们在判断黑衣人是否是贼时,不能忽略任何有效信息。如果不能做到无偏采样,甚至反而预设立场的主动寻找有利于自己的证据,无论多少弱证据都无法得出结论,因为更多与之相反的证据很可能被忽略了。请所有的黑韩方自我检查:你在尽可能罗列了所有不利于韩寒的疑点时,是否同样尽可能罗列了所有有利于韩寒的证据?有人会说这种证据理应由挺韩方提供。 我的意见是,有这种想法的人显然没有把自己放在一个真正的理性质疑者的位置上。更何况那些故意忽视了挺韩方提出的证据的人。结论:黑韩方和挺韩方(黑韩方尤其严重)犯了偏差采样的统计学错误。
最后,结合《书店(一)》,方舟子的博文《“天才”韩寒《书店(一)》分析》谈谈:(很多疑点解释参照马日拉的博文)
再重申一遍证据的要求:如果一个事件X,在“韩寒代笔”(Y=1)的情况下发生的概率明显大于在“韩寒没有代笔”(Y=0)情况下发生的概率,即 P(X | Y=0)< (X | Y=1) 则为一个不利(于韩寒的)证据,相反则为一个有利证据。
首先,在这个案例中,不利的弱证据间有较强的正相关性而导致难以合成强证据的最大理由是:“文学作品是可以虚构的”,理论上讲,只要韩寒有渠道了解到相关信息,均可以写到文中。
方舟子论点:“此文实际上写作于90年代初,或者回忆的是90年初的情形”“韩寒不是作者”
方舟子提供的证据有:
1. “韩寒是个学习成绩非常差、调皮捣蛋的差生。在1997年3月如神附体地创造了一个奇迹”
我多次强调过,方舟子在此处通过断章取义,歪曲了事实,并且极有可能是故意的。
韩寒在初中的成绩为中等偏上。 不过从“成绩中等”到突然展现写作才华,算是一个弱的不利证据。
2. 《书店(一)》的文字表述成熟、老练,有一定的文字功底,完全不像初学者的习作。
算弱的不利证据。可以用天赋、装老成、模仿钱钟书等解释。
3. “作者是个博览群书的人”“ 韩寒在创作《书店》之前,并没有博览成年人书籍的阅读史”
此处方舟子使用了极端不合理的推理(在几种可能性中挑了可能性较小的),并想当然的当做了事实。事实上,根据文意推断,韩寒对成年人书籍多有涉猎。
4.“对《围城》和钱钟书的其他作品就已烂熟于胸,怎么《儿子韩寒》没有对此大书一笔?”
韩父在已经写了韩寒读书甚广的前提下,令X=“韩父特别提到《围城》,对其大书一笔”,概率 P(X| Y=0) 和P(X | Y=1) 有明显区别吗?所以这里是个忽悠。
5. “必要时可以作撤退的掩护”“革命胜利”“ 敌强我弱,敌大我小”是文革词汇。
事实上这是建国前的革命用语,韩仁均也没有亲身经历过,而80后在爱国主义题材电影中可以经常看到。 因而,概率 P(X| Y=0) 和P(X | Y=1)实际上没有差别,又是一个忽悠。
6. “其实就等于把‘怎么调情’说得更加含蓄,就仿佛植物有它的学名一样”“ 在书中附上作者近照一张,详细介绍,有的甚至连‘未婚’也挑明了,只算不花钱登个征婚启事。”是猥琐男的恶趣味。
方舟子立即就忘了刚刚举例其中一句是模仿钱钟书的《围城》中的句子,显然不能用于说明作者本身的趣味。后一句没找着出处,暂时可算是个弱的不利证据, 可以用少年早熟来解释。
7. “书店里用的不是书架而是书柜”,“金山的新华书店是在1993年才开始实行开架售书的,那么此文描写的是1993年之前的情况”
中等强度的不利证据,但是可以用“ 韩寒杂糅了自己11岁逛书店的印象”来解释。事实上还有另外还有1997年金山书店合并改装的消息,等待确证。
8. “该文把书店里各类图书都刻薄了一番,涉及武侠、言情、古典、实用、文学、儿童、教育,却没有提到小平南巡之后大量冒出来的经济、管理类图书”
太过专业的书籍超出了少年的理解能力,同理,文中也不大可能调侃《量子力学》和《宏观经济学》。如果是韩仁均代写,反而写到的可能性更大。P(X| Y=0)> P(X | Y=1),其实是个弱的有利证据。
9. 琼瑶和三毛在90年代初还流行,到了90年代末已经过气了,当时新流行的言情小说作家反而都没提到。
三毛不清楚,但琼瑶在93年的梅花三弄,98年的还珠格格都是风靡一时的热播剧,带动图书热销,过气之说缺乏根据,请至少以当地图书销量纪录为证,不要信口开河。
10. 查到云南科技出版社在1993年11月出版《奥特曼大战孙悟空》。有可能还有比这更早的版本。
言语带有强烈的误导性,事实上这个证据说明写作时间很可能在1993年11月后,是弱的有利证据。
11. 磁带和碟片同时销售,以播放磁带歌曲为主,也像是90年代初之前的情况。
韩寒家在上海郊区乡镇,流行很可能落后于上海城区,我不清楚具体情况,令我奇怪的是,方舟子当时身处异国,似乎比国内的我还要了解韩寒的家乡? 我姑且以为方舟子求证过当地人(从其一贯表现看,恐怕没有),算是一个弱的不利证据。
12. “青丝百结”,“1992年许冠杰在香港体育馆举行创纪录的42场告别演唱会,轰动一时,也许这首并非特别流行的粤语歌就在那个时候传到了上海。”
咦?1992年在香港演出的粤语歌,“三四年后在上海郊区播放”的可能性应该大于“一年内就在上海郊区流行”吧。就在流行换代远远快于92年的现在,在公共场合播三四年前的歌也算是不正常现象? 这是一个忽悠。
13,.奥特曼系列电视最早最早的确是在1993年引进到中国的,真正红遍校园,恰巧是在1994-1996年之间。
弱的有利证据
14. 读完一部区区25万字的《围城》需要超过一个星期吗?
解释疑点4, 本身不构成证据。
15 “琼瑶的五十部”,那应该是当年琼瑶的全集。而琼瑶是在94年才写出50部小说,而正式在花城出版50部的全集,是在96年之后。
中等强度的有利证据,因为一部91年的书你可能96年才看到,但96年的书却不可能91年看到。
16. 网友考证到 《什么是电脑》 属于《学生电脑大世界》丛书,出版于1996年3月。
中等强度的有利证据,理由同上。但也同样存在难以合成为更强证据的问题。
17. 《防骗术》1993年02月,《写信不求人》版本极多,有1945年,1995年,2000年,2006年等版本,文中可能为1995年版。
《口才大全》亦有极多版本,最常见为2009年版(显然不是文中提到的),《雄辩绝技》、《点穴秘功》、《男人如何博得女人欢心》与《喂猪窍门》暂没有找到,疑为作者杜撰。
这一条纯粹是为了保证我们没有选择性的漏过信息。既没有有利证据,也没有不利证据。 不过如果确实作者杜撰了书名,可以佐证作者在文中确实进行了虚构,可以抵消部分质疑。
18. 并举例说明,令人看了不但不想笑,却想哭,想必与“幽默”(humour)最初在英语里解释为“体液”十分切意,眼泪鼻涕当算体液,流眼泪便是流“幽默”。
讲“幽默”的书顶多是看了哭笑不得,这里却单讲哭,不自然,是比较生硬的想要引用“humour”,符合少年想显摆的心理,不符合一个成熟作者的心理。弱的有利证据。
19. 文中有提到“违章建筑,乱拆不得”,请考据控考证当地违章建筑拆除成为热点的时间。
20.文中有提到“各类复习迎考的玩艺儿满天飞”,请考据控考证大量教辅参考书流行的时间。
增加一条,来源@反方之搏
21. 文中提及十八集三毛,三毛书版本甚多,但十八集版本仅查有一套,出版于1996年。
中等强度有利证据。
综上,1、2、6、7 、11为不利证据(在最高估方舟子诚信负责的基础上),8,、10、12、15、16、18、21为有利证据。比较证据强度,有利证据明显占优。
分析这么多只是为了演示客观的基于贝叶斯方法的分析应当如何做。但实际上我以为这些都是扯淡,一句“文学可以虚构”足矣说明一切情况,如果有人说这些的是根据亲身经历写的,那么我要给他普及文学常识:“根据亲身经历写的小说通常叫做自传体小说”。
参考文献:
[1]老师木:韩寒代笔事件的概率理解
http://www.weibo.com/1991303247/y2Rvkj9Hc
[2]火车是运茶的:贝叶斯推断
http://blog.sina.com.cn/s/blog_53c8ef8b0100z1l5.html
[3]火车是运茶的:黑衣人例子重新计算之二
http://blog.sina.com.cn/s/blog_53c8ef8b0100z5q1.html
[4]方舟子:“天才”韩寒《书店(一)》分析
http://blog.sina.com.cn/s/blog_474068790102dx78.html
[5]马日拉:全面反驳方舟子《“天才”韩寒书店(一)分析》
http://blog.sina.com.cn/s/blog_484643db010106cv.html |
|