《信号与噪声》书评
人类最初的信息技术革命并非始于微型芯片的发明,而是以印刷机的诞生为开端的。1440年,约翰内斯·古腾堡发明了印刷机,这项发明使普通民众能方便地了解信息,由此产生的思想洪流带来了前所未有的结果和影响。
1000-2010年全球人均GDP
上图是1000-2010年全球人均GDP,三个重要节点:
1)印刷机的诞生:信息传播变得廉价,知识得以快速积累
2)蒸汽机的诞生:工业革命;
3)万维网的诞生:信息获取的革命。
知识匮乏期
早在印刷机发明之前,书籍就已经存在了。然而因为
1)复制一份原稿的费用极其昂贵(每5页就需要大约200美元),使书成为了贵族阶层的奢侈品;
2)抄写中难免有错误,代代相传甚至演变成与原意相反的错误。
因此,
这就使得知识的积累变得极其困难。要想阻止以文字记录的知识的不断减少,就需要付出巨大的努力,因为书籍腐烂的速度远远大于其生成的速度。
印刷机的出现「永久而深刻地改变了这一状况」。几乎一夜之间,书的成本骤降近300倍。「人类知识旋即进入快速积累期」。
同时随着印刷机出现的是:信息不再稀有,甚至多到无从下手,但知识上的缺乏使得我们对有效信息的获取依旧远远不够。「我们以为自己需要信息,但其实我们真正需要的是知识。」
在信息时代我们面临的一个重大挑战,就是全球的知识总量在增加,而我们实际掌握的知识和自认为掌握的知识之间的鸿沟却越来越宽。
科学决定论VS或然论
几个世纪以来,人类逐渐出现了两种对立的思潮:万物天注定和万物人注定。
科技的日新月异使得「人定胜天」的思想逐渐兴起,归结为「科学决定论」。这其中以法国天文学家&数学家Laplace总结最为全面。1814年,Laplace做出以下假设,被称为Laplace‘s Demon(拉普拉斯的恶魔):
我们可以把宇宙的现状看作其过去已经发生的事情和未来可能发生的事情共同影响的结果。假设我们具备一种理解能力,能在某一个特定时刻认识到使大自然运动的所有力量,能够知晓构成大自然的所有事物的位置。若这种理解能力足够强大,可以对所有这些数据进行分析,就必然能够用一种最简单的公式或准则涵盖这个宇宙中最大的星体和最微小原子的所有运动。有了这种理解能力,就没有什么是不能确定的,未来和过去都能尽收眼底。
这就跟在学习《数理方程》时无意获知的八卦一样:某位数学家号称「只要给我宇宙的边界条件,我就能算出其发展规律。(大意)」
与「科学决定论」相悖的是「或然论」。这种理论认为:
宇宙可知性成立的条件是,承认一定程度的不确定性的存在。
最初的或然论几乎都是认识论范式,该论点断言,人类认识宇宙的能力有限。
最一开始,牛顿的经典力学理论有力的支撑了「科学决定论」,它似乎「证明了宇宙的高度有序性和可预知性,并且遵守相对简单的物理定律」,然后,随着量子力学的发现,「科学家和哲学家开始怀疑宇宙自身的运行是否也存在概率,」比如海森堡提出的「测不准原理」。后者已经开始从概率的角度思考问题了。
概率式思考方法
现在的天气预报当是以概率的方法预测问题之典型。
「科学决定论」里可能更多的认为可以用一个或多个方程来模拟预测,但实际的情况也许更多的应该从系统的角度来思考。比如天气预报系统,
人们有意加入微小的变化以代表观测数据内在的不确定性,这样就可以将一个必然性的预报变成了或然性的。比如,当地气象预报员说,明天有40%的概率会下雨,意思是说,在他的模拟操作中,有40%的概率会下雨,有60%的概率不会下雨。
这往往是因为适用混沌理论的系统,常有以下两个特性:
1.该系统是动态的,这就意味着当前某一个时间点发生的动作会影响未来的动作。
2.该系统是非线性的,这就意味着其会呈指数型增长而非加法累积。
信号与噪声
前面已经提到,信息越来越多,但有用信息的获取却越来越艰难。在这之间,噪声扮演了一个非常重要的角色。因为自身知识的缺乏+对数据模型认识的不够深刻,经常会混淆信号与噪声,包括但不限于:
1)噪声误认为信号,过度拟合
过于精确的追求模型的数据拟合度,往往造成过度拟合,将干扰的噪声误认为有用的信号,这将带来数据预测的偏差。因此建立预测模型并不是越复杂越好。
2)相关误认为因果
真正具有预测性的变量几乎不存在,想要弄明白哪些是因果关系,哪些属于相关性,是很困难的。
反应在经济学上,便是:
尽管经济学家对于控制经济运行的基本体系有着相当正确的理解,然而,经济运行中各种情况的因果关系仍然模糊不清,在经济泡沫期和经济恐慌期时尤其如此,因为此时的经济系统中充斥着人为因素决定的反馈环。
3)低质量的原始数据
《数据挖掘》课上第一步就谈到了对数据的清洗。这第一步往往更加重要,因为清洗质量的高低直接决定了数据中真正的信号比例大小及其后续处理。
4)忽视无法定量分析的因素
书中便以两种针对美国选举的预测专家(狐狸型和刺猬型)进行举例说明。
狐狸型专家:针对不同类型信息进行总体权衡,结合定性分析和定量分析;
刺猬型专家:接收各种类型信息,并借助这些信息强化他们的偏见。
5)其他因素
包括政治、个人荣誉或经济利益,都容易影响预测。
预测:频率学派VS贝叶斯学派
频率学派的本质
从本质上看,“频率主义”解决统计学问题的方法是极力摆脱使预测出错的最常见原因——人为错误。“频率主义”认为不确定性是实验本身所固有的特质,而非我们认识真实世界的能力中所固有的特质。
“频率主义”的方法还意味着,你收集的数据越多,所犯的错误最终就会越趋近于零:这是解决所有问题的充分必要条件。
频率学派的问题
不论在理论上还是实践中,“频率主义”的方法都不是很客观,要依赖大量的假设。种种方法总是假定,某一个测量方法中潜在的不确定性遵循贝尔曲线或正态分布,这是正确的假设,却不适用于股票市场。
更大的问题是,在力求设计完美无瑕的统计程序时,不能受研究者个人偏见的干扰,这就使得“频率主义”的方法总是与真实世界相隔离。这样的方法让研究者忽略了假设的基本环境和合理性,而这正是计算贝叶斯先验概率所必需的。
实际上,「按照经验来看,所有人都有各自的信仰和偏见,这种信仰和偏见是由个人的阅历、价值观、知识涵养、政治立场或专业背景等因素凝聚而成。」
贝叶斯学派的优势
贝叶斯学派仰仗的便是下面这个简单的贝叶斯定理。
$$P(A|B)=\frac{P(A)P(B|A)}{P(B)}$$
我的理解在于:贝叶斯预测承认每个人都存在偏见(先验概率和后验概率),同时也承认第一次用概率的方法处理时可能不会特别准确,但是,其好处在于通过不断获取新信息,可以来更新和修正自己的预测。
贝叶斯定理明确地承认人们固有的观念会影响对新证据的理解,还生动地描述了人们对于世界的变化做出的反应,这是贝叶斯定理的一大优点。
实际上,贝叶斯定理并不干涉个人信仰,在这一理论的支持下,没有什么可以阻止你将自己认为绝对正确的事物作为自己的信仰。如果你认为上帝百分之百存在,或者上帝根本就不存在,在贝叶斯定理下,所有的证据都不会劝你改变观点。
根据贝叶斯定理,预测基本上属于信息处理活动——用新数据检测关于客观世界的假设,目的是为了更加真实、准确地理解世界。
人类处理信息是有限的
大脑对信息使用的是近似处理法。
大脑在处理信息时使用的是近似法。与其说这是一种既成事实,不如说它是一种生物必要性:我们察觉到的信息远多于我们有意识进行思考的信息,我们处理信息的方式是按照规律和模式对它们进行分类。
当一个问题的确定性解决方案超出了我们的实际能力时,我们就会采取依据经验法则的启发法解决问题。
也就是说,尽管人类处理信息能力是有限的,我们还是可以依靠启发式方法来制定出最佳决策。
借助计算机进行预测
随着计算机的发明,其强大的计算能力自然成为人类进行信息预测和解决问题的绝佳替代品。但是,计算机也需要通过简化手段来预测,原因依然在于直接解决的复杂度太高,可以轻易突破现今计算机计算能力的上限。
常用的方法是:启发法和试错法。
启发法实现预测,试错法来提升预测。
香农认为计算机有以下4个优点:
1.计算速度快。
2.不会犯错,除非编程时就编入错误。
3.不会偷懒,在分析招数、分析可能位置时不会半途而废。
4.不带感情色彩,不会赢了一步就过度自信以致失去胜势,或是遇到困局就沮丧,劣势其实是可以逆转的。
香农认为,计算机的这些优点可以与人类具备的4大优势相抗衡:
1.思维灵活,解决问题知道变通,不会按部就班。
2.拥有想象力。
3.懂推理。
4.会学习。
结语
人类诞生之初,知识传播成本高,导致知识的匮乏期,随后印刷机、工业革命、互联网的发明,使得知识传播的成本急剧下降,获取的信息也急剧上升。可是信息的指数级增加并没有显著提升其中的信号比例,也就是有效的信息。
在作者看来,原因在于「全面了解世界已经超出人类的能力范围。」有限的信息处理能力使得人类进行预测时碰到各种各样的问题,我们还是需要更多的提升自己的知识。还是作者的那句话:「我们以为自己需要信息,但其实我们真正需要的是知识。」
没有理由认为人类活动越来越可预测,同样也没有理由认为人类活动越来越不可预测。科学使得社会变得明朗,但科学同样也使得社会组织变得更加复杂。技术完全改变了人们彼此之间的联系。1990年发明万维网的蒂姆·伯纳斯·李对我说:“正因为有了互联网,整个环境、所有方程式、所有信息的动态传播都发生了变化。”
大量的信息成倍增加,但有用的信息却非常有限,信号的比例正在缩小,我们需要找到更好的方法对信号和噪声进行区分。
预测时,我们需要在好奇和怀疑之间寻求平衡。这两者是可以相互协调与融合的。我们越是渴望检验自己的假设,就越愿意承认我们关于世界的知识存在很多不确定,越愿意承认不可能做出完美的预测,越不会陷入失败的恐慌中,也会有更多的自由让思维驰骋。对自己不了解的事物作进一步的了解,我们也许就能做出更多准确的预测。
我们希望有更多的同道中人可以成为加盟作者,或者贡献主题,亦或给我们推荐好的问题,问题有时比答案更重要。
你可以,
1)写写你熟悉领域的进展或对未来的展望,即使你的小文不够成熟,我们也会为你提出修改意见或帮你一起韵色。
2)写出你的跨界思考,你是否有从一个领域的知识联想到的别的概念,从而让你脑洞大开,只要你的想法新颖,都值得被倾听
3) 提出你感兴趣的话题,加入混沌大家庭和一起讨论。
或者如果你本身也有自己的公共号,但是秉承相似的想法,我们也希望你能加盟。 投稿邮箱 guoruidong517@126.com
欢迎加小编铁哥个人微信: