克劳德·艾尔伍德·香农(Claude Elwood Shannon),1916年4月30日-2001年2月26日。
今天是香农诞辰103年,他是信息论和人工智能的奠基人,他的研究成果深远的影响着这个时代,他谦逊的品格也鼓舞着后来人不断进取,这是一个值得被人铭记的名字,正因为信息的传播打破了时空的限制,像空气和水一样廉价,如果世人传颂我的故事,让他们说,我曾与英雄同在,我活在信息时代。
1943年,第二次世界大战正使全世界处于动荡不安之中,同时也是全球精英突破各种困难之时,克劳德·香农和阿兰·图灵正是在这阶段认识的,他们在研究如何破译轴心国的加密信息。他们曾在贝尔实验室餐厅共进午餐,他们都相信机器可以被赋予思考的力量。双方的讨论会很激烈,香农提议将有文化的东西灌入电子的大脑中,图灵则说不,我对建造一颗强大的大脑不感兴趣,我只想要一颗普通的大脑。,这些聊天让人目瞪口呆,机器能被赋予智能么?
香农在研究密码学时,发现任何语言都有一定的统计结构和冗余。比如,在一篇文章中,去掉某些词,并不影响这篇文章包含的信息。香农估计,英语的冗余度是百分之五十。随着研究的深入,香农对信息论的存在逐渐清晰,他兴奋的说:对于信息论的研究而言,与信息的'意义'基本无关。1948年,香农发表了《通信的数学理论》,揭示出:信息的意义不是在语义上衡量的,而是数学上的。简单的说,一些信息出现的可能性大或者一些信息更重要,这样的说法都是建立在概率基础上的。香农又通过数学方法定义了信息熵、信道容量等概念,到20世纪60年代,信息论发展成为了关于信息、信息传输和信息处理的新学科。
1949年夏的一天,香农用铅笔在活页纸上自上而下而下的画了一条竖线,并在旁边写下了10的幂,从100到1013。他将坐标轴命名为比特存储容量。然后他开始列举一些可以储存的东西,在103下,香农写下了打孔卡片,在104处,他写下了单行距打字页面(有32种可能),在105附近,他写下了不同寻常的东西:人类的基因构成,这种科学思考可谓史无前例,因为人类的DNA结构要等上几年才会被提出,香农还是猜的太保守了,起码低了四个数量级。在107的级别上,是一本厚厚的《无线电工程师学会学报》,在109级别,则是《不列颠百科全书》,1011比特是一小时的电视节目,而一小时的彩色电影,就要超过1013比特了。最后,就在下1014,香农写下了他所能想象的最大信息量:美国国会图书馆。
香农的活页纸
1951年,香农则展示了一个机器人,尽管它不聪明,外表也不像人,但是它给观众留下了深刻印象,因为它能学会走迷宫,他们称它为香农的老鼠。 http://27.221.42.30/vhot2.qqvideo.tc.qq.com/ARh_Ifz6l0QICH6LN9_LgXTuizVfR7yqgwmNTTLlBSMI/uwMROfz2r5xoIaQXGdGnC2dfhzktbhdAyZmeukSI5tNswzV1/e1338amyt44.m701.mp4?vkey=C31660F5FA9CE8002202D5133785D5FE1C305C77359F46383B350BEEEA8E691796F35F0927D2F39AB9B30501B62946506EF6A449E1FB74871D84FA8AB5802BD06463ABF2EA86EE1FB57EFEEFE7D6D2427DF9A320B3210B22E86F99E7928AE92E80C1CBEE36EBBD83400963DC1AE1ED63A7A3C87198266F8F81D846698C07EAF4br=29platform=2fmt=autolevel=0sdtfrom=v1010guid=d70faeb08f7946098cc380b58faa6aed
香农的老鼠
这些看起来有点不可思议,尤其是香农的老鼠,它具有学习的能力,不同于以往人类发明的其它机器。这些具有开创性的工作,是如何完成的?香农和其他信息论的先驱们到底是怎么开创了一个基础学科的?我做一个简要的介绍。
熵
熵的概念,最早起源于物理学,用于度量热力学系统的无序程度,1865年,热力学的主要奠基人鲁道夫首先使用了该词,他发现了一种量,这种量与能量无关,他就称之为熵。香农首先将熵用于描述信息的不确定性,因为无序程度和不确定性,其背后都带有随机分布的特点,熵的计算被定义为:
其中,X代表一个离散型随机变量,p(x)为其概率分布函数。当对数函数以2为底时,熵的单位是比特。熵的大小不取决于X的实际值,而仅依赖其概率分布。这个公式也被称为香农熵。
当有多个随机变量表示多个关联的事件时,事件之间相互影响。
以上三个公式分别是两个随机变量(X,Y)的联合熵,条件熵和互信息,其证明过程采用香农熵、联合概率分布函数,链式法则。我们使用互信息来衡量不同事件空间,两个信息的相关性。熵与互信息存在关系,通俗的说,任何新信息的增加,都不会使得原有信息的熵增加。就像我们玩德州扑克,不管你的表情如何改变,只要做了改变,都会被精明的玩家窥探到你手中的牌怎么样,因为你增加了信息,在牌局中,那些面无表情的人是最可怕的,一些人还会带着帽子、墨镜来掩饰自己的情绪。另外一个例子,伟大的发明和公司,往往是使熵降低的,比如互联网搜索引擎使人们获取信息的成本很低,从而解决了信息的不对称,有利于阶层之间的流动,使熵降低。
熵与互信息的关系
香农的通信系统模型
下图是香农提出的通信系统模型。
香农模型
信源是发送信息的主体,信宿是接收者,信道是信息传送的通道,编码泛指将信源的信息转换成适合通过信道传送的信号的设备,译码是编码的相反的设备。信道可以分为两大类:有线信道和无线信道。有线信道包括光纤、电缆等沿导线的电磁波传递介质,无线信道则是依赖于自由空间来传递电磁波。此外,信道也可以分为有无记忆、连续还是离散等方式。信号在通过信道时,会有延时,还有伴有固定或时变的损耗,在通信系统中,这部分信道被成为干扰。干扰的来源可能是人为、自然和设备内部。
信道容量是指该信道中,每个字符平均能传送的最大信息量,信道容量等于输入与输出的互信息的最大可能值。
信道容量
在通信系统中,信息需要编解码,然后在信道中传输,香农信道编码定理,描述了信息传输速率与信道容量的关系:如果信源的信息速率小于信道容量,那么则存在一种编码方式,能保证发送信息的误差任意小。也就是说,通过不可靠的信道,实现可靠的信息传输。在人们不具备更好的信道的条件下,如何将现有信道发挥到最大的利用价值,香农给出了一个极限。在香农以前,在这个问题上,物理学家和数学家总是聊不到一起,直到香农的三大定理给大家一个评价标准。有趣的是,当时香农并没有给出这个结论的证明,这个证明直到后来才被人推导出来。近些年来,信道编码取得重要进展,已经实现了无误差编码方式。
最大熵模型
在信息论中,熵是用来度量信息的不确定程度的,熵增定律说明了一个孤立系统有朝着熵增的方向发展的趋势,进而呈现出一种最无序的、最不确定的状态。最大熵就是使系统处于熵最大的状态-满足已有事件,无偏的对待不确定事件,即对未确定的事件,认为是等概率出现的。最大熵原理即是认为,在统计学习里,所有的模型中,熵最大的模型是最好的模型。
最大熵原理对目前机器学习的优化算法而言是举足轻重的,是训练人工神经网络的指导思想。
=最大熵模型求解过程
因为信息处理和信息传输,就像是一枚硬币的两面,这枚硬币就是信息。以上公式看起来繁琐,实际上,对于一个给定了数据集的机器学习任务,就是构建特征f,然后,使用凸优化方法求极值。对于一个有等式约束的优化问题,使用拉格朗日乘子法,对上式中各变量求导数,然后令各方程为0,并组成方程组,然后对方程组求解。
信息论与人工智能
越是深入的了解前人的工作,越能感受到,信息论和人工智能源起一处,我们可以很容易的将二者联系起来,比如机器学习的模型充当了信息论中的编译码器的角色,引入信息论中的哈夫曼编码的算法可以加快网络的训练速度,使用最大熵或交叉熵构造机器学习的代价函数,对抗网络很类似于信息论中的信道均衡的抽头系数的训练---通信的成功应用正在让人工智能快速成长。
香农在成功面前是虚怀若谷的,在20世纪五十年代,香农一边从事火控系统和密码学方面的工作,一边苦苦思考他对信息的设想,他独自一人住在纽约格林尼治村的公寓里,与同事几乎没有交往,因为他们都搬到了新泽西的新总部,而他却选择留在西街的旧办公楼,他不需要向别人解释自己在干什么,毕竟他从事的是战争工作,有时候,他会去办公楼对面的微波研究组闲逛,并且在那里认识了贝蒂·摩尔,1948年,两人开始约会,随后在1949年初结婚,也就是在那个时候,他成为了人人都在谈论的科学家。
http://27.221.42.26/vhot2.qqvideo.tc.qq.com/AvEMPOvV6Z2XyusTYURx9L9FkEx-JXrIfhkHvVeouhE8/uwMROfz2r5xoIaQXGdGnC2dfhzktbhdAyZmeukSI5tNswzV1/x13382nq69y.m701.mp4?vkey=2BF6387674D42068A29C7CF7AC455DCC9B16589730E711212A3F50BFFD64AF06C34D48CF88FACAE33DD3CB6B4845FE555F8CE614F28A7DBB35C8880E2C2CC6F065322BE85281BE137D1F726EA8613B9200D59A886391F4CF9C60FA79EA755483EA67E1BB9D9E20A667D15C8C10C320EB427E9B1E2D2A5ECFA569B90621E82CB7br=28platform=2fmt=autolevel=0sdtfrom=v1010guid=d70faeb08f7946098cc380b58faa6aed
香农谈论工作
香农是一个可以与牛顿、爱因斯坦、特斯拉等科学伟人相提并论的非凡人物。我们看不到那些被历史遮盖的事实,他有没有低谷的时候,他克服困难后的喜悦,但是我相信,他被周围的人爱着,也在努力爱这个世界,他坚持自己的事业,追求科学的乐趣,真正以谦逊的态度看待自己的成功。
今天,我们工作是后香农时代的人工智能单元,我们在他的生日上感谢他的贡献,
http://27.221.42.157/vhot2.qqvideo.tc.qq.com/AizBICEVjDoS-X_TK2DuaHhdHSlCKaBcbHF3s-T1vj-0/uwMROfz2r5xoIaQXGdGnC2dfhzktbhdAyZmeukSI5tNswzV1/r1338zg1gpt。m701.mp4?vkey=0635CD0A368E3DDD00CB0FFC54A9B9CCED451566A39884F1826AF51F7BB10A6AF3059C6F7792D43D5C0500BE313795F26A3D3EAD5A763269C988546D5F14B042A428BAF8D56D0F7E0E61FFF735E34DA4A4BA17595C57DFAE13DEBF43D6C28A18771338A12762004C16F1613EAACE9C6D7E8B2B8622364CE47793FECEB72BA154br=29platform=2fmt=autolevel=0sdtfrom=v1010guid=d70faeb08f7946098cc380b58faa6aed
高通联合创始人维特比先生谈香农
概率的本质不是自然的随机,而是人类的无知。希尔伯特说过一句名言:我们必须知道,我们必将知道。如果世人传颂我的故事,让他们说,我曾与英雄同在。