手机浏览器扫描二维码访问
类推学派——机器学习默知识
我们生活中很多经验来自类比。医生一看病人的面部表情和走路姿势就基本能判断出是普通感冒还是流感,因为流感症状比感冒厉害得多。科学上的许多重要发现也是通过类比。当达尔文读到马尔萨斯(Malthus,1766—1834)的《人口论》(PrincipleofPopulation)时,被人类社会和自然界的激烈竞争的相似性所触动;玻尔的电子轨道模型直接借鉴了太阳系的模型。机器学习中用类比方法的这一派叫类推学派,他们的逻辑很简单:第一,两个东西的某些属性相同,它俩就是类似的;第二,如果它们的已知属性相同,那么它们的未知属性也会相同。开好车上班的人可能也会用苹果手机,喜欢看《星球大战》(StarWars)的人可能也会喜欢看《三体》等。类比的逻辑可以明确表达,但具体的类比常常是默知识。例如老警察一眼就能看出谁是小偷,但不一定说得清楚原因。
在类推学派中最基础的算法叫最近邻法。最近邻法的第一次应用是1894年伦敦暴发霍乱,在伦敦的某些城区每8个人就会死1个,当时的理论是这种疾病是由一种“不良气体”造成的。但这个理论对控制疾病没有用。内科医生约翰·斯诺把伦敦每个霍乱病例都标在地图上,他发现所有的病例都靠近一个公共水泵。最后推断病因是这个水泵的水源污染,当他说服大家不要再用这个水泵的水后,疾病就得到了控制。在这里这些数据的相似点就是和这个水泵的距离。最近邻法还有一个应用就是在网上搜照片,你对高铁上霸座的人很愤慨,你把他的照片上传,网站给你显示出几张和他长得最像的照片,并且有文字,你一看,天哪,还是个在读博士生!同样的道理,很多智能手机都可以自动进行照片分类,把你手机里的人像都自动归类。
在类推学派中,第一件事是要定义“相似度”。相似度可以是身高、收入等连续变量,也可以是买了某一类书的次数的统计变量,也可以是性别这样的离散变量。总之,只有定义了相似度,才能度量一个分类方法是否最优。人可以感受相似度,但无论是人的感官还是大脑都无法量化相似度。人类在做相似度比较时,甚至都不知道自己在比较哪些特征和属性,但机器可以很容易量化这些相似度。所以只要机器抓准了特征和属性,比人的判断还准。
类推算法可以用于跨领域的学习。一个消费品公司的高管到互联网媒体公司不需要从头学起,华尔街雇用很多物理学家来研究交易模型,是因为这些不同领域问题的内在数学结构是类似的。类推算法最重要的是能用类比推导出新知识,就像我们前面提到的达尔文受《人口论》的启发。
虽然机器可以学习明知识和默知识,但它最大的本事是学习暗知识。
机器发现暗知识
暗知识就是那些既无法被人类感受又不能表达出来的知识。也就是说人类本身无法理解和掌握这些知识,但机器却可以。机器有两种方法可以掌握这些知识:模仿人脑和模仿演化。
联结学派
联结学派的基本思路就是模仿人脑神经元的工作原理:人类对所有模式的识别和记忆建立在神经元不同的连接组合方式上。或者说一个模式对应着一种神经元的连接组合。联结学派就是目前最火爆的神经网络和深度学习,它在五大学派中占绝对统治地位。目前人工智能的高科技公司中绝大部分是以神经网络为主。第三章我们专门讨论神经网络。
进化学派
机器学习中一共有五大学派,最后一个学派是进化学派。他们是激进主义经验派,是彻底的不可知论者。进化学派不仅觉得因果关系是先验模型,甚至觉得类比,神经元连接也都是先入为主的模型。他们认为不管选择什么样的先验模型,都是在上帝面前耍人类的小聪明,世界太复杂,没法找到模型。进化学派的基本思路是模仿自然界的演化:随机的基因变异被环境选择,适者生存。他们的做法就是把一种算法表达成像基因一样的字符串,让不同的算法基因交配,让生出来的儿女算法去处理问题,比爸妈好的留下来配种继续生孙子,比爸妈差的就淘汰。
比如我们要通过进化算法找到最优的垃圾邮件过滤算法。我们先假设凡是垃圾邮件都包含1000个诸如“免费”“中奖”“不转不是中国人”这样的单词或句子。对于每个单词我们可以对邮件施加一些规则,如删除或者怀疑(“怀疑”是进一步看有没有其他垃圾词汇)等。如果规则就这两种,我们可以用一个比特表示:1删除,0怀疑。这样要对付有1000个垃圾词的算法就可以表示成1000比特的一个字符串。这个字符串就相当于一个算法的基因。如果我们从一堆随机的1000比特长的字符串开始,测量每个字符串代表的算法的适应度,也即它们过滤垃圾邮件的有效性。把那些表现最好的字符串留下来互相“交配”,产生第二代字符串,继续测试,如此循环,直到一代和下一代的适应度没有进步为止。注意,这里和生物的进化有个本质区别,就是所有的算法都是“长生不老”的。所以老一代里的优秀算法不仅可以和同代的算法竞争,而且可以和儿子、孙子、子子孙孙互相竞争,最后的胜利者不一定都是同一代的算法。
进化算法的问题是“进化”毫无方向感,完全是瞎蒙。在前面的垃圾邮件过滤器例子里,1000比特的字符串的所有可能性是2,也即10,即使用目前世界最快的超级计算机,“进化”到地球爆炸都不可能穷尽所有可能,在有限时间内能探索的空间只是所有可能空间的极少一部分。地球可是用了40亿年时间才进化出了现在所有的生物。
图2.1是美国华盛顿大学佩德罗·多明戈斯(PedroDomingos)教授总结的一张五大流派“八卦图”。
机器学习中的符号学派、贝叶斯学派、类推学派和联结学派的共同点是根据一些已经发生的事件或结果,建立一个预测模型,反复调整参数使该模型可以拟合已有数据,然后用此模型预测新的事件。不同的是它们各自背后的先验世界模型。符号学派相信事物间都有严密的因果关系,可以用逻辑推导出来;贝叶斯学派认为,因发生,果不一定发生,而是以某个概率发生;类推学派认为,这个世界也许根本没有原因,我们只能观测到结果的相似,如果一只鸟走路像鸭子,叫起来像鸭子,那么它就是只鸭子;联结学派认为,相似只是相关性能被人理解的那层表皮,隐藏的相关性深邃得无法用语言和逻辑表达;最后进化学派认为,什么因果?什么相关?我的世界模型就是没有模型!从零开始,不断试错,问题总能解决!
图2.1机器学习的五大流派
图片来源:佩德罗·多明戈斯,《终极算法》,中信出版社,2017年。
现在我们终于可以清理一下满天飞的名词了。我们在媒体上最常听到的是这四个名词:人工智能、机器学习、神经网络、深度学习。这四个词的关系如图2.2所示,人工智能是最大的一个圆,圆里面分为两部分:一部分叫人工学习,也就是前面我们讲的专家系统;另一部分叫机器学习,就是机器自己学习。机器学习里面包含神经网络,在神经网络里面还要再分,一个是浅度学习,一个是深度学习。在过去芯片集成度低时,我们只能模仿很少的神经元。现在由于集成度在提高,我们可以模仿很多的神经元,当很多神经元被组成多层的网络时,我们就叫它深度学习。所以人工智能、机器学习、神经网络和深度学习的关系,其实就像一个洋葱一样,一层包裹一层,最外面的是人工智能,往里一点是机器学习,再往里是神经网络,最深层就是深度学习。
所以这四个词有下面的包含关系:人工智能>机器学习>神经网络>深度学习。
图2.2AI中四个概念的包含关系
今天我们说到的人工智能,其实就是机器学习里面的神经网络和深度学习。但是在一般的商业讨论中,这四个概念经常是混着用的。
守城使 沈再云夏顾雪重生鉴宝 凰谋天下 前妻别跑:偏执慕总放肆宠 重生九零之神医商女 重生年代:胖厨娘的红火小日子 天才萌宝:爹地超宠妻 穿越梦境 神王殿 小农女种田忙 世家三代录 她切回满级大号了 婚心动魄:我的神秘大boss 市场·情场·官场 重生:影后夫妇疯狂撒狗粮 蜜宠霸爱:厉少,你失宠了 人在航海,开局艾尔沃特海战 盗墓笔记之尘封的记忆 面对秋阳 夫人,总裁他罪不至死
秦简的世界被背叛,还失去了最爱的女儿。一朝崛起,复仇渣男为仇恨迷失双眼,猛然清醒,幸福一直就在身边。...
法医杨秋池借尸还魂来到明朝,成为一个仵作学徒,有一个清贫的家,一个老母和一个严守三从四德却不能生育的媳妇,他除了要应对各种凶杀案之外,还要体面地完成传宗接代的重任,唯有削尖脑袋当官挣钱纳妾。可这时,奇怪的事情一件接着一件发生了。...
...
我向来扮猪吃老虎惯了,这次在母老虎身上认了栽。...
青衣当惯了霸主,六界诨号恶婆娘。不料到人间寻个亲,成了那脓包公主不说,还摊上一阴险至极的未婚夫。萧绝小兔子莫气,气出病了可无人替。青衣老鳖莫嚣张,迟早把你做成王八汤。等等,这个人间老白脸居然是她暗恋了上万年的北阴大帝?...
书海阁小说网免费提供作者羊小姐的小草莓的经典小说拐个夫君回妖界最新章节全文阅读服务本站更新及时无弹窗广告欢迎光临wwwshgtw观看小说异面天空开启,人魔妖三界无固定界限,魔君肆意一统三界...