ai 模型百家争鸣,如果集中精力做一个,是不是更容易成功?
来源: 科普中国 发布时间:2023-10-23
在2023年初,chat gpt 似乎掀起了一股ai大模型风。从 2 月以来,国内多家公司也推出了自己的大模型。
我们熟悉的有百度的文心一言、阿里的通义千问、华为的盘古、腾讯的混元,等等。除此之外,很多的科技企业、学校机构都在制作自己的大模型。比如,北京智源研究院的悟道 2.0,中科院自动化所的紫东太初、复旦大学的 moss、清华大学的 chatglm。
这么多大模型的名字听着就让人觉得头晕。如果这些机构全部集中精力做一个模型,其实不是更容易成功?
图源:unsplash.com
这么想自然有一定道理。但纵观人工智能的发展史。多种技术、多条路线共同探索,也是让人工智能能够快速发展,能够一次又一次冲破“寒冬”的原因之一。
想了解技术多元化对人工智能发展的好处,首先要从符号主义与连接主义说起。
让计算机“变聪明”
在 1956 年“达特茅斯会议”上,人工智能作为一门新兴的学科被确立下来。一代代科学家们投入到了让计算机“变聪明”的研究道路上。但“变聪明”这件事太过抽象,具体要如何实现呢?
其实早在达特茅斯会议之前,人们就已经开始探索了。而在这个过程中,出现了几条不同的路线,其中“符号主义”和“连接主义”是两种重要且有代表性的路线。
符号主义的想法是人的智能主要体现在高层的推理方面:“智能的基础是知识,智能的核心是知识的表示与推理”。而知识和逻辑推理可以转化成数学符号来表示,而它们的推理、运算过程,同样可以用数学公式符号来表达(正因如此,这一学派才被称为“符号主义”)。
符号主义最典型的技术是“专家系统”。专家系统背后的想法是,把某个领域的知识、逻辑以符号的形式表示出来,整理成知识库和推理机。根据输入的条件,专家系统能用知识库里面的知识和推理机里既定的逻辑推理方法,一步步推理得出知识库中没有但是又正确结果。
在 1955 年,一款名叫“逻辑理论家”的程序出现了,这款程序,能够推演《数学原理》里面 52 个定理中的 38 个,并且对一些定理还给出了更简洁的证明方法。
这个程序,甚至被一些人称为“第一个人工智能程序”。自人工智能出现很长一段时间里,符号主义都在人工智能领域占据重要地位,甚至“人工智能”这个词也是符号学派为主的科学家们起的新名字。
当然,在符号主义大大发展的同时,其他赋予计算机“智力”的探索也没有停止,比如连接主义也在同步发展。
连接主义与人工神经网络
连接主义有点类似于仿生学,是通过从底层到上层的方法来研究并且模仿人类大脑的结构,进而解释人类的智力行为。
连接主义认为,微观的神经节之间的活动最终涌现出了宏观认知智能。这个思路也比较符合其他科学领域的从下到上的方法论:比如用底层的物理知识来解释高层的化学反应原理一样。它的发展,催生出了今天人工智能领域最重要的技术之一——人工神经网络。
图源:unsplash.com
1943 年,沃伦·麦克洛克和沃尔特·皮茨提出了一种类似于生物神经元的数学模型——mp神经元模型。这个模型其实就是模仿神经元细胞,对输入的信号进行处理,并给出特定的信息。
在 1949 年,神经心理学家赫布发现,人类大脑中的神经元之间传递的信号强度并不是一成不变的而是“可塑的”。这个理论,后来被人们称为“赫布规则”,在人工神经网络的发展上具有重要地位。
在mp神经元模型和赫布规则的基础上,1958 年,罗森布拉特建立了感知器模型,这个模型被称为最早的“具有学习能力”的人工神经网络。这个神经网络被美国海军寄予厚望,并持重金打造了硬件机器,希望它能成为新一代的神经计算机。这个项目是美国海军的重要项目。
但由于当时的算力和技术的限制,人们很快就发现,感知器的功能太有限了,只能解决非常简单的线性分类问题。
麻省理工大学的马文·闵斯基(marvin minsky)和西莫·帕波特 (seymour papert) (也是少儿编程最早的倡导者)写书公开声称“人工神经网络用处非常有限,甚至连简单的‘异或’问题都无法解决。”
在二十世纪六十年代末,人工神经网络的研究陷入了低谷。而几乎就在同一时期,投资者们也开始意识到,之前人们期待的“人工智能大爆发”并未到来。
比如 1958 年时候,就有科学家认为,10 年之内,我们就能让计算机成为国际象棋冠军(实际上这件事在 1997 年才实现比预计晚了将近 30 年)。在 1970 年,有科学家认为“ 3~8 年之内,就能有一台普通人智力的机器人。”但这显然是做不到的,直到今天我们都无法造出这样一台机器。
这些“美好的未来”并未实现,使得政府和投资者们也大大削减了研发经费,人工智能迎来了第一个寒冬。
ai 寒冬
但好在人工智能领域有多条技术路线。在寒冬之下,连接主义的人工神经网络发展艰难,符号主义的专家系统却悄然兴起。
在 1972 年,一款叫 mycin 的专家系统出现了,它能够基于病人的症状,推理出合适的治疗方案。
图源:unsplash.com
比如,mycin 里面记录了多种内科疾病的症状和病因,同时还有每种疾病适用什么样的药物,哪些药物之间会相互反应。如果一个人拉肚子了,只要输入对应的症状(比如体温、血常规数据、持续时间等等),mycin 就能推理出他所患的疾病,并且开具合适的药物。
mycin 给出的治疗方案“可接受性评分”跟人类专家的相差无几(mycin为65%,五位人类专家为 42.5%~62.5% )。
除了 mycin,另一款名叫 xcon 的专家系统帮助 dec 公司每年节省上千万美元的成本( xcon 可以理解成一种专业的订单处理系统)。看到专家系统有实打实的经济效益,其他公司也在二十世纪八十年代开始效仿,纷纷建立自己的专家系统以节约成本。
但随着专家系统的普及,它的弊端也逐渐显现,比如,专家系统知识库里的知识也不会自动更新,专家系统的维护成本很高。
专家系统很快就陷入了僵局,而在此时,连接主义的人工神经网络迎来了自己的“文艺复兴。
在二十世纪七八十年代,陆续有科学家发现了“反向传播算法”的重要性。在 1982 年,保罗·韦布斯将反向传播算法应用到多层感知器中,这对人工神经网络的发展非常重要,我们今天的人工神经网络,几乎都离不开反向传播算法。
由此可以看出,无论在人工智能的寒冬还是复兴时期,符号主义和连接主义的研究都在继续,这给人工智能技术取得飞跃和突破提供了条件。如果没有这些多元化的研究为基础,人工智能的研究可能会深陷在某一条道路中难以前进。
当然了,除了人工智能技术本身,其他行业的突破,同样也会促进人工智能领域的发展。比如,在二十世纪九十年代以后,芯片技术飞速发展,计算机的算力得以迅速提升,这对人工智能的发展来说也至关重要。
比如二十世纪九十年代以前,即便有了反向传播算法,想训练层数非常多的(超过 5 层)的深度神经网络会非常困难,因此人工神经网络一度也被支持向量机所取代。而在 2000 年前后,gpu 的出现让人工神经网络(主要是深度神经网络)的训练速度大幅提升,再加上互联网的普及带来了大量可供ai学习的数据,深度学习技术开始崭露头角。
bert 与 gpt
到了人工智能技术飞速发展的今天,多元化的研究依然能带来意想不到的突破。比如今天我们所熟悉的 chatgpt,正是多种研究齐头并进的受益者。
在 2017 年,google brain 的科学家们发表了一篇名为《attention is all you needed》的论文,提出了 transformer 模型。
简单的说,transformer 是一种能够让计算机更好地“读懂”人类语言的模型。它引入了“注意力”和“自注意力”机制,类似于我们看书时候,会把注意力集中在比较难理解的片段、词句上,并且综合上下文的意思,来理解这些片段、词句。
基于 transformer 人们继续开发了多种大模型,在 2018 年 google 推出了 bert 模型。在同一年,open ai 也推出了 gpt 模型,这两个模型有很多相似之处,但也有一些区别。
简单的说 bert 更擅长于理解文本中的词义,而 gpt 更擅长于生成文本。
bert 能够从一个单词的前后两侧来理解它的含义,有点像考试中的填空题。比如:“我的宠物是一只会叫的(),它爱啃骨”。bert 非常擅长从空格的前后判断出,这里的词最可能是“狗”。
而gpt则是单向的,像我们阅读一样从左到右分析,并且预测出下一个单词。比如“我的宠物是一只会叫的狗,它爱()”,gpt 能够根据前文信息补全后面的内容。
bert 出现之后,因为它在语义理解方面有着非常优秀的表现,在自然语言处理方面大放异彩。而在 2018 年到 2020 年,gpt 模型并没有像今天这样受人关注,但它的研究没有因此停步。
在 2019 年、2020 年,open a i相继推出了 gpt 2.0、gpt 3.0。在 gpt 3.0 的时候,gpt 的参数达到了 1750 亿,训练样本超过 40tb,gpt 3.0 涌现出了比之前的 gpt 模型更强的理解力和生成能力。
在 gpt3.5 又加入了人类标记的训练方法,性能又有了进一步的提升。而在 chat gpt 出现之后,越来越多的人了解到了 gpt 这项技术,这也再次把人工智能推到了人类技术发展的舞台中央。
每一项研究都值得重视
由此可以看出,在整个人工智能发展的过程中,多元化的研究和发展给人工智能技术带来了更多的可能性。比如在二十世纪六十年代到九十年代,专家系统、人工神经网络、支持向量机同步发展,一项技术陷入困境,会有其他技术兴起。
对于整个人工智能领域是如此,而如果聚焦于大模型这样的领域也是如此。在自然语言处理领域,科学家们也并没有因为 bert 的效果突出,就冷落了 gpt。这才给了 chat gpt 在 2023 年让人们人尽皆知的机会。
除了 gpt 和 bert,在大模型领域还有很多模型在研究、发展中。这些模型中的某项技术、某些成果可能在未来会给自然语言处理甚至是这个 ai 行业带来颠覆性的改变。
因此,回到最开头的问题,如果所有的公司、机构集中精力和资源去训练一个模型,确实有机会造出一个超级大模型。但在这个过程中,可能会失去一部分宝贵的“技术多样性”。各个公司的商业化考量,可能也会在客观上促成 ai 的多元化发展。
参考文献
[1]中国大百科全书
https://www.zgbk.com/ecph/words?siteid=1&id=216644&subid=81535
[2]斯坦福哲学百科全书
https://plato.stanford.edu/archives/fall2018/entries/connectionism/#desneunet
[3]mcculloch w s, pitts w. a logical calculus of the ideas immanent in nervous activity[j].bulletin of mathematical biophysics, 1943, 5: 115-133.
[4]hebb d o the organization of behavior: a neuropsychological theory[m].lawrence erlbaum associates, new jersey, 1949.
[5]rosenblatt f. the perceptron: probabilistic model for information storage and organization in the brain[j].psychological review, 1958, 65(6): 386-408.
[6]simon & newell 1958, p. 7−8 quoted in crevier 1993, p. 108.
[7]yu vl, fagan lm, wraith sm, clancey wj, scott ac, hannigan j, blum rl, buchanan bg, cohen sn. antimicrobial selection by a computer. a blinded evaluation by infectious diseases experts. jama. 1979 sep 21;242(12):1279-82. pmid: 480542.
[8]vaswani a, shazeer n, parmar n, et al. attention is all you need[j]. advances in neural information processing systems, 2017, 30.
策划制作
作者丨秦曾昌 北京航空航天大学教授
田达玮 科普作者
审核丨于旸 腾讯安全玄武实验室负责人
策划丨徐来 崔瀛昊
责编丨一诺
亚博电竞网的版权与免责声明
【1】本网站凡注明“学会秘书处”的所有作品,亚博电竞网的版权均属于四川省金属学会所有,未经书面授权,任何媒体、网站或个人不得转载、摘编或利用其它方式使用上述作品。已经本网站协议授权的媒体或网站,应在授权范围内使用上述作品,并注明“来源:四川省金属学会”。违者本网站将追究其相关法律责任。
【2】本网站凡注明“来源:xxx(非学会秘书处)”的作品,均转载自其它媒体,登载此作品出于传递更多信息之目的,不代表学会观点或证实其描述,不对其真实性负责。作品内容仅供参考,如转载稿件涉及亚博电竞网的版权等问题,请在两周内来电或来函与四川省金属学会联系。