自从去年末ChatGPT在全世界引起大模型狂热后,“先驱”谷歌已经在后辈的光环里暗淡了一整年。在庞然大物的谷歌面前,OpenAI只是一家小型创业公司,即便背后有微软的大力支持,但跟谷歌丰沛的AI人才储备、雄厚的资金实力和天量的算力资源相比,OpenAI就像是巨龙鼻息下盗宝的飞贼。
这个“小飞贼”,成功偷走了谷歌的AI桂冠,率先一步踏上通往AGI(Artificial General Intelligence,通用型人工智能)的路,一下子取代谷歌成了AI浪潮的引领者,这是深耕AI十多年的谷歌无法接受的。
Gemini,对谷歌来说不只是一款迟到的产品,更是一场蓄谋已久的复仇。
对标GPT-4,超越GPT-4,这是谷歌最新推出的大模型Gemini与生俱来的使命。早在几个月前,当Gemini的研发消息流传出来时,就能感受到谷歌对其寄予的厚望:
将Google Brain和DeepMind合并,集合公司最资深的AI科学家和产品经理们,数百人加班加点,耗尽谷歌内部几乎所有可用的计算资源,尽可能用最快的速度,训练出一个能够追赶甚至超过GPT-4的大模型。
于是,十几天之前,当Gemini面世时,尽管ChatGPT已经夺走了“人工智能的iPhone时刻”,但谷歌希望能再次重现当年人工智能第一次向世界展示伟力的“AlphaGo时刻”,借此完成对OpenAI的“复仇”。
Gemini确实在GPT一统天下的AI世界撕扯出一道裂隙。谷歌放出了一系列测试结果,Gemini是第一个在MMLU(大规模多任务语言理解)测评上超过人类专家的模型,它在此项取得的成绩是90.0%,领先于人类专家的89.8%,而GPT-4则为86.4%。也就是说,在专业知识问题上,它不仅超过了GPT-4,甚至比人类专家懂得更多、更能给出合理的回答。
Gemini更大的优势在于,它是一个原生多模态的大模型,而已有的其他多模态大模型都是拼接而成的。用谷歌的话说:“从第一天起就是多模态大模型,跨越文本、图像、视频、音频和代码的无缝推理。”
比起ChatGPT,Gemini更像人类的大脑,可以同时搜集、组合、理解不同类型的信息,输出信息的时候也可以语言、手势、动作、表情一起上。同一个大脑处理不同的信息,信息不会在“翻译”的过程中丢失,与人类的沟通交流就会更顺畅。
比如我们正常人,看到“老虎”两个字就能直接联想到老虎的形状和跑起来的样子,甚至脑海中会出现老虎的咆哮,而其他多模态大模型更像是一个聋哑人,需要先把声音写成文字或打出手语,才知道别人说了什么,不同信息在转换中难免产生误解。
在谷歌的演示视频里,Gemini用年轻男子的语气,一边看着用户绘画、变魔术、放视频,一边实时对画面进行分析,并主动与用户对话交谈。那个场景,颇有《钢铁侠》里贾维斯与托尼一起探讨钢铁战甲该如何设计的感觉。
某种程度上,谷歌确实再一次为AI的演进树立了一块新的里程碑,正如当年谷歌猫项目、AlphaGo大战李世石和提出Transformer架构掀开AI新篇章那样,谷歌在长达十多年的时间里,用一次次震惊世界的举动,为人工智能的发展标注出一条清晰的路径。
但自从去年末ChatGPT在全世界引起大模型狂热后,“先驱”谷歌已经在后辈的光环里暗淡了一整年。在庞然大物的谷歌面前,OpenAI只是一家小型创业公司,即便背后有微软的大力支持,但跟谷歌丰沛的AI人才储备、雄厚的资金实力和天量的算力资源相比,OpenAI就像是巨龙鼻息下盗宝的飞贼。
这个“小飞贼”,成功偷走了谷歌的AI桂冠,率先一步踏上通往AGI(Artificial General Intelligence,通用型人工智能)的路,一下子取代谷歌成了AI浪潮的引领者,这是深耕AI十多年的谷歌无法接受的。
年初,微软上线GPT-4支持的Bing Chat版搜索引擎后,更让谷歌感到不安。很快,谷歌宣布推出Bard,一个自有大模型支持的聊天机器人。
在谷歌的描述里,Bard既拥有ChatGPT一样随机应变的聊天功能,还能更“负责任”。彼时,ChatGPT正因一本正经的编瞎话而广受诟病,谷歌成功阴阳了一把。这也让外界对Bard期待值拉满。后来的故事就像演电影一样,戏剧性十足。在Bard的宣传视频中,竟然出现了事实性错误。
Bard被问了一个问题——“我可以告诉我 9 岁的孩子关于詹姆斯·韦伯太空望远镜的哪些新发现?”表面上,就像一位循循善诱的老师,Bard流畅地回答了这个问题。然而,却把拍摄太阳系外行星第一张照片的人名说错了。
第一次演示就说错话。虽然谷歌迅速下架了相关演示视频,然而事情一旦发生,破碎的信任便难以挽回。股价应声大跌9%,市值缩水1000亿美元。原本想靠Bard追上微软和OpenAI的先发优势,却栽了个大跟头。在这场夺回AI领地的大战中,谷歌出师不利。
随着ChatGPT加速迭代,留给谷歌的时间也越来越紧张。谷歌本习惯每年五六月发布新品,这次却选在年底。据美国媒体报道,谷歌的管理层担心OpenAI、ChatGPT、微软的Copilot正在成为AI领域的代表,谷歌不能再等下去了。
目前,Gemini的效果还有待验证,已经发布的Gemini Pro只是优于GPT-3.5,还没法全面赶超GPT-4。甚至有产业大佬质疑谷歌Gemini宣传视频有剪辑痕迹,放大了产品的效果。谷歌倒是承认了视频进行了后期处理,还放出了更为具体的交互过程图文解析。
黑红也是红,或许是为了营销,或许是太想做出炫酷的效果,总之,谷歌的复仇大作,又多了几分戏剧效果。毕竟,谷歌这口气,实在是憋了太久了,它太需要一次成功来证明自己。
谷歌开始大规模投入人工智能的时候,OpenAI还不存在。
2012年,谷歌用4400万美元的代价,拍下了一家成立不到一个月、没有产品、没有收入,只有三个员工和几篇论文的公司。
这家公司由多伦多大学教授杰夫·辛顿(Geoffrey Hinton)带着自己两个学生创立,他们建立的神经网络算法AlexNet,在ImageNet图像识别比赛中以84%的准确率夺得冠军,训练成本之低,只用了4颗英伟达GPU。
这让谷歌感受到巨大的挫败。早在2011年,谷歌就创立Google Brain人工智能项目,目标是研究深度学习和神经网络,以改进谷歌产品和服务的性能,几乎早于所有的美国科技公司。神经网络是一种机器学习的方向,通过模拟人类的大脑识别大量数据的模式,谷歌很早就意识到,这可能是让机器学会听说读写乃至最终可以思考的一个路径。
Google Brain搞了一个The Cat Neurons(谷歌猫)研究项目,简单说就是可以用神经网络算法在YouTube的视频里识别猫,谷歌猫项目不仅有来自斯坦福的顶尖人工智能学者吴恩达和谷歌首席科学家杰夫·迪恩(Jeff Dean)带领,更有谷歌创始人拉里·佩奇(Larry Page)的倾力支持,动用了遍布谷歌各个数据中心的16000个CPU来进行训练,才达到74.8%的识别率。谷歌内部也做了ImageNet数据集的测试,识别率远低于辛顿团队。
在巨大的差异面前,恰逢辛顿团队组织了一场“自我拍卖”,谷歌决定不惜一切代价收揽人才。当时参与竞拍的共四方,除谷歌外,还有微软、百度以及一家英国的人工智能实验室DeepMind。实际上,百度是最早向辛顿教授提出邀约的科技公司,但谷歌给的钱实在是太多了。
辛顿带着两个学生进入谷歌后,很快就拿下了ImageNet图像识别比赛的冠军,但这已经不重要了,最重要的是谷歌收揽了这几位顶级人才,两个学生之一就是后来OpenAI首席科学家的伊尔亚·苏茨克维(Ilya Sutskever)。
太浩湖拍卖之后,大型科技公司都加入到抢人的行列。百度成立深度学习研究院,挖来了谷歌猫负责人吴恩达,Facebook挖来了“深度学习三巨头”之一的杨立昆(Yann LeCun),苹果挖来了辛顿的学生Ruslan Salakhutdinov,担任苹果首任AI总监。
参与竞拍的DeepMind,也逐渐意识到财大气粗的科技公司正在不惜代价收购人工智能人才,作为创业公司的DeepMind毫无竞争力,只能选择卖掉自己。这家公司从2010年就开始研究神经网络,致力于实现AGI,建造了一个能够学习玩如《太空侵略者》、《乒乓球》和《打砖块》等经典雅达利游戏的系统,特斯拉创始人埃隆·马斯克、硅谷创业教父彼得·蒂尔是DeepMind的早期投资人。
Facebook和谷歌一同竞拍DeepMind,但以德米斯·哈萨比斯(Demis Hassabis)为首的几位创始人坚持DeepMind的技术不能用于军事目的,且其通用人工智能技术必须由独立的技术和伦理委员会监督。扎克伯格不同意这些条件,最终DeepMind被谷歌以6.5亿美元收入囊中。
谷歌出高价又妥协,只为押注当时还飘渺的通用人工智能,Google Brain的不少员工并不理解公司。毕竟,DeepMind需要足够的算力发展,而这背后意味着巨额投入。没人知道DeepMind接下来还要烧多少钱,会烧多久。
这种担忧不无道理。被谷歌收购以后,DeepMind连年亏损。2016年亏损1.27亿英镑,2017年亏损为2.8亿英镑,2018年的亏损就高达4.7亿英镑。但更长远的事实证明,谷歌的大手笔颇有先见之明。
《经济学人》曾发表长文解析DeepMind对谷歌的意义。该刊认为,谷歌斥重金收购的DeepMind如今已经成为了全球AI领域的一个金字招牌,而这一品牌效应将帮助谷歌吸引到最顶尖的AI人才,甚至在这一竞争中先声夺人。
很快,谷歌就迎来了真正属于自己的高光时刻。2016年,DeepMind推出的AlphaGo击败李世石,让人工智能的力量震惊世界。谷歌也成为最先进AI技术的代名词。此外,谷歌还收购了十几家AI公司,投入巨大,立住了AI大哥的名号。
AlphaGo彻底激发了AI创业的热情,一时间,VC、科学家、大学教授、创业者们,无一不在谈论着AI商业化的可能性,但此时的AI还是专才,不管是下围棋还是人脸识别、语音识别、翻译,都只能满足特定的功能。
直到2017年,谷歌的几位研究员发表《Attention Is All You Need》论文,首先提出了Transformer算法,将其用于理解人类的语言,即自然语言处理。这篇开源的论文让众多研究AI的科学家和科技公司意识到,这可能是完全不同于识别型AI,实现通用型AI的关键钥匙。
Transformer,成为后来所有LLM(大型语言模型)的基石。
如果没有谷歌对Transformer的开源,就没有后来ChatGPT的成功,OpenAI站在巨人的肩膀上,才看清楚自己前行的方向。
但起初,OpenAI是为了对抗谷歌才成立的。
2015年7月,马斯克在自己的生日派对后,与来参加派对的朋友、时任谷歌CEO拉里·佩奇爆发了一场关于人工智能的争论,佩奇认为人类最终会和AI机器共存,一起竞争,一起发展,而马斯克认为放纵AI发展最终会毁灭人类,佩奇嘲讽马斯克是偏袒人类的“物种主义者”。
这让马斯克再一次产生对谷歌控制人工智能发展的警惕。当年马斯克投资DeepMind,也是出于对人工智能发展的担忧,希望能近距离观察,DeepMind被谷歌收购后,马斯克便不再参与公司事务,但依然作为股东参与了2015年8月DeepMind召开的伦理委员会会议。当时DeepMind的创始人汇报了工作,并强调AI可能带来的严重风险,比如导致虚假信息大量增加,导致大量民众失业,提议谷歌实行“全民基本收入”政策,即与普通民众分享AI发展带来的红利。
马斯克很赞同,但他的意见没什么用,来自谷歌的金主们认为这些担忧是过虑的。于是,马斯克联合了另一些对AI发展持有警惕态度的人,包括硅谷风投家山姆·奥特曼(Sam Altman),在2015年末成立了OpenAI,致力于防止人工智能威胁人类,开发造福全人类的通用人工智能,对抗大公司如谷歌等对人工智能的垄断。
刚刚成立的OpenAI,就像一个专注学术研究的象牙塔,靠理想支撑,但不清楚具体要做什么。在理想的感召下,伊尔亚·苏茨克维等一批顶尖科学家,以及DeepMind那些曾经的布道者们,放弃了谷歌的高薪,从谷歌离开加入OpenAI。直到2017年,谷歌又帮助OpenAI解决了不知道干什么的问题,Transformer架构成了OpenAI的攻坚方向。
自此,谷歌和OpenAI成了同一条跑道上的对手。但在大模型成长过程中,双方走了两条路线。第一种,可以理解为“阅读理解”,即通过给出上一句预测下一句的方式不断训练模型,只为了让大模型越来越“说人话”。2018年6月,OpenAI发布了只有解码器(decoder-only)的GPT生成式预训练模型GPT-1。
第二种,可以理解为“完形填空”。即给出一段话,挡住中间的某些部分,给出上下文进行训练,可以让大模型说的话更准确。2018年10月,谷歌重磅推出BERT,一个比GPT大四倍,拥有3.4亿参数的大模型,几乎在所有表现上碾压了GPT。
BERT的成功一度让OpenAI怀疑自己的路线是否正确,但作为创业公司,OpenAI没有那么多钱去做别的尝试,只能孤注一掷生成式AI,践行着无脑堆参数的暴力美学,2019年2月推出的GPT-2没有新架构,只是参数翻了十几倍,模型堆叠层数翻了四倍,GPT-3再次翻倍。
而这期间的谷歌在干嘛呢?尝试过完形填空类型的BERT,2019年10月,谷歌又发布了统一的模型框架——T5,既有编码器又有解码器,相当于把BERT和GPT结合起来,110亿参数再次碾压GPT-2。
看起来,谷歌在相当长一段时间里占有优势,但其实是在错误的方向上走了更远的路。谷歌的变来变去,给OpenAI留足了追赶的时间,继续在GPT-3上暴力堆参数,堆到1750亿,惊喜地发现在大模型上出现了“智能涌现”,即参数量达到一个阈值,模型会出现一些开发者无法解释的复杂能力,看起来就像拥有了人类的思维和推理。
这时谷歌才意识到自己选错了方向,重新转向只有解码器的模型,也像OpenAI一样堆参数,2022年左右先后推出了FLAN模型和LaMDA 2模型,但最终棋差一招,OpenAI发表经过‘魔鬼调教’的InstructGPT和兄弟模型ChatGPT,一炮而红,站在了人类通往AGI的潮头。
技术上走的弯路,足足耽误了谷歌18个月的时间。除此之外,领导层面的保守,也使得谷歌即使有所成绩,也因为考虑风险,并未推出产品。
2021年5月,谷歌展示了其最新的人工智能系统LaMDA,一款对话应用语言模型。跟ChatGPT一样,LaMDA可以使回答更加“合情合理”,让对话更自然地进行。此外,它还可以利用外部知识源展开对话。而且,这些回复都不是预先设定的,甚至相同的答案不会用第二次。
彼时,距离ChatGPT出现,还有一年半时间。但LaMDA却没能迎来ChatGPT式的爆火。甚至没有太多人了解它。LaMDA被藏在深宫中,谷歌并未向公众发布。被雪藏的一个原因是LaMDA存在较高的误差,谷歌觉得有“毒性”,容易对用户造成伤害。
谷歌CEO 桑达尔·皮查伊(SUndar Pichai)和谷歌AI部门长期负责人杰夫·迪恩(Jeff Dean)也曾表示,谷歌其实完全有能力拿出类似ChatGPT的成果。只是一旦导致事故,谷歌这样的企业巨头需要承受的经济及声誉损失难以估量。
一个案例是之前Google Photo的AI把黑人自动打标签成了猩猩,在政治正确的美国这是天大的灾难,直接延缓了聊天机器人的开发,最终慢了ChatGPT一步。
毕竟,全球有数十亿用户在使用谷歌的搜索引擎,而ChatGPT到12月初才突破100万用户。巨人难转身,谷歌的试错风险远远高于初创公司。
谷歌不交卷,大家都用不了。对于许多用户而言,演示视频都是虚的,“用谁吹谁”。谷歌也在当下失去了被世界看到的机会。
站在巨人的肩膀上,或者换句话,把巨人踩在脚下,OpenAI的成功尤为亮眼。
ChatGPT 就像哆啦A梦的口袋,似乎能解答你的任何疑问。不仅能回答连续的问题、还能生成文本摘要、对信息分类、写代码等,它也会承认错误、质疑不正确的前提并拒绝不恰当的请求。某种程度上,拥有了近似人的特征。
在ChatGPT发布后的五天内,就有超过100万的玩家,Facebook花了10个月才积累到这个数字。发布两个月,ChatGPT月活跃用户达到1亿,堪称史上增速最快的应用。为此,Instagram用了2.5年,TikTok用了9个月。
但OpenAI的成功,在OpenAI的科学家们眼中,更像是“与魔鬼做了一次交易”。
大模型的大,是由大数据、大算力、大算法撑起来的,因此,尽管神经网络的概念早在半个世纪前就有了,一直到十五年前,还停留在科幻层面,被科学界忽视,“正经人谁研究那个”。直到英伟达的显卡解决了算力问题,互联网积累了海量的数据,醉心于算法研究的AI科学家们才有了用武之地。
作为一家创业公司,OpenAI想在大模型道路上走得更远,最终实现AGI,需要不断烧钱,这是它与竞争对手谷歌之间最大的鸿沟。而作为非盈利组织的OpenAI,难以得到太多投资人青眼。坚持初心意味着没钱发展,最终,2019年3月,OpenAI 重组,创建新公司OpenAI LP,成为一家“利润上限(caped-profit)”机构。每日人物在《突然被开除,ChatGPT之父做错了什么?》一文中详解了OpenAI的组织架构,这也成为OpenAI公司内乱的伏笔。
虽然被OpenAI董事会开除的CEO奥特曼最终以胜利者的姿态回归公司,但OpenAI内部的分歧不会消失,正如OpenAI政变的幕后推动者、首席科学家苏茨克维在采访中表达的那样:自己的首要任务不是制造下一代的 GPT,而是研究如何阻止超级人工智能失控——这是 OpenAI的起点。
在OpenAI内乱中,有一个小小的插曲,OpenAI董事会在驱逐奥特曼之后,曾跟AI创业公司Anthropic秘密接洽,意图合并两家公司。Anthropic创始人Dario Amodei曾经是OpenAI的员工,2020年离职创办了这家公司,离职的原因正是觉得OpenAI枉顾AI的道德和伦理风险,在商业化和产品更新上走得太快。
无论如何,OpenAI再也回不去那个纯粹的象牙塔了,正如《大西洋月刊》所写的那样,“在ChatGPT之后,赚取收入和利润的道路变得清晰,你再也无法为‘理想主义研究实验室’的身份做辩护了。那里有客户正等着服务”。
无解的矛盾隐藏在OpenAI,等待着下一次的爆发,也拉扯着ChatGPT更新的节奏,这对于谷歌来说,应该是个好消息。追赶还在继续,只要不下牌桌,这场AI竞赛的结果依然难以预料。除了谷歌、OpenAI、微软,Meta靠着开源招揽人气,亚马逊投资了OpenAI的潜在对手Anthropic,马斯克也在摩拳擦掌重新夺回属于他的荣光。
大模型一年,全球都开始激流勇进,谁是最后赢家尚未可知。唯一可以确认的是,AI的世界正在加速释放想象。对人类而言,未知的风暴尚在酝酿中。