出品 | 搜狐科技
(资料图)
作者 | 梁昌均
编辑 | 杨锦
在高调呼吁暂停开发高级别人工智能后,近日,马斯克被爆出斥资数千万美元购买上万张GPU训练算力,并成立对标OpenAI的X.AI公司以开发大模型。
ChatGPT引爆的AI大模型,正在成为全球科技巨头竞相追逐的新战场。
国外有微软、谷歌、亚马逊,国内更是遍地开花。“大模型发布月”名不虚传,刚刚过去的一周基本以“天”为计不断更新。继百度之后,华为、阿里、腾讯、360、商汤、知乎、毫末智行、昆仑万维等纷纷公布大模型进展,可能成为中国AI发展史上最“内卷”的一周。
同时,创业市场依然不断有大佬进入,搜狗创始人王小川,美团联合创始人王慧文和元老级高管陈亮纷纷投身AI大模型。王小川和百度李彦宏阵营围绕技术差距等问题打起口水战,为AI大模型添了一把火。
国内诸神混战,热闹非凡,热度甚至完全超过美国。但狂飙之下,形形色色的入局者也需想清楚这背后的挑战——除数据、算力和算法外,更关键的是如何跑通技术和商业的闭环。
大模型混战,大佬隔空互怼
刚刚过去的四月第二周,国内AI大模型浪潮迎来巅峰。先是华为公布了盘古大模型的进展,360宣布将基于360GPT大模型开发的360智脑落地搜索场景。
随后商汤公布日日新大模型,开启内测的阿里通义千问正式亮相,毫末智行发布全球首个自动驾驶大模型DriveGPT雪湖·海若,再到腾讯推出性能提升3倍的新一代高性能计算集群,知乎推出中文大模型知海图AI,让人目不暇接。
AI创业圈也不断有大佬进入,美团前高级副总裁、最高决策机构S-team成员陈亮近日已入局大模型创业,这是继王慧文之后第二位投身大模型创业的美团元老。
此前被寄予厚望的王小川也正式官宣,和前搜狗COO茹立云联合创立百川智能,并放话年底做出中国最好的大模型,还因和李彦宏阵营的隔空互怼引发圈内关注。
接下来,预计还会有更多的大模型发布。京东称将在今年发布千亿级参数的言犀大模型,昆仑万维的天工3.5在今日开启内测,科大讯飞将在5月发布大模型产品。
字节跳动、网易等国内有头有脸的公司都在研发大模型。雷军也表示,对大模型会全力以赴,坚决拥抱,并称正在研发一些有趣的技术和产品。
据民生证券不完全统计,目前国内已发布超过30个大模型。此前宣布大模型创业的出门问问创始人、CEO李志飞则预计,中国未来1-2年会看到50家以上公司做大模型。
国内目前布局AI大模型的企业和机构 资料来源:民生证券
这场混战也引发了很多争论,王小川就不认同李彦宏称文心一言与OpenAI仅相差两个月的言论。关于国内与OpenAI的差距,目前并没有统一的对比标准。最“自信”的李彦宏认为仅差两个月,周鸿祎、王小川等认为相差2到3年,也有“中间派”认为差距是1到2年。
此外,关于巨头和创业公司在大模型时代的机会,各方立场也不同。不少观点认为,大模型是烧钱窟窿,只有巨头能玩得起,创业公司机会不大。李彦宏就表示,中国创业公司基本不会出现下一个OpenAI,重新做一个ChatGPT没有多大意义,也没有必要重复去造轮子。
李志飞曾在国内率先声称要做“中国的OpenAI”,但经过一个月后逐渐变得冷静,认为国内大概率不会出现OpenAI,而通用大模型不一定适合所有人,包括大佬们。
今年以来入局AI大模型创业的大佬
但也有很多观点认为,创业公司在技术和商业层面也有很大机会。王小川认为,大厂更注重业务目标,自身惯性使其很难做0到1的创新,创业公司更适合去做通用人工智能,这与李彦宏的立场截然不同。
如此种种,孰是孰非,难有定论。而类似的争议也将延续,如近日因马斯克等人呼吁暂停研发更高级别人工智能引发的AI监管问题,全球也并没有形成一致的共识。
不得不的警惕是,在人潮汹涌之际,需要防止大模型出现类似元宇宙的短命现象。当年元宇宙的火爆程度并不比大模型弱,但最终潮水褪去,微软、Meta等大厂灰头灰脸进行收缩,元宇宙终究是触不到的海市蜃楼。
从目前来看,国内在大模型上还是有些浮躁,不少企业在技术或产品没有打磨好之前便匆忙推向市场,借助概念蹭热点的公司更是不在少数。国内要想赶超OpenAI,做好大模型,可能还需要的是冷静,以及长期深耕的准备。
从大炼模型到炼大模型
国内开启对大模型的研发,时间并不算太晚。就在OpenAI推出GPT-2并接受微软10亿美元投资的一个月后,即2019年3月,百度就发布了上亿规模参数的ERNIE1.0(文心大模型),这是中国第一个正式开放的预训练大模型。
目前,百度的文心大模型已迭代到ERNIE3.0版本,参数规模超越GPT-3达到2600亿,是全球首个知识增强的千亿AI大模型,文心一言、文心一格等即是基于ERNIE3.0打造。
但百度抢下国内首发并未带来大模型的升温,而是直到两年后才受到更多关注。2021年3月,科研机构智源研究院推出悟道1.0大模型,三个月后迭代至悟道2.0,参数规模高达1.75万亿,是GPT-3的10倍,刷新之前谷歌创下的1.6万亿参数纪录,是彼时中国首个和全球最大的万亿级模型。
国产大模型逐渐成为巨头的游戏,人工智能从大炼模型迈向炼大模型时代。华为在2021年推出盘古大模型,腾讯和阿里也先后推出混元大模型和通义大模型,其中阿里的多模态大模型M6的参数在不到两年内从3亿暴增到10万亿,目前仍是全球最大预训练模型。
从百度、华为、阿里、腾讯等巨头的布局来看,其更注重打造通用的基础大模型,因此规模也往往更大。不过,巨头的玩法并不适合所有公司。
一般来说,模型越大,对算力要求越高,成本也就越高。据浙江大学人工智能研究所所长吴飞介绍,ChatGPT的训练门槛是1万张英伟达V100芯片,约人民币10亿元,模型训练算力开销是每秒运算一千万亿次,需运行3640天。
而从创业公司来看,李志飞认为5000万美元是基本门槛,王慧文和王小川首轮融资都是这个规模。因此,并不是所有的企业都有能力,或者说有必要去做通用模型,专注于垂直领域依然有很大的机会。
目前,也有不少公司专注打造面向具体行业和场景的垂直大模型,如毫末智行面向自动驾驶领域的DriveGPT雪湖·海若,创新奇智推出的工业大模型产品奇智孔明,云从科技也计划募资超36亿元研发行业大模型。
达观数据董事长兼CEO陈运文认为,与通用大模型相比,垂直大模型参数少,训练成本和使用成本将更具有竞争力。目前,该公司也正在研发名为“曹植”的垂直领域模型。
值得注意的是,巨头在打造通用模型外,也面向不同技术领域进行布局。百度以文心大模型为底座,面向自然语言理解、计算机视觉、多模态、生物计算等领域都推出大模型,华为、腾讯和阿里也是类似。百度则更快人一步,目前已在能源、金融、制造、教育等领域推出36个行业大模型。
百度副总裁吴甜曾对搜狐科技解释称,通用模型对行业特有的数据和知识的把握能力依然有不足之处,因此有必要打造行业大模型。她认为,这是通用模型未来能够广泛应用最有效的方式。如今这也得到更多认可,华为也不断推出面向具体行业的大模型,阿里也将在今天发布行业大模型。
对于大模型的发展,过去都在追求规模,短短两三年参数就从亿级别达到10万亿级别。但越来越多的观点认为,大模型并不是越大越好,或者说在参数继续增加的同时要更加关注如何提升模型的能力。
OpenAI首席执行官山姆·奥特曼近日就提到,OpenAI正接近语言大模型规模的极限,规模不再是衡量模型质量的重要指标,而规模越大并不一定意味着模型越好,未来需要有更多方式来提升模型的能力和效用。
他认为,未来模型参数应该向更小的方向发展,或者以多个小模型协作的方式工作。实际上,大小模型协同也越发成为国内产业界共识,达摩院曾就将此视为未来趋势之一。吴甜也表示,大模型在产业应用上非常重要,但不是唯一方向,大小模型并非互斥,而是相互协同。
C端哑声,普遍押注B端应用
选择做大模型仅仅是第一步,更为关键的是如何打通技术和商业的闭环。正如李志飞所说,做出通用人工智能又能怎么样,更重要的还需要make AGI accessible。
过去人工智能的商业模式主要是针对特定任务、场景开发专用小模型,难以标准化,导致成本高企,这也是为何几乎所有AI公司难以盈利的根本所在。通用模型则可以将下游碎片化任务和场景一网打尽,推动人工智能从作坊式完成工业级的标准化生产和商业应用。
目前,OpenAI的GPT模型在商业化方面走在前列。C端实现会员收费,上亿用户将为其提供一定的变现潜力;B端通过API和插件方式服务客户,同时还借助微软实现在搜索、办公等领域落地,并通过云对外提供更为泛化的能力,这也成为国内模仿的打法。
不过,国内基于大模型C端产品或面临更为严格的限制和监管。百度文心一言和阿里的通义千问仍在内测阶段,国内目前还没有一款C端产品如ChatGPT般向公众开放。
生成式人工智能在监管上也正在受到更多关注。近日我国发布了《生成式人工智能服务管理办法(征求意见稿)》,明确要求不得出现歧视,生成内容应当真实准确、防止生成虚假信息等,如果出现,除内容过滤外,还要通过模型优化等进行优化。作为生成式人工智能的固有缺陷,这在从技术上难以保证和彻底解决。
可以预见,在未来一段时间内,基于大模型的C端产品或难以突破,这也在很大程度上使得国内大厂普遍都在押注B端落地。
从头部大厂布局来看,其推出的大模型不仅是自身业务的支撑,如百度将文心一言落地在自家搜索、小度和智能驾驶等业务上,阿里所有业务也都将接入通义千问;更为重要的是,这些企业还将大模型的能力对外输出,助推行业数字化和智能化的进一步升级。
业界也已逐渐达成共识,比尔·盖茨、阿里CEO张勇等人都认为,所有行业或产品都会被AI大模型重塑,从而带来新一轮的升级。
目前,大厂都在计划通过云的方式对外输出大模型的能力,云计算成为AI大模型落地的最佳方式,模型即服务(MaaS)越发受到关注,而这也将带来大模型成本的降低。据阿里云透露,未来在云上训练一个模型的成本将有可能降低到现在的十分之一,甚至是百分之一。
这使得企业不需要再从“零”起步去训练出一个“好用”的大模型,而是可以直接调用大厂的通用大模型,再结合自身的行业知识积累和应用场景,就能以较低成本“一键”生成适合自己的专属大模型。
不过,关于C端和B端谁更有前景,目前并无定论。普遍的观点认为,B端将是大模型应用富矿。但在王小川看来,C端服务才是未来更大的机会。
以大模型为代表的AI 2.0狂潮时代,将是一场持久战。打口水战没有意义,只有打通技术和商业的闭环,最后才有可能在混战中取胜。
关键词: