当人工智能进入千模大战的白热化状态时,有些玩家开始独辟蹊径,要做大模型背后的“代理人”。这种智能代理的模式又被称为大模型调用工具。
阿里云走的就是这条路线,它推出的大模型调用工具——魔搭GPT(ModelScopeGPT),可以完成比单独的大语言模型更高级和多元化的任务。
(相关资料图)
比如,用户在魔搭GPT的对话框输入任务:“用20字描述一款新的VR眼镜,并用女声朗读,随后转成视频”,魔搭GPT会展示整个任务规划过程,先由中枢模型生成一段描述VR眼镜的文案,接着调用语音生成模型,生成语音并用女声念出,最后调用视频生成模型,输出最终的视频内容。过程中,魔搭GPT先后调用了一大二小三个模型。
那么如何保证魔搭GPT有足够多的模型可以调用呢?
阿里云为此建立了一个魔搭社区,作为国内最大的AI模型社区,它集聚了180多万开发者和900多个优质AI模型,这些模型由20多家顶尖人工智能机构贡献,累计下载量突破3600万。这其中,有约100个参数规模在10亿以上的大模型。在魔搭平台上,所有模型生产者都可上传模型,验证模型的技术能力,探索模型的应用场景和商业化模式。
而上述产品,正是阿里Maas(“模型即服务”)概念的具体体现。
在7月7日的世界人工智能大会上,阿里云CTO周靖人阐释了Maas的几层含义:
最底层的含义是要把模型作为重要的生产元素,围绕模型的生命周期设计我们的产品,设计我们的技术,从模型的开发入手,包括数据处理、特征工程、模型的训练和调优、模型的服务等等,围绕这样模型生命周期提供各种各样的产品和技术。
模型还有另外一层含义,围绕模型的生态发展,除了底层的基础模型,我们还会聚焦行业,有行业的专属模型,甚至到某一个企业,根据具体的应用场景,还有企业或者具体场景需要的专属模型。可以看到模型正以这样层次化的结构不断发展、不断创新。
另外,模型不光是在云上,在端上、IOT设备里面也发挥了一系列的作用,今后,完整的模型生态不光是今天涉及到的云端,还会有手机端和随身设备,模型在无形之中也形成了立体的服务机制,服务生活的方方面面。
在发布通义千问大模型之后,阿里云一直在丰富其AI产品形态,6月1日,阿里云发布了通义听悟,这是一款基于通义千问语言模型、音视频AI模型能力,能为用户带来音频、视频内容记录和阅读全新体验的AI助手,帮助随时随地高效完成对音视频内容的转写、检索、摘要和整理,比如用大模型自动做笔记、整理访谈、提取PPT等,可成为用户工作学习中的得力AI助手。
7月7日,周靖人又推出了通义家族的一个新成员:通义万相。
通义万相是绘画领域的模型。大家通过文字描述的方式,让万相生成相关图片。还可以结合一系列的模式和风格,让万相快速生成符合你描述的语义以及相关风格的精美图片。描述语义可以通过多种语言,有效地精准地去描绘自己要生成图片的内容。
除此之外,万相也可以做风格迁移。比如,比较满意图片中体现的语义,但是不满意图象风格,就能通过通义万相做风格的迁移。
如果我们比较喜欢某个图片的风格,希望生成更多样性的图片,就可以利用相似图的生成,让通义万相在保持相关风格的情况下,生成更多样的图片。(撰文 | 董温淑 编辑 | 孙春芳)
关键词: