全球实时：工程师解读GPT-4:基于草图10秒内生成代码令人惊艳，或将优先挑战AI行业从业者

出品 | 搜狐科技

作者 | 潘琭玙

OpenAI在3月15日凌晨正式发布多模态大模型GPT-4，作为深度学习的新里程碑，据OpenAI介绍，GPT-4在专业和学术方面表现出近似于人类的水平。例如，它在模拟律师考试中的得分能够排进前10%左右，相比之下，GPT-3.5的得分只能排在倒数10%左右。

(资料图片)

能读图做网页，在律师考试中击败90%的人类，甚至在要求它输出“关于歌手麦当娜的新颖笑话”，它的回答确实能让提问者发笑。

可以肯定的是，GPT-4实现了更准确、更专业也似乎更有“人味儿”了。一时间大批新订阅用户涌入，以至于OpenAI的付款系统被挤爆。

针对GPT-4的优化升级，搜狐汽车产品技术中心高级开发工程师吴奕蒙向搜狐科技表示，GPT-4是在GPT-3.5之上的延续，“把GPT3.5原先能够处理的任务基本上推到了极致。”例如此前GPT-3.5所能实现的简单问答对话，此次GPT-4的升级在于能够更专业地解决垂直领域的问题包括数学、物理问题，都能够准确地给出答案。

但在实际场景的应用上，他举例了在开发工作上的应用。在GPT-3.5版本的ChatGPT上，已能够实现将问题复制粘贴过去，它罗列出错误的可能性，再针对它所提出的可能性进行进一步的查询。在这方面，GPT-4实际上并没有优化升级，“对开发工作而言应用场景的差别不大，它仍然不能够直接解决复杂的问题。”

OpenAI也表示，在简单的谈话中，ChatGPT与GPT-4可能看不出太大差距。但是，当任务的复杂性达到足够的阈值时， GPT-4比GPT-3.5更可靠、更有创意，并且能够处理更细微的指令。

“最惊艳的是它通过一张网页草图在10秒内生成代码”

与此前的GPT系列模型相比，GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示，用户同时输入文本和图像的情况下，它能够生成自然语言和代码等文本。吴奕蒙表示，“GPT-4会优化出图片处理能力其实不是很意外”，他指出，2021年OpenAI曾公布过把语言模型和图像的输入理解结合在一起的模型，名为CLIP。

（OpenAI2021年公布的语言模型与图像结合的模型CLIP）

另外，他也指出，此前微软也尝试过实现伪图形识别或是伪多模态的方式名为visual ChatGPT，将图形转变成链接输入，“如果模型在训练的时候知道该链接与其中内容，它有可能能够理解。”他也提到，之前微软也有过相关的研究发表，类似这样的图像理解，基本上原理都是将图像和文字进行一些关联后，交给模型去学习，把图像和文字的理解尽量靠到同一个程度上，让模型进行学习。

但他指出，GPT-4的图像处理能力中，更令人意外的是通过一张网页草图在10秒内生成了网站的代码，并且可运行。“按照原来的理解，首先需要做图像的文字识别，我们叫做OCR的任务，提取图片中的文字内容，但GPT4或许没有通过这样的方式去进行。”据悉，此次迭代后，OpenAI并没有公布论文，只有一份技术报告，不提供架构（包括模型大小）、硬件、训练计算、数据集构建、训练方法等细节，因此难以确定背后的技术原理。

吴奕蒙指出，OpenAI的大方向是实现通用性，即输入后直接去处理，然后输出结果。“它不做很复杂的判定，比如说人工去写一些规则这种事，因此如果识别不同的图，需要调用它不同的理解模块的话，这显然不太符合OpenAI的思路。”

事实上，开发单纯的网页界面，这个任务本身对开发人员而言没有难度。如果将草图上的内容，通过文字描述形式交给GPT3.5版本的ChatGPT，它也能够生成网页代码。因此，吴奕蒙指出，“它最惊艳的地方对一张草图自行进行识别处理，并输出了代码。”

但他也补充说明了草图生成代码这样的功能，微软有过一个非常相似的项目，叫sketch2code，几乎是一模一样的效果。“看草图写网页这个任务和其他的写物理题数学题一样，都是一个特定的任务。”相比起“看图说话”，识图输出代码此前的相关工作较少，形式更新颖，但是背后依然有之前的大量研究工作做支撑。

（微软sketch2code）

同时，他也强调，通过草图生成代码不代表GPT能够通过任意的图写出各种复杂逻辑的代码。在开发环节上，除了工程师之外，还有产品经理这样的角色，他们将一个需求理解之后，去做一系列的设计，再将其解释成工程师能够直接通过代码逻辑去完成的内容。

目前GPT-4只是在从工程师到代码产出这部分环节进行协助，但在这之前的环节仅凭它现在的能力无法实现。“模型的输出受到输入内容的影响较大，现实工作中的问题不像是网页草图这么简单。”

因此真实工作场景下，GPT依然作为工具，人类在整理思路后输入给模型，模型输出后也仍需人力进一步判断理解，进行调整。而在复杂问题下，想把这一系列工作做好，本身就需要问问题的人有一定的专业知识和理解。吴奕蒙表示，“有一个更大胆的说法是，会熟练使用ChatGPT的程序员，会替代完全不用ChatGPT工作的程序员。”

“GPT-4的出现优先挑战了AI行业从业者”

而当GPT-4的出现又一次重新划分了“人类专属技能”的这一边界，舆论场也再次掀起关于哪些行业将会失业的讨论。

对此，吴奕蒙认为GPT-4的出现或许优先挑战的是AI行业从业者。他指出AI研究此前是切分成小任务进行研究，比如CV计算机图像，或者说NLP自然语言处理，研究深入但不通用，“一个模型能解决这个问题，但解决不了另一个问题。”

GPT-4此次的迭代进一步证实了它强大的通用性，“至少在语言的理解层面，通用性很强。”仅此一个模型，能够通过输入的方式，自行调整，完成细分领域的每一个小任务。“大公司用大模型把所有的问题基本上解决了，唯一的问题就是成本问题。”这将很大程度上影响AI行业的研究方向。

对于其他行业从业者而言，吴奕蒙认为，在当前多数工作都需要使用许多辅助工具的情况下，GPT-4或许是作为“更有效率的工具”的一个可选项。

另外，GPT-4在理解人类的维度上也实现了大幅提升。OpenAI花费了6个月的时间使用对抗性测试程序，以及在ChatGPT身上累积的经验教训来迭代调整GPT-4。他们称，“GPT-4在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。”

吴奕蒙表示，这是OpenAI长期在对齐研究（alignment research）上的尝试与突破，通过从模型的帮助性、可靠性与安全性三个方面进行优化，在大模型所掌握的数据和知识已经足够充分的情况下，如何让它发挥出真正的作用，直接帮助到人类，是更难的。“需要保证它不会出现答非所问的情况，回答的内容是可靠且安全的。

关键词：