OpenAI和谷歌再度燃起争霸烽火-新华网

　　OpenAI与谷歌的又一次技术交锋刚刚落下帷幕。

　　北京时间5月14日凌晨，OpenAI发布了新一代多模态人工智能（AI）大模型GPT-4o，其先进的AI语音交互技术迅速吸引了人们的目光。

　　一天之后，谷歌在北京时间15日凌晨的I/O 2024开发者大会上，携新版Gemini AI大模型等尖端产品重装上阵，正面对决OpenAI，燃起新一轮AI领域争霸的烽火。

谷歌Project Astra亮相发布会。图片来源：美国Gizmodo网站

　　GPT-4o语音对话丝滑如真人

　　一个拥有流畅、迷人嗓音的逼真AI，可以让人类用户着迷并留下深刻的印象。调情、讲笑话、满足人类的欲望，并最终留住他们的心……这是2013年美国上映的电影《她》中的情节。在这部影片中，一位叫萨曼莎的虚拟姑娘让孤独内向的男主深陷其中。

　　事实上，这也是OpenAI展示的新模型GPT-4o所能让人联想到的情节。

　　据OpenAI介绍，GPT-4o是一个“原生多模态”模型。它命名中的o来源于“omni”一词，意为“全能的”，有包罗万象之意。它可以接受文本、音频和图像任意组合的输入，并生成这些格式的相应输出。新模型使ChatGPT能够处理50种不同的语言，速度和质量同时得到提高。它可以在短短232毫秒内处理音频输入，平均耗时320毫秒，与人类对话中的反应时间相当。

　　GPT-4o允许ChatGPT以更加逼真的方式与用户交流。它不仅能检测用户声音中的情绪，分析面部表情，还能根据用户需求改变语调和节奏。如果想听睡前故事，它可以用耳语说话。如果需要来一段带“酸味儿”的对话，它就能以轻松、讽刺的语气与人交谈。它甚至还可以按要求唱歌，一会儿是高亢的女高音，一会儿又能变成迷人的女低音。

　　有趣的是，就在GPT-4o官宣发布后，一名OpenAI的员工发布了一条意味深长的信息：“你们都会爱上它的。”

　　Astra让AI与人们生活无缝融合

　　OpenAI发布了GPT-4o后，压力就给到了谷歌。谷歌在发布会上，放出大招向OpenAI“开战”，势必要扳回一局。

　　谷歌在整个大会中共提到“AI”121次，并推出了从新的搜索和聊天功能到面向云客户的AI硬件等十余种新品和升级产品。其中包括由升级后Gemini模型驱动的AI助手项目Astra、对标Sora的文生视频模型Veo，以及第六代Tensor处理器单元（TPU）Trillium芯片。

　　Astra是一次旨在创建“通用人工智能代理”的新尝试。与GPT-4o一样，Astra具有以各种形式或多模式方式快速响应用户的卓越能力，这使得它非常适合成为AI助手。

　　谷歌表示，通过对视频帧和语音输入进行连续处理和编码，Astra可以创建事件时间轴并缓存信息，以便快速调用。这使AI能看、能听、能说，甚至能回忆。在一段引人入胜的视频中，这款模型通过智能手机的摄像头识别出现实世界中的物体，能直接读取代码，甚至能帮用户回忆起他的眼镜落在了哪里，还能几乎零延迟与人实时对话。

　　生成式AI革命远未成功

　　自ChatGPT宣告问世，谷歌和OpenAI的竞争就不断升级。现在，两大科技巨头更是在两天时间里纷纷亮出引人瞩目的产品。

　　然而，生成式AI的飞速发展也伴随着众多质疑的声音。人们对于这些科技公司所塑造的“AI未来”仍持谨慎态度。

　　《新科学家》杂志网站称，人们应该认识到，生成式AI的成功还远未确定。这个领域还很新，公司之间竞争的目的并不是市场份额或客户忠诚度，而仅仅是为了拥有最新产品。新的GPT-4o尽管更有“人味儿”，但AI胡编乱造的行为未必能得到限制。

　　根据美国皮尤研究中心的调查，尽管ChatGPT在过去几年声势浩大，但只有23%的美国成年人使用过它。英国牛津大学卡丽莎·维利兹副教授称：“这项技术到底有多大影响，目前还很不明确。大多数人尚未体验过生成式AI工具，有理由认为，这项技术最终可能不如一些人想象的那样具有革命性。”（记者张佳欣）

【纠错】【责任编辑:朱家齐】

深度观察

新华全媒头条丨世界级城市群怎样建？来看长三角国际“对话”