谷歌刚刚推出了长期期待的回答ChatGPT的产品Gemini

谷歌最近推出了备受期待的回答ChatGPT的产品Gemini

越来越多关于人工智能以可能危险的速度发展的议论并没有减缓事情的进行。在OpenAI发布ChatGPT并引发新一轮开发AI技术的竞赛一年后,谷歌今天披露了一个旨在重新确立该搜索巨头作为全球AI领导者的AI项目。

Gemini是一种可以处理文本、图像和视频的新型AI模型,它可能是谷歌历史上最重要的算法,仅次于将搜索引擎推向公众视野并创建了一个企业巨头的PageRank。

Gemini的首个版本将在今天开始在谷歌的英语设置的聊天机器人Bard中推出。它将在170多个国家和地区提供。谷歌表示,从12月13日开始,开发者将通过Google Cloud的API获得Gemini。该模型的一个更紧凑版本将从今天起为Pixel 8智能手机的键盘提供推荐的消息回复。Gemini将在“未来几个月”内引入谷歌的其他产品,包括生成式搜索、广告和Chrome。谷歌表示,所有版本中最强大的Gemini版本将于2024年首次亮相,前提是经过“广泛的信任和安全检查”。

在今天的新闻发布会上,谷歌DeepMind的首席执行官Demis Hassabis在接受ENBLE采访时表示:“这对我们来说是一个重要时刻。我们对其性能非常兴奋,我们也很期待看到人们在其之上构建的东西。”

谷歌将Gemini描述为“本地多模态”,因为它不仅仅是在文本上训练,而是在图像、视频和音频上进行训练,而最近生成式AI热潮的核心始终是大型语言模型。在宣布Gemini的新闻发布会上,谷歌DeepMind的产品副总裁Eli Collins表示:“这是我们最大、最有能力的模型;它也是我们最通用的模型。”

谷歌提供的图片

谷歌表示,Gemini有三个版本:Ultra是最大且最有能力的版本;Nano是显著更小且更高效的版本;Pro是中等大小和能力的版本。

从今天开始,谷歌的Bard将使用Gemini Pro供电,这一变化将使其能够进行更高级的推理和规划。今天,Gemini Pro的专门版本正在整合到谷歌DeepMind的面向编码的“研究产品”生成式工具AlphaCode的新版本中。最强大的Gemini版本Ultra将于2024年放入Bard并通过云API提供。

谷歌和Bard的总经理Sissy Hsiao表示,该模型的多模态功能赋予了Bard新的技能,并使其在总结内容、头脑风暴、写作和规划等任务方面变得更加出色。“这是我们发布以来Bard取得的最重要的单一质量改进,”Hsiao称。

谷歌展示了几个演示,说明了Gemini处理涉及视觉信息的问题的能力。其中一个示例是AI模型对一个视频进行响应,该视频中有人进行图像绘制、创建简单的谜题,并要求涉及世界地图的游戏创意。谷歌的两位研究人员还展示了Gemini如何通过回答有关涉及图表和方程的研究论文的问题来帮助科学研究。

Collins表示,即将推出的Gemini Pro模型在六项常用的AI软件智能测试基准中,比最初驱动ChatGPT的旧模型GPT-3.5的表现更好。

谷歌表示,Gemini Ultra,即明年首次亮相的模型,在“大规模多任务语言理解(MMLU)”基准测试中的得分达到90%,高于任何其他模型,包括GPT-4。该基准测试是由学术研究人员开发的,用于测试语言模型在数学、美国历史和法律等主题的问题上的表现。

“Gemini在机器学习研究社区中广泛使用的32个基准测试中有30个是最先进的,”Collins说。“因此,我们确实看到它在各个领域都在开拓新的局面。”

OpenAI的GPT-4目前驱动着ChatGPT最强大的版本,在今年3月首次亮相时震惊了人们。它还促使一些研究人员改变了对AI何时能与人类智能的广度相媲美的期望。OpenAI将GPT-4描述为多模态模型,并在9月将ChatGPT升级以处理图像和音频,但它并未说明核心GPT-4模型是否直接在除文本之外的其他内容上进行了训练。ChatGPT还可以借助OpenAI的另一个模型DALL-E 2生成图像。

如何防止另一个OpenAI崩溃

Paresh Dave

OpenAI同意从首席执行官Sam Altman支持的初创公司购买5100万美元的AI芯片

Paresh Dave

OpenAI奇特的架构赋予了4个人解雇Sam Altman的权力

Paresh Dave

谷歌今天发布了一份技术报告,其中提供了有关Gemini内部工作的一些细节。报告未透露架构的具体细节、AI模型的规模或用于训练的数据集。

AI专家表示,训练庞大的AI模型需要强大的计算机芯片,因此Gemini可能耗费数亿美元。谷歌预计已开发了一种新颖的模型设计和一种新的训练数据组合。该公司已加速推出其AI技术,并在几个新的AI项目上投入资源,试图淹没OpenAI的ChatGPT所带来的噪音,重新确立自己作为全球领先的AI公司。

“我们正处于一种相互对抗的军备竞赛中,”致力于华盛顿大学的教授兼Allen AI研究所的前首席执行官奥伦·艾特齐奥尼表示。“没有理由怀疑Gemini在这些基准测试上的表现比GPT-4要好,但下一个版本GPT-5将表现得更好。”

艾特齐奥尼表示,像Gemini这样的巨型模型据信需要耗费数亿美元进行构建,但主导通过云提供AI的公司可能获得数十亿甚至数万亿美元的收入。“这是一场不留俘虏、必胜的战争,”他说。

谷歌在ChatGPT中采用了一些关键技术,但在OpenAI发布自己的聊天机器人技术之前,谷歌推出自己的聊天机器人技术步伐较慢,部分原因是担心可能会说出不适当甚至危险的内容。该公司表示,Gemini进行了迄今为止最全面的安全测试,因为该模型具有更广泛的功能。

Gemini使用了由Allen AI开发的一组有害模型提示进行测试。谷歌正在与外部研究人员合作,进一步“红队”模型,将其推至不端行为并发现其弱点。Collins未提供具体细节,但他表示Gemini的更大功率要求谷歌提高“我们必须进行的质量和安全检查的标准。”

对谷歌及其母公司Alphabet来说,新算法的命运千丝万缕,过去十年间,该公司在人工智能研究方面积累了强大的能力。随着数以百万计的开发人员在OpenAI的算法基础上进行开发,并且微软将该技术用于向其操作系统和生产力软件中添加新功能,谷歌不得不重新考虑其专注点,前所未有地做出反应。

这家搜索公司首次在5月的I/O大会上宣布,正在开发Gemini,以在搜索中增加生成式AI,以抵挡ChatGPT的普及和OpenAI技术可能激发微软Bing搜索引擎的威胁。谷歌在全球搜索市场的估计份额仍超过90%,但Gemini的推出似乎显示出该公司正在继续加大对ChatGPT的应对力度。

Gemini的开发由主要AI研究组Google Brain与London的AI单位DeepMind合并而成的部门谷歌DeepMind负责,该项目的研究人员和工程师来自整个谷歌,持续了过去几个月。该项目利用了谷歌最近升级的自定义芯片Tensor Processing Units (TPUs)来训练AI模型。

Gemini 被命名为纪念 Google 两个主要 AI 实验室的双子,并参考了 NASA 的 Gemini 项目,为阿波罗计划的登月做好了铺垫。

Alexei Efros,加州大学伯克利分校的教授,专注于 AI 的视觉能力,表示 Gemini 的整体方法似乎很有前途。“任何使用其他模式的东西都肯定是朝着正确方向迈进的一步,”他说。

Efros 怀疑 Gemini 仍然会像 GPT-4 一样,在理解现实世界的复杂性方面存在显着的局限性。但他和其他研究人员可能不会知道关于 Google 的这个产品的所有他们想知道的信息。“这是所有专有模型的问题,”Efros 说。“我们真的不知道里面有什么。”