谷歌的新代表Gemini AI 将不仅理解您的文章,还能理解您的照片和视频

谷歌新一代的代表Gemini AI不仅能够理解您的文章,还具备识别您的照片和视频的能力

Google已经开始为其Bard AI chatbot引入了对视频、音频和照片的本地理解能力,其新模型名为Gemini。

这项新技术的首次应用于周三在数十个国家,但只提供英文版,提供了文本聊天功能,Google表示这提高了AI在如总结文件、推理和编写编程代码等复杂任务中的能力。而与多媒体功能相关的更大变化,例如理解图表的底层数据或解决孩子的连线画谜题的结果,将会”很快”到来,Google表示。

这个新版本代表了人工智能发展方面的重大变革。虽然文本聊天很重要,但人类在生活在三维、不断变化的世界中时,必须处理更丰富的信息。我们的反应也具备复杂的交流能力,包括语音和图像,而不仅仅是书面文字。Gemini试图更接近我们对世界的充分理解。

Google表示,Gemini有三个版本,为不同的计算能力进行了定制:

  • Gemini Nano适用于手机,有两种不同内存级别的可用型号。它将为Google的Pixel 8手机提供新功能,如在Recorder应用程序中总结对话或在使用Google的Gboard键盘输入WhatsApp时建议消息回复。
  • Gemini Pro专为快速响应进行了调整,运行在Google的数据中心,并将驱动新版本的Bard,从周三开始。
  • Gemini Ultra目前仅限于测试群体,将会在2024年初发布的新版本的Bard Advanced chatbot中提供。Google拒绝透露定价细节,但预计该顶级功能将会需要额外支付费用。

这个新版本凸显了新一代生成式人工智能领域中快速进步的速度,这个领域中的聊天机器人会根据我们用通俗语言编写的提示自动产生回复,而不是使用晦涩的编程指令。谷歌的主要竞争对手OpenAI在一年前推出了ChatGPT,但谷歌已经进行了第三次重大人工智能模型修订,并有望将该技术通过搜索、Chrome、Google文档和Gmail等亿万人使用的产品交付给用户。

谷歌DeepMind部门的产品副总裁Eli Collins表示:”长期以来,我们一直希望建立一代新的人工智能模型,受到人们理解和与世界互动方式的启发,即一种更像是有帮助的合作者,而不仅仅是一个聪明的软件。Gemini使我们更接近这个愿景。”

OpenAI还为Microsoft的Copilot AI技术提供了支持,包括去年11月发布的较新版GPT-4 Turbo AI模型。与谷歌一样,微软也在其Office和Windows等主要产品中添加了人工智能功能。

人工智能变得更加智能,但仍然不完美

多媒体功能的到来可能是与文本相比的重大变革。但并没有改变以大量现实世界数据中的模式识别训练AI模型所面临的根本问题。它们可以将越来越复杂的提示转化为越来越复杂的回答,但您仍然不能完全相信它们提供的答案是正确的,而不仅仅是看似合理的。正如谷歌的聊天机器人在使用时所提醒的那样:”Bard可能显示不准确的信息,包括人物信息,因此请仔细核对其回答。”

Gemini是谷歌的大型语言模型的下一代,是Bard迄今为止的PaLM和PaLM 2的续集。但通过同时训练Gemini处理文本、编程代码、图像、音频和视频,它能够比每种输入模式的单独但相互关联的人工智能模型更有效地处理多媒体输入。

根据谷歌的一篇研究论文,Gemini的能力非常广泛。

当看到一系列包含三角形、正方形和五边形的形状时,它能够正确猜测出下一个形状是六边形。当展示了月球的照片和一个手拿着高尔夫球的照片,并被问到这两者之间的联系时,它能够正确指出阿波罗宇航员在1971年在月球上击打了两个高尔夫球。它可以将展示各个国家废物处理技术的四个条形图转化为一个带标签的表格,并发现异常数据点,即美国在垃圾填埋中投放的塑料数量比其他地区多得多。

公司还展示了Gemini处理手写的物理问题,其中包括一个简单的草图,找出学生错误之处,并解释更正方法。更多的演示视频展示了Gemini识别蓝鸭子、手偶、戏法和其他视频等。然而,所有演示都不是实时的,也不清楚Gemini在处理这些挑战时是否经常失误。

Gemini Ultra将在明年出现之前进行进一步测试。

针对Gemini Ultra进行的“红色团队”测试正在进行中,该测试会让产品制造商邀请人们发现安全漏洞和其他问题。这样的测试在多媒体输入数据中更加复杂。例如,一条短信和一张照片各自看起来都无关紧要,但当它们配对在一起时,可能传达截然不同的含义。

“我们以鲁莽而负责的态度来对待这项工作,”谷歌首席执行官桑达尔·皮查伊在一篇博文中表示。这意味着既有雄心勃勃的研究具有巨大的潜在回报,同时也要增加保障措施,并与政府和其他机构合作,共同应对随着人工智能能力增强而带来的风险。

编辑注:ENBLE正在使用人工智能引擎帮助撰写一些文章。有关更多信息,请参阅此帖子