“亲身体验谷歌搜索对话GPT的答案”
Google Search dialog GPT firsthand experience
上个周末,我向谷歌搜索寻求帮助,想弄清楚我需要在一封8盎司的邮件上贴多少邮票(当然,我是在寄送最新一期的《WIRED》杂志的副本!)。这正是我希望谷歌搜索的新生成型人工智能功能(我在过去一个月中一直在测试)可以比我自己浏览得更快解决的问题。谷歌的笨拙命名的搜索生成体验(SGE)在其搜索框中注入了类似ChatGPT的对话功能。您可以在谷歌的搜索实验室注册。该公司表示,它希望用户与其搜索聊天机器人进行对话,该机器人于五月份推向测试人员,以深入探讨各种主题,并提出比他们在传统的无聊查询框中键入的更具挑战性和直观性的问题。AI生成的答案旨在比传统的搜索结果页面更清晰地组织信息,例如,从多个网站汇总信息。全球大部分的网络搜索都经过谷歌,而且该公司的AI技术的发展时间比大多数公司更长,因此可以期望一个一流的体验。
理论是这样的。事实证明,实际上这个新功能远比帮助更令人讨厌。它速度慢、无效、啰嗦而杂乱,更像是人工干扰而不是智能。
关于谷歌对搜索未来愿景的设想,我首先注意到的是它的迟缓。
纯文本
- “我看了一下Sam Altman的球状物,结果只得到了这个糟糕的加密货币”
- WhatsApp现在允许您在聊天中添加短视频消息 | ENBLE
- Vision Pro开发套件将提供定制尺寸和与AirTag的跟踪功能
一旦您获得了谷歌的测试权限,搜索框看起来没有变化。但是,在对类似“邮寄8盎司信件需要多少邮票”这样的查询做出响应时,屏幕的一大部分会出现一个新的部分,将传统的链接列表向下推。在该区域内,谷歌的大型语言模型会生成几段与ChatGPT或微软的必应聊天类似的段落。底部的按钮可以进入聊天机器人界面,您可以提出后续问题。
关于谷歌对搜索未来愿景的设想,我首先注意到的是它的迟缓。在我用一只手控制秒表应用程序,另一只手提交查询的测试中,谷歌的文本生成器有时需要近六秒才能输出答案。通常情况下,需要超过三秒的时间,而传统的谷歌搜索结果出现的时间不超过一秒。情况可能更糟糕:我在谷歌上个月推出提速搜索机器人的更新之后进行了测试。然而,我通常在生成型AI完成之前就已经深入阅读了常规结果,这意味着我忽略了它迟迟提交的论文。谷歌搜索副总裁Cathy Edwards告诉我,支撑该工具的AI软件的速度优化工作仍在进行中。
如果结果有价值,我们可以原谅这种新型搜索的速度慢。但准确性并不稳定。谷歌对我的邮票问题的五句生成型AI回答包含了明显的乘法和减法错误,两年前的邮票价格过时,而且建议的后续问题忽略了运输成本的关键变量,比如形状、大小和目的地。谷歌在每个AI生成的答案顶部显示的免责声明响亮地说明了问题:“生成型AI是实验性的。信息质量可能有所不同。”
在同一个回答中,谷歌的新搜索功能建议我需要2.47美元或4美元的邮票。转到美国邮政服务的在线计算器后,我得到了官方答案:我需要3.03美元,即五张邮票,每张邮票66美分,多支付27美分。谷歌的Edwards说,我的这个简单查询推动了这项技术的当前边界。“它肯定处于前沿,”她说。
不幸的是,降低难度也没有收到良好的结果。当询问邮票价格时,谷歌回答了一个过时的数字。只有明确指定我想要本月价格,系统才能正确反映本月的涨价3美分。公平地说,ChatGPT在这个查询中也会失败,因为它的训练数据截至到2021年,但它并不被定位为搜索引擎的替代品。
谷歌的新搜索体验感觉不可靠,以至于我最好只需点击标准的结果来进行自己的研究。关于由游戏制造商Electronic Arts开发的星球大战视频游戏的查询生成了一个准确的列表,只是包含了一个来自EA竞争对手育碧的标题。具有讽刺意味的是,在结果中,生成型AI对游戏的描述提到是由育碧制作的,展示了大型语言模型如何自相矛盾。
当被问及谷歌的人工智能回答关于圣迭戈教士队可能通过与其他棒球队进行交换来获得的球员时,这支球队肯定会击败斯蒂文的费城人队,谷歌的人工智能回答从目前在教士队的两名球员开始,将交易筹码混淆为交易目标。
谷歌已经采取了一些保护措施。新的搜索体验不会显示一些健康或金融查询结果,对于这些查询,谷歌对准确性设置了更高的标准。并且这种体验几乎总是突出显示与网页上相关资源的链接,以帮助用户证实人工智能的输出结果。像“写一首诗”这样的查询结果上会有免责声明“您可能会看到不准确的创意内容”。人工智能系统通常不会试图听起来太可爱或采用某种角色。“我们认为人们实际上不想与谷歌交谈,”爱德华兹说道,与Bing Chat形成对比,Bing Chat已知会使用第一人称语言或添加表情符号。
有时候,谷歌对搜索的新愿景可能更像是退后一步,而不是跨入未来。生成的答案可能会重复结果页面上的其他功能,比如从网站中提取明确且易于理解的特色片段,或者从维基百科提供一个段落长度的主题概述。当它在这些结果上迟迟出现时,生成的人工智能版本往往是最啰嗦且最难理解的。
在我们的30分钟讨论中,爱德华兹至少提到了八次关于我对新功能的体验,她表示这还处于早期阶段,还有很多问题需要解决。“我不认为你会听到我说我们已经完美解决了这个问题,”她说。“我们正处于一个为期10年的转型过程的开始阶段。”她还表示,迄今为止的反馈“非常积极”,但或许更重要的是,她说,谷歌最终面向所有用户推出的产品“可能与我们今天的产品相比会有很大不同。”
一种更快、内容更少的体验,能够在不冒低邮资被退回的风险的情况下帮助将《连线杂志》发送给读者,这将是很好的。
谷歌对用户的问题提供简洁直接的答案的追求始于多年前。早在2016年,时任《连线》杂志作家凯德·梅兹就曾写过关于谷歌如何聚集约100名精通二十多种语言的语言学博士,以缩减写作并对句子进行注释,帮助训练人工智能系统理解人类语言工作方式的文章。谷歌期望团队和技术在未来几年内不断发展壮大。
这些“句子压缩算法”刚刚在桌面版的搜索引擎上正式上线。它们处理的任务对于人类来说相当简单,但一直以来对于机器来说却相当困难。它们展示了深度学习如何推进自然语言理解的艺术,即理解和回应自然人类语言的能力。“你需要使用神经网络,至少这是我们找到的唯一方法,”谷歌研究产品经理大卫·奥尔在谈到公司的句子压缩工作时说道。
谷歌使用由一个被称为Pygmalion的庞大博士文学团队精心制作的数据来训练这些神经网络。事实上,谷歌的机器通过观察人类的操作一遍又一遍地学习如何从长串文本中提取相关答案。这种费力的努力展示了深度学习的能力和限制。要训练这样的人工智能系统,你需要大量经过人类智能筛选的数据。这种类型的数据并不容易获取,也并不便宜。而对它的需求也不会很快消失。
但仅仅一年之后,谷歌的研究人员设计出了一种新的训练人工智能的方法,使得这种准备工作大部分都变得不再必要,并且导致了支撑ChatGPT和新谷歌搜索等服务的大型语言模型的出现。回想起来,我不介意几年前那种简洁的谷歌搜索答案片段。
詹妮弗·菲尼克斯(Jennifer Phoenix)在Facebook上问为什么人工智能图像生成器在手和手指方面一直存在问题。“我看到有人说是因为复杂性,”她说,“但我认为解决方法是对这些特征进行更多的训练。”
詹妮弗,我和你一样。在阅读了你的问题之后,我尝试在AI工具Stable Diffusion的演示版本中生成“手上有太阳下山纹身的戒指”的图像。我得到的四个结果中,有些手指松散、摇摆不定,手指缺失、手腕异常细长或关节巨大。相比之下,“脸上有太阳下山纹身”的查询结果确实产生了一些疯狂的图像,但至少脸部看起来是真实的。
普兰纳夫·迪克西特(Pranav Dixit)今年早些时候为BuzzFeed News进行了深入研究,探讨了艺术中双手的历史,并写道,人们的双手常常忙于各种事物——例如拿杯子——这可以解释为什么AI系统在逼真地重新创造双手时会遇到困难。《纽约客》的凯尔·查卡(Kyle Chayka)也讨论了这个问题,指出对AI图像生成器发出更精确的指令,告诉它们双手应该做什么可以有所帮助。
正如你所说,詹妮弗,向AI系统提供更好或更多样化的数据通常会产生更准确的结果。今年早些时候,Midjourney的AI生成器的“v5”版本在双手输出方面实现了一些小幅改进。但Midjourney的首席执行官大卫·霍尔茨(David Holz)通过电子邮件告诉我,公司并没有针对双手进行任何具体的改进。“我们的东西在v5版本中只是工作得更好。”
另一方面,稳定扩散的开发者Stability AI在开发其最新版本时确实专门研究了双手问题,并于本周发布了该版本。Stability的应用机器学习负责人乔·佩纳(Joe Penna)表示,用户最常抱怨的问题就是生成的双手质量不好。当我尝试使用新模型进行手部纹身查询时,其中两幅图像效果很好,而另外两幅图像则缺少一些关节。
佩纳表示,新模型的容量是其前身的八倍,可以更好地学习视觉模式以实现重现,这基本上意味着它可以记住更多关于双手应该是什么样子的信息。该公司还对人物和艺术作品的图像进行了额外的训练,以反映用户最感兴趣的内容。佩纳说:“它现在记住了很多关于双手的东西。”
佩纳表示,将数百万张额外的手部图像加入训练数据实际上会使生成的手部图像变得过大,导致质量下降,但他表示公司正在测试不同的策略以进一步改进。
在与佩纳交谈之前,我假设AI开发者可能希望避免达到完美状态,因为不完美的双手是发现深度伪造的常见方法。佩纳表示情况并非如此,但Stability采取了其他措施,以确保显而易见地识别出使用其技术生成的图像。“我们不会重新生成更差的双手,所以让我们开始非常小心地对待我们在互联网上看到的图像,”他说。
骨骼结构问题开始得到解决,也许接下来这些公司可以解决另一个问题,即我从测试提示中生成的所有12幅图像都描绘了白皮肤的双手?我将把解释这个问题留给史蒂文在未来的《纯文本》中。
您可以将问题提交至mail@wired.com。在主题栏中写上ASK LEVY。
想不到山露火辣汽水还可以变得更糟?试试芥末味的彩虹糖,这是美国下周庆祝国家芥末日的一个噱头。
未来派又回来了!但第一集只让我笑了一次(当一个机器人喜剧演员称呼一群朋友太过PC时)。这个节目完全是关于批评我们现代以技术为中心的世界。不幸的是,它似乎针对的是容易攻击的目标。
欧盟正在准备一个庞大的数据库,其中包含社交媒体公司的所有内容审查决策以及其背后的原因。
科技界最热门的新数据来源是来自乌克兰的战斗数据,用于训练军事人工智能软件。
义务警察:一个视力受损的人被骗走了一台笔记本电脑,他与一位朋友合作对付了骗子。现在证据已经交给了警方。