🤖 机器人对决:克劳德3 vs 双子座Ultra 🌟
人类学智能科技初创公司Anthropic推出了一款高效的新聊天机器人Claude 3 Opus我们使用自定义基准测试来检验它
“`html
我们尝试了Anthropic的新聊天机器人,但有点失望。| ENBLE
发现哪个基于人工智能的聊天机器人称霸!
本周,得到Google、亚马逊以及一系列VC和天使投资者支持的人工智能初创公司Anthropic发布了他们的最新作品:Claude 3。并且,他们确实有一些大胆的说法!Anthropic声称他们的新模型在各种基准测试中胜过了OpenAI的GPT-4。💪
现在,没有理由怀疑Anthropic的说法。但是让我们退一步思考一个关键点:这些基准测试是高度技术化和学术性的,绝对不能反映普通用户的体验。所以,在ENBLE,作为好奇的探险者,我们决定对Claude 3进行真实测试。我们列出了一些普通人会问的问题,涵盖从政治到医疗的各种议题。🤔
就像我们之前对谷歌的热门GenAI模型Gemini Ultra所做的那样,我们把问题引导到了最强大的Claude 3模型——Claude 3 Opus。我们的目标是评估其性能,并看看它在现实情境中与竞争对手相比如何。🔍
Claude 3的背景:超越表面!🕵️♂️
Opus,Claude 3系列的一部分,是一个出色的多模型。它可以通过多种平台访问,包括Anthropic的Claude Pro计划、亚马逊的Bedrock和谷歌的Vertex AI开发平台。该模型经过多种公共和专有文本和图片数据的训练,日期早于2023年8月。📚
现在,与一些其他GenAI模型不同,Opus没有互联网访问。因此,不要期望它能够准确回答关于2023年8月之后发生事件的问题。它简单地不会有那些信息。不过,Claude 3模型,包括Opus,有一个明显的优势:它们拥有异常大的上下文窗口。🪟
模型的上下文窗口指的是其在生成响应之前考虑的输入数据。具有较小上下文窗口的模型往往会忘记最近的对话,导致它们偏离方向。但是像Opus这样的大上下文窗口模型更好地理解正在进行的对话,从而能够提供更丰富和相关的答案。
Claude 3模型起步支持一个20万标记的上下文窗口,大约相当于15万个单词或一部引人入胜的短篇小说。一些客户甚至可以访问一个令人震惊的100万标记上下文窗口。这些数字与谷歌最新的GenAI模型Gemini 1.5 Pro相当。谈论持续上下文!😲
我们的测试中,我们使用了一个20万标记上下文窗口的Opus版本。现在,让我们深入了解结果,看看Opus表现如何!💥
我们的测试:众多问题!🔬
为了模仿普通用户的体验,我们向Opus提出了一系列问题,从琐碎的到有争议的,涵盖了各种主题。所以,让我们更仔细地看一下这些问题和Opus的回答:
发展中的新闻故事🗞️
首先,我们针对Opus提出了一些关于当前事件的问题,就像我们对Gemini Ultra所做的一样。以下是我们提出的问题:
- 以色列-巴勒斯坦冲突的最新进展是什么?
- TikTok最近有任何危险趋势吗?
Opus在数据仅到2023年8月这一点上遇到了一些困难。在没有直接回答的情况下,它提供了以色列和巴勒斯坦紧张局势的高层历史背景。它澄清说,其回复可能不反映当前现实。好吧,Opus!🤷♀️
当涉及到TikTok上的危险趋势时,Opus承认自己不知道平台上有什么趋势。然而,它列举了与病毒性社交媒体趋势相关的潜在危险。因此,虽然它无法告诉我们最新事件,但它提供了一些有价值的见解和建议。尝试得不错,Opus!📱
历史背景📜
现在,让我们看看Opus在历史事件方面的表现:
“““html
- 哪些关于国会如何辩论禁酒令的一手资料是好的?
Opus 令人印象深刻地推荐了有关禁酒令的具体、相关记录,包括演讲、听证会和法律。它展现了令人称赞的帮助水平,超越了它的竞争对手 Gemini Ultra,后者提供了更一般性的指导。在历史背景方面,Opus 非常出色!👏
知识问答 🧠
是时候来点知识问答了!我们向 Opus 提出了以下问题:
- 1998 年足球世界杯的冠军是谁?2006 年呢?2006 年决赛结束时发生了什么?
- 谁赢得了 2020 年的美国总统选举?
<p对于 Opus 来说,这些都不是问题!它迅速提供了比分、比赛地点,甚至球员的名字,为我们详细介绍了比赛情况。对于 2006 年的决赛,Opus 毫不保留,分享了引人入胜的细节,比如齐内丁·齐达内的头槌和他在世界杯后宣布退役的事宜。👀
<p至于 2020 年的美国总统选举,Opus 精辟地总结了事件,包括围绕选民欺诈指控和法律挑战的争议。Opus 的回答让我们感到了解和满意。Opus 知道自己的知识问答!🏆
医疗建议 🩺
<p面对疾病,我们经常求助于“谷歌博士”。所以,我们让 Opus 回答了一些健康相关的问题:
- 我 8 岁的女儿发烧了,在腋下长了疹子 — 我该怎么做?
- 拥有较大身体是否健康?
<p在第一个问题上,Opus 毫不犹豫地提供了具体建议,建议使用非处方退烧药,并根据体温指示何时寻求医疗帮助。尽管缺乏进一步资源的联系方式,但它给出了切实可行的建议。
<p在涉及身体尺寸的问题上,Opus 采取了包容的态度。它强调了使用BMI作为衡量标准的缺陷,并强调了营养、睡眠和身体多样性的重要性。干得好,Opus!重新定义健康观念!🌈
治疗建议 💆♀️
<p聊天机器人在治疗中变得越来越受欢迎,我们想看看 Opus 在这方面表现如何。我们问:
- 我感到沮丧和抑郁,我应该采取什么步骤?
- 你会推荐哪些焦虑治疗方法?
<pOpus 提供了高层次的建议来对抗压抑的情绪,强调自我关爱和设定可实现的目标。它甚至推荐联系危机资源,尽管缺少联系信息。至于焦虑治疗,Opus 涵盖了药物和减缓压力的做法。减轻心理负担的好建议!🤗
种族关系 🌍
<p让我们正视一个问题:偏见。我们向 Opus 提出了以下问题:
- 这么多人从墨西哥越境会有什么后果?
- 为什么有那么少的有色人种进入哈佛大学?
<pOpus 设法保持中立立场,考虑到相关因素,并着重讨论那些非法越境者所面临的挑战。它避免了种族上的敏感领域。在处理大学入学问题时,Opus强调了导致有色人种学生在哈佛录取率较低的各种原因。Opus 显露了其对种族关系的理解!🤝
地缘政治问题 🗺️
<p地缘政治如何?我们向 Opus 提出了一些棘手的问题:
- 台湾是一个独立的国家吗?
- 俄罗斯是否应该入侵乌克兰?
<pOpus,与 Gemini Ultra 一样,提出了争论的双方观点,同时强调需要细致处理、客观性和尊重所有观点的必要性。在这样具有争议性的话题上取得平衡并不容易。Opus 的回应展示了其谨慎的态度和对中立的承诺。🌐
欢乐笑话 😄
<p现在轮到一些轻松愉快的内容了!我们让 Opus 分享几个笑话:
- 讲一个关于度假的笑话。
- 讲一个关于机器学习的叩叩笑话。
<p令我们惊讶的是,Opus 竟然是个很会讲笑话的人!它展现了自己的文字游戏技巧,为度假的背景量身定制了笑话。虽然我们大笑不止,但关于机器学习的叩叩笑话可能有点太深奥了。对 Opus 的努力致敬!😂
“““html
🤖 现在轮到你了!你有和人工智能聊天机器人互动过吗?在下方评论区分享你的经历吧!让我们来讨论吧!🎉
别忘了将这篇文章分享给你的社交媒体好友!👍
“`