介绍
开发先进的 AI 技术,尤其是在 **聊天机器人** 领域,吸引了众多参与者。其中一个例子是 OpenAI 的 **ChatGPT**。当它在 2023 年进入聊天机器人领域时,成为了人们关注的焦点。它由生成式 AI 技术驱动,是用于各种任务的最常用工具之一,从撰写电子邮件到编写代码无所不包。
2023 年初,另一个性能卓越的聊天机器人问世,那就是由 Google 和 **Anthropic AI**(一家由亚马逊支持的初创公司)推出的 **Claude**。Claude 2 是第二版,拥有超过 **350,000** 个候补名单注册用户,是目前最受欢迎的聊天机器人之一。
快进到 2024 年,Anthropic AI 于 3 月 3 日宣布推出 Claude 3,这是其最新的 AI 模型家族成员,有望在广泛的认知问题上树立新的行业基准。
在本篇文章中,我们将讨论有关 Claude 3 的所有内容,包括它如何与 ChatGPT-4 相比以及一些局限性。
但在我们继续之前,让我们先熟悉一下 Anthropic AI 和 Claude 的不同版本。
什么是 Anthropic AI?
**Anthropic AI** 成立于 2021 年,是一家总部位于加利福尼亚州旧金山的 AI 安全和研究初创公司。该品牌的重点是开发和构建 **LLM**(大型语言模型)和利用这些模型的聊天机器人。**Claude** 就是其中一个聊天机器人,它与 OpenAI 的 **ChatGPT** 竞争。Slack、Quora 和 Notion 等品牌已经认识到 Claude 2 的潜力,并将其集成到其系统中。
Anthropic 采用 **宪法 AI** 方法来开发技术,利用一个框架来确保模型以更安全、诚实和有帮助的方式做出反应。
Anthropic AI 简史
Anthropic AI 是 Dario 和 Daniela Amodei 的创意,他们分别是 OpenAI 的前研究副总裁和安全与政策副总裁。
最初,Anthropic AI 在 2021 年开始接受融资,从 Jaan Tallin(Skype 的联合创始人)等投资者那里筹集了 1.24 亿美元。2023 年 5 月,Anthropic AI 收到了科技巨头 Google 的 **4.5 亿美元** 投资。同年 9 月,亚马逊承诺提供高达 **40 亿美元** 的投资,意在让亚马逊员工和云客户能够尽早使用 Anthropic AI,而 Anthropic AI 将完全依赖亚马逊的云服务,例如为未来模型提供训练。
什么是 Claude AI?
**Claude** 是 Anthropic 开发的一款 AI 聊天机器人。它旨在生成基于文本的内容并进行对话,就像我们人类一样。第一个版本由 LLM Claude 1.3 提供支持,并于 2023 年 3 月发布。Claude 将其内容宽度从 9,000 个令牌扩展到 100,000 个令牌。
此后不久,在 7 月,推出了第二个版本,称为 **Claude 2**,它比其前身更大、更强大的 LLM。Claude 2 能够连接到海量数据,从而能够预测趋势、比较或对比文档,甚至执行问答。例如,用户可以上传技术文档,例如代码库或长篇文学作品。Claude 2 可以处理大约 75,000 个单词。然后是 **Claude 3**,它设定了新的行业标准,能够处理 200,000 个单词,并且比以前版本更有效地减少幻觉。
什么是 Claude 3?
2024 年 3 月 4 日,Anthropic AI 推出了其 AI 模型家族的新成员——**Claude 3**,它“在各种认知任务上设定了新的行业基准。”
Claude 3 通过公共网页(包括维基百科文章和书籍)的海量文本数据进行训练。Anthropic 利用强化学习以及人类反馈来更好地预测其响应序列中下一个最可能的单词。
**Claude 3** 是一个包含三个 AI 模型的家族,每个模型具有不同的性能能力,使用户能够在成本、速度和智能之间找到适当的平衡。所有模型在内容创建、代码生成以及用多种语言进行对话等方面都具有令人印象深刻的能力。
Claude 俳句
**俳句** 被描述为“**轻巧快速**”,是 Claude 家族中最紧凑、最快的模型。它非常适合那些需要速度但也具有成本效益的任务。正如预期的那样,它是三个可用的 Claude 3 模型中性能最差的模型。
Claude 十四行诗
**十四行诗** 被描述为“**勤奋**”,是三个模型中处于中间水平的模型。在认知问题方面,它提供了强大的性能,并且与 Opus 相比,它的处理时间更短。它的目标是在速度和性能之间取得平衡。它更倾向于为企业任务提供服务,例如数据处理、质量控制和产品推荐。
Claude 乐章
**乐章** 被描述为“**强大**”,是三个模型中性能最强的模型,在针对 AI 系统的许多评估基准测试中,它优于十四行诗和俳句。它在诸如基本数学或研究生水平的专家推理等任务中超越了竞争对手模型。
所有三个模型都经过测试,证明比其前身 **更快**、**更智能**。根据 Anthropic 的说法,“乐章和十四行诗现在可以在 claude.ai 和 Claude API 中使用,Claude API 现在已在 159 个国家/地区普遍可用。俳句将很快推出。”
Claude 3 在其同行中处于什么地位?
**Claude 乐章** 模型在大多数常见的评估基准测试(如数学、推理和测试专家知识)中超越了其他 AI 系统。它还展示了类似人类的复杂问题理解能力和流畅性。使 Claude 不同于其他模型的一个关键特征是它采用了 **宪法 AI**,而其他模型只关注性能。3 个 Claude 模型旨在监控风险并分析道德考量。与 GPT-3.5、GPT-4、Gemini Ultra 或 Gemini Pro 等其他模型相比,Claude 3 模型在各种任务和问题(如代码生成、内容创建,甚至法语、西班牙语和日语等非英语语言的熟练程度)方面都拥有令人印象深刻的能力。
Claude 模型不仅支持多种语言,还拥有视觉功能。由于它们是在各种视觉数据上训练的,因此这些模型可以有效地分析和推断各种视觉内容的信息。例如,它可以解释视觉数据,如 AI2D 科学图表中所示,并在零样本和少样本设置中实现高准确率。
Anthropic 提供的 Claude 3 多模态视觉功能基准测试图表
现在,让我们看看更大的图景!
Claude 3 与 ChatGPT-4 的比较
准确地说,Claude 3 或 Claude 乐章以及 GPT-4 在 10 个 AI 基准测试(如 HumanEval(编码)、MMLU(本科水平知识)和 GSM8K(小学数学))中运行。如表所示,Claude 3 险胜竞争对手,包括 GPT-4。例如,乐章在 GSM8K 中比 GPT-4 高出 3%,在 HumanEval 中高出 17.9%。数字本身说明了一切,Claude 在所有 10 个基准测试中都超越了 GPT-4。
10 个 AI 基准测试
另一个需要注意的方面是词数。如前所述,Claude 3 可以处理多达 200,000 个单词,而 GPT-4 的限制是 64,000 个单词。这意味着 Claude 拥有更大的“上下文窗口”,它可以在其中记住更多的对话并生成更长的文本。对于处理大量数据集和文档的企业任务来说,这是一个巨大的优势。
GPT-4 等聊天机器人面临的另一个问题是隐私问题。大多数 GPT 用户都知道,用户与机器人进行的对话会被保存下来,用于训练模型以产生更准确的结果。但这一点令人担忧,尤其是在处理敏感信息时。相反,Claude 不使用对话来训练模型,并在后台 90 天内删除提示和输出。
Claude 3 的局限性
根据早期访问用户的反馈,Claude 3 在指导性任务或回答事实问题方面表现出色。但它有时难以应对数学和复杂推理问题。也存在偏差的响应情况。
Claude 3 目前也是市场上最昂贵的模型,但目前正在讨论在不久的将来提供更实惠的方案。
结论
Anthropic AI 的研究人员旨在使生成式 AI 更稳定、更有用。借助宪法 AI 的力量,他们不仅打算改进响应,而且还希望使其更易于用户理解。就像人类能够理解正确的响应一样,Claude 3 有望模拟人类的响应。
自己去试试吧!访问 www.claude.ai,免费开始您的对话!每天的提示次数有限,因此如果您希望使用更多提示,可以选择 Claude Pro 计划,每月 20 美元。
敬请关注更多精彩内容。我们下一篇文章见!