今天,Anthropic宣布推出升级版的Claude 3.5 Sonnet和全新模型Claude 3.5 Haiku。这次更新不仅提升了编码能力,还引入了一个突破性的功能——计算机使用,目前已在公共测试阶段。
升级版的 Claude 3.5 Sonnet 在其前身的基础上全方位提升,尤其在编码领域取得了显著进步,而该领域它已经处于领先地位。Claude 3.5 Haiku 的表现与我们此前最大的模型 Claude 3 Opus 相当,在许多评估中达到了相同的成本和与上一代 Haiku 类似的速度。
Claude 3.5 Sonnet的重大升级
升级后的Claude 3.5 Sonnet在多个领域表现出色,尤其是在编码方面,其性能在SWE-bench Verified基准测试中从33.4%提升至49.0%,超越了所有公开可用的模型。此外,在TAU-bench的零售和航空领域,Sonnet的表现也有显著提升,分别从62.6%提高至69.2%和从36.0%提高至46.0%。
早期用户反馈显示,Claude 3.5 Sonnet在多步骤软件开发过程中表现出色,GitLab等公司发现其推理能力提高了10%,且没有增加延迟。
Claude 3.5 Haiku:高效与经济并存
新推出的Claude 3.5 Haiku是当前最快的模型,其在编码任务上表现尤为突出,在SWE-bench Verified中得分达到40.6%。Haiku以相同的成本和速度超越了前一代最大模型Claude 3 Opus。
创新的计算机使用功能
Claude 3.5 Sonnet是首个在公共测试中提供计算机使用功能的前沿AI模型。开发者可以通过API指示Claude像人类一样使用计算机,包括查看屏幕、移动光标、点击按钮和输入文本。这一功能虽然仍处于实验阶段,但已被Asana、Canva、Cognition等公司用于执行复杂任务。
尽管当前Claude在执行某些动作时仍显笨拙,但其在OSWorld评估中的得分为14.9%,远高于其他AI系统的7.8%。Anthropic表示,将继续改进这一能力,并采取措施确保安全使用,以防止潜在的滥用。
展望未来
随着技术的不断演进,Anthropic期待通过用户反馈进一步了解这一新功能的潜力与影响。公司鼓励开发者探索这些新模型,并期待看到他们如何利用这些创新来推动工作效率。
Anthropic相信,这些新发展将为用户与Claude的互动开辟新的可能性。