Anthropic发布最新大模型Claude 4 可连续工作7小时

著名大模型平台Anthropic在首届开发者大会中发布了最新大模型Claude 4。据Anthropic介绍称,Claude Opus 4是“世界上最好的编码模型”,可以像人类一样完成一个几乎完整的工作班次(7小时)。

Claude 4

Claude 4又分为两个版本,分别为Claude Opus 4和Claude Sonnet 4。这两个模型的设计都是为了更好地遵循指令,并在处理诸如编写代码和回答复杂问题等任务时更加自主地运行。

Claude Opus 4和Claude Sonnet 4这两个AI模型都可以帮助用户在网络上搜索信息,并在推理和工具使用之间切换。如果用户允许,它们还可以读取用户电脑上的文件,找出重要的信息并保存下来,这样它们就能更好地帮助用户,并且随着时间的推移变得越来越聪明。

Opus 4是全球顶级编程模型,非常擅长处理复杂且超长时间的推理任务,尤其是Agent领域非常出色。根据Rakuten测试数据显示,通过Opus 4打造的编程智能体可以独立稳定连续工作7小时,超过了之前OpenAI创造的记录。Sonnet 4是Sonnet 3.7的迭代版本,同样在编程领域非常出色,在SWE-bench上达到了72.7%,超过了OpenAI最新发布的Codex-1、o3等前沿模型。

Opus 4和Sonnet 4作为混合推理模型,具备两种思考模式。

  • 标准思考模式:用于快速响应,适合处理那些对时间敏感或需要即时反馈的任务。
  • 扩展思考模式:允许模型花费更多时间来推理问题,通过更深入的思考来生成更精确、更全面的答案。这种设计的初衷是为了满足不同场景下的需求,用户可以根据具体任务的复杂性和对响应速度的要求,在两种模式之间灵活切换。

Opus 4和Sonnet 4同Sonnet 3.7相比,在扩展思考模式的表现上有显著的不同。在Sonnet 3.7中,扩展思考模式下的原始思考过程通常会完整展示,除非遇到一些极端情况。这两款模型新增了“思考摘要”功能:当思考过程过长时,会使用一个额外的小型模型来对思考过程进行总结。这种总结方式在实际应用中非常有效,因为只有大约5%的思考过程会触发该总结机制,在大多数情况下用户仍然可以看到完整的思考过程。

此外,Anthropic还提供了一个开发者模式,适用于那些需要完整思考过程且不希望进行总结的开发者,开发者可以在此模式下获取未经过总结的完整思考过程。

除了模型性能大幅度提升之外,Anthropic还宣布了一系列与之配套的新功能。扩展思考与工具使用,这两款模型可以在扩展思考过程中使用工具,例如进行网络搜索,从而在推理和工具使用之间交替,以改善回答的质量。

目前,Claude Code正式向所有开发者开放,支持通过GitHub Actions进行后台任务,并且与VS Code和JetBrains等开发工具实现了原生集成,可以直接在用户的文件中显示编辑内容,实现无缝的协作编程体验。值得一提的是,Sonnet 4会免费提供,但每天会有一些限制。

此外,Anthropic API还发布了四项新的功能,包括代码执行工具、MCP连接器、文件API以及能够在长达一小时内缓存提示的能力,将助力开发者构建更强大的AI智能体。

行业动态

OpenAI推出的Responses API支持MCP服务

2025-5-22 9:17:47

评测

腾讯云轻量服务器东京机房评测

2022-6-16 16:16:54

相关推荐