-
Anthropic发布首个双思维模型Claude 3.7
近日,人工智能初创公司Anthropic宣布发布Claude 3.7 Sonnet,称这是其迄今为止最智能的模型,也是市场上首款混合推理模型。 Claude 3.7提供了标准和扩展两种思考模式:标准思考是无需进行复杂的推理过程,就能立刻提供答案;扩展思维则提供复杂的推理过程,会展示详细的推理思维链,用户可以清晰地看到模型是如何逐步分析问题、应用逻辑,非常适合数学、生物等科研领域,还能通过API精准…...- 0
- 25
-
Anthropic最新发布Claude Enterprise 支持500K上下文
最近Anthropic正式推出了全新的Claude Enterprise,这是该公司自推出聊天机器人Claude以来的最大版本升级,专为希望整合Anthropic人工智能的企业而设计。 Claude Enterprise的出现,标志着企业在应用人工智能时迎来了一个全新的阶段,尤其是在内容创作、客户服务和自动化流程方面的能力得到了显著提升。 Claude Enterprise的上下文窗口扩大了将近4…...- 0
- 27
-
Anthropic 模型 Claude 3 Haiku 现已在亚马逊云科技 Amazon Bedrock 上正式可用
Anthropic 上周推出了最新的 Claude 3 基础模型系列,包括三种模型:具有几乎即时响应能力且最紧凑的 Claude 3 Haiku;在技能与速度之间达到理想平衡的Claude 3 Sonnet;以及为处理高度复杂任务设计的最智能模型Claude 3 Opus。亚马逊云科技同时也宣布 Claude 3 Sonnet 已在 Amazon Bedrock 上正式可用。 现在,亚马逊云科技进…...- 0
- 13
-
Anthropic官宣发布Claude 3 一举击败GPT-4
3月4日晚,著名生成式AI平台Anthropic在官网首次推出Claude 3系列模型,号称该公司最快、最强的AI模型和机器人聊天工具。Claude3在多项测试中表现优于GPT4,Claude 3在多模态和语言能力等指标上表现出色,树立了新的行业基准。 Claude 3系列包括Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus,能力逐级增强。Opus作为最先进…...- 0
- 47
-
联手英伟达、ChatGPT最强竞品Claude,亚马逊云科技开启生成式AI大决战!
2000 年,亚马逊带着 " 网络就是计算机 " 疑惑,懵懂地叩开了云计算的大门,在其电子商务网站初尝试后,成功推出 S3(Simple Storage Service)和 EC2(Elastic Cloud Computer)产品,自此高歌猛进,将云计算正式带入大众视野,站到了云计算领域的最高处。 2023 年 11 月 28 日,在美国拉斯维加斯举办的亚马逊云科技 re:Invent 2023…...- 0
- 67
-
Claude成ChatGPT强有力的对手
当所有人都在期待能打败ChatGPT的产品出现的时候,一款媲美ChatGPT,名为“Claude”的AI语音助手应用上线了! Claude是人工智能公司Anthropic开发的一款人工智能助手,Claude可以通过自然语言理解用户的指令并作出回应,可以与用户进行简单的对话。Claude使用了“宪法Al技术,它专注于通过自然语言反馈进行模型对齐,而不是选择特定的ML架构”,Claude可以帮助处理总…...- 0
- 246
-
字节跳动开源多模态智能体UI-TARS-1.5
近日,豆包大模型团队(字节跳动大模型团队)表示,正式发布并开源多模态AI Agent UI-TARS的最新1.5版本。该版本智能体基于视觉-语言框架构建,旨在通过虚拟环境中的任务执行提升基础模型的通用推理能力,在计算机使用、浏览器使用和手机使用等基准测试中均表现非常出色。 在计算机使用方面,OSworld测试得分为42.5,高于OpenAI CUA的36.4、Claude 3.7的28以及之前的最…...- 0
- 20
-
OpenAI开源全新AI Agent评测基准PaperBench
近日,美国开放人工智能研究中心OpenAI宣布推出PaperBench。这是一个评估AI智能体复现前沿AI研究能力的基准,主要考核智能体的搜索、整合、执行等能力,需要对2024年国际机器学习大会上顶尖论文的复现,包括对论文内容的理解、代码编写以及实验执行等方面的能力。 据悉,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均…...- 0
- 32
-
DeepSeek开源新版V3模型
最近,DeepSeek开源了V3模型的最新版本0324。目前V3-0324开源版本目前已经上架开源网站huggingface,模型体积为6850亿参数。深度求索微信官方公众号表示,此次更新属于小版本升级,目前已经在官方网页、App小程序等入口开放。 初代V3模型最为人所熟知的,可能还是“557.6万美金比肩Claude 3.5效果”的超级性价比。而更新后的模型由其新的32KGPU集群上改进的后训练…...- 0
- 27
-
Predibase发布全球首个端到端强化微调平台RFT
最近,Predibase发布全球首个端到端强化微调平台RFT并开源,支持无服务器和端到端训练方法。与传统的监督式微调相比,RFT不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续的强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台全部完成。 简而言之,用户只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。 为了展示RFT的…...- 0
- 11
-
OpenAI宣布开源SWELancer基准测试
近日,OpenAI重磅开源了SWE-Lancer,一个针对真实世界自由软件工程工作进行模型性能评估的基准测试。该基准测试基于来自Upwork和Expensify存储库的1400多个自由职业任务,总支付金额达到100万美元。 SWE-Lancer的一个重要创新是其采用的端到端测试方法。与传统的单元测试不同,端到端测试能够模拟真实用户的工作流程,验证应用程序的完整行为。这种方法不仅能够更全面地评估模型…...- 0
- 43
-
斯坦福&牛津联合发布高效的大模型攻击框架BoN
最近,斯坦福大学联合牛津大学、Tangentic、UCL等研究人员联合开发了一种高效的大模型攻击框架——Best-of-N Jailbreaking(简称BoN),该框架可以用来测试大模型的安全性。 BoN框架主要通过对输入提示进行多样化的变换,检测大模型在不同模态下的安全漏洞。据悉,当使用10,000个增强样本时,Claude 3.5 Sonnet的被攻击的成功率达到了78%,GPT-4o则达到…...- 0
- 62