-
即梦AI+DeepSeek制作音乐教程
最近在抖音上总是能够听到很多温暖而有力量的歌曲,听着让人内心宁静,觉得特别的享受。其实,AIGC领域现在出现了很多的AI工具,可以让用户体验自己制作音乐的乐趣。本文就要提到即梦AI+DeepSeek这一王炸组合,带大家一起来感受一下使用AI工具制作音乐的整个流程。 一、DeepSeek生成歌曲提示词 1、进入DeepSeek官网,点击“开始对话”。 2、在以下输入框中输入: 我是一个歌曲创作者,请…- 4
- 0
-
即梦AI+DeepSeek制作可爱的十二生肖形象教程
随着AIGC领域的蓬勃发展,AI技术也越来越成熟,人们可以借助AI技术文生图来生成想要的形象图片。想要实现这种操作,不得不提到即梦AI和DeepSeek这两款超好用的AI工具,本文就来带大家一起来感受一下它们的魅力。本文就以传统的十二生肖为例,借助这两个工具生成可爱的十二生肖形象,一起来看下吧。 一、让DeepSeek生成文生图初级提示词 1、打开DeepSeek(https://www.deep…- 14
- 0
-
OpenAI即将发布开放权重语言模型
近日,OpenAI CEO Sam Altman正式宣布,将在未来几个月内推出一款具备推理能力的强大开放权重语言模型力。这次OpenAI选择回归开源初心——这是自2019年GPT-2之后,OpenAI首次开源语言模型。 Sam Altman表示,虽然这一想法已酝酿许久,但此前其他优先事项占据了主导地位。如今,发布这款模型的时机变得尤为重要。 即将发布的新模型具有两大特点:开放权重和强化推理能力。 …- 19
- 0
-
微软与清华联合发布SECOM
近期,微软和清华的研究人员联合发布了一种专用于个性对话Agent的记忆构建和检索的创新方法,SECOM。 研究人员在LOCOMO和Long-MT-Bench+两个超复杂数据集上进行了综合评估,结果显示,在LOCOMO数据集上,SECOM的GPT4-Score达71.57,比全历史方法(54.15)高17.42分,比轮次级方法(65.55)高6.02分。而在Long-MT-Bench+中,其88.8…- 19
- 0
-
OpenAI发布Agent SDK重大更新
最近,OpenAI对Agent SDK进行了重大更新支持MCP服务,可以统一接口标准解锁无限工具。现在Agent SDK可以快速集成网络搜索、专业分析、本地查询、网络追踪等各式各样的工具,这对于开发超复杂自动化智能体来说帮助巨大。例如,在开发一个需要同时进行文件处理、数据查询和网络信息收集的智能体时,开发者可以通过MCP服务器分别集成文件系统工具、数据库查询工具和网络爬虫工具,更高效地完成复杂任务…- 36
- 0
-
谷歌推出最强推理模型Gemini 2.5 Pro
近日,Google发布了他们迄今为止性能最强的Gemini模型——Gemini 2.5 Pro实验版。据介绍,实验版Gemini 2.5 Pro是谷歌旗下最先进的复杂任务模型,展示了强大的推理和代码能力,并拥有Gemini系列此前各模型所具有的全部功能。 根据测试数据显示,Gemini 2.5 Pro在AIME 2025、MMMU、GPQA、LiveCodeBench v5、等主流测试平台中超过了…- 12
- 0
-
OpenAI推出最新文生图模型
近日,OpenAI对GPT-4o和Sora进行了重大更新,推出了全新的文生图模型。该模型不仅能够生成图像,还支持自定义操作、连续发问、风格转换以及制作图像PPT等多种实用功能。 它生成的图像非常逼真,肉眼几乎看不出任何破绽,在精细度、细节和文本遵循方面非常出色,可以媲美甚至在某些功能超过该领域的头部平台Midjourney。 OpenAI联合创始人兼首席执行官表示,新的文生图模型是一项令人难以置信…- 16
- 0
-
阿里巴巴开源多语言大模型Babel
近期,阿里巴巴开源了多语言大模型Babel,旨在弥合语言鸿沟,让AI能够理解并使用全球九成以上人口的语言进行交流。该模型支持豪萨语、波斯语、印地语、西班牙语、阿拉伯语、孟加拉语、葡萄牙语、乌尔都语、印尼语、斯瓦希里语等25种主流语言,覆盖全球90%以上的人口。 与传统的持续预训练方法不同,Babel采用了独特的层扩展技术来提升模型的能力。这种方法可以理解为在模型原有的基础上,以一种更精巧的方式增加…- 22
- 0
-
OpenAI推出一系列全新语音模型
近日,美国开放人工智能研究中心OpenAI发布了3款全新语音模型,gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,致力于打造可靠、精准、灵活的语音智能体。同时,升级Agent SDK,支持语音能力、流式处理优化,助力开发者快速构建语音智能体。新模型基于真实音频数据集预训练,性能卓越且价格亲民。 1、两款全新语音转文本模型:GPT-4…- 20
- 0
-
Predibase发布全球首个端到端强化微调平台RFT
最近,Predibase发布全球首个端到端强化微调平台RFT并开源,支持无服务器和端到端训练方法。与传统的监督式微调相比,RFT不依赖大量的标注数据,而是通过奖励和自定义函数来完成持续的强化学习,同时支持无服务器和端到端训练方法,从数据管理、训练模型到应用部署可以在同一个平台全部完成。 简而言之,用户只需要一个浏览器,设定微调目标、上传数据、就能完成以前非常复杂的大模型微调流程。 为了展示RFT的…- 11
- 0
-
AMD推出完全开源的小参数模型Instella-3B
近日,AMD在官网开源了最新小参数模型Instella-3B。该模型是在AMD Instinct MI300X GPU上训练的,是完全开源的。根据AMD公布的数据,其性能与Llama 3.2 3B、Gemma-2 2B和Qwen 2.5 3B等同类产品相比具有很强的竞争力。 Instella-3B-SFT是经过监督微调的模型,使用了89.02亿tokens的数据,增强了遵循指令的能力。 Inste…- 13
- 0
-
Zoom发布一系列AI Agent
全球视频会议领导者Zoom在官网宣布,发布一系列AI Agent产品来增强全平台功能。其中最重要的是Zoom的类ChatGPT助手AI Companion,具备记忆、推理、任务执行和协调四大功能。这将帮助用户从重复、繁琐的工作中解脱出来,节省大量时间提升效率。 AI Companion获得Agent增强后拥有了记忆、推理、任务执行和协调四大功能,也是帮助其他功能自动执行重复、复杂数字化业务的基石。…- 17
- 0
-
谷歌宣布开源最新模型Gemma-3 号称能媲美DeepSeek
随着DeepSeek的爆火,国内外的人工智能研究机构都压力倍增。近日,谷歌宣布开源最新多模态大模型Gemma-3,主打低成本高性能。Gemma-3共有10亿、40亿、120亿和270亿四种参数。但即便最大的270亿参数,只需要一张H100就能高效推理,同类模型要达到这个效果最少要提升10倍算力,也是目前最强小参数模型。 谷歌表示,Gemma-3是一系列轻量级、最先进的开源模型,其构建基于与Gemi…- 41
- 0
-
OpenAI发布最新研究CoT监控器
近期,OpenAI发布了最新研究,用CoT(思维链)监控的方式,可以阻止大模型胡说八道、隐藏真实意图等恶意行为,同时也是监督超级模型的有效工具之一。 OpenAI使用了最新发布的前沿模型o3-mini作为被监控对象,并以较弱的GPT-4o模型作为监控器。测试环境为编码任务,要求AI在代码库中实现功能以通过单元测试。结果显示,CoT监控器在检测系统性“奖励黑客”行为时表现卓越,召回率高达95%,远超…- 22
- 0
-
阿里推出最新开源推理模型QwQ-32B
阿里云通义千问宣布发布并开源最新的推理模型QwQ-32B,这是一款拥有320亿参数的模型,在数学、代码及通用能力上整体性能比肩DeepSeek-R1,并降低了部署使用成本,在消费级显卡上也能实现本地部署。目前,QwQ-32B已在Hugging Face和ModelScope开源,并采用了Apache 2.0开源协议。 QwQ-32B通过整合强化学习和结构化自我提问,进一步提升了性能,旨在成为推理A…- 21
- 0
-
OpenAI推出NextGenAI联盟
OpenAI最新推出了NextGenAI,这是一个由加州理工学院、加州州立大学、杜克大学、佐治亚大学、哈佛大学等15家领先研究机构组成的首创联盟,致力于利用人工智能加速科研突破并变革教育。 NextGenAI联合了美国和国外的机构,旨在以比任何一个机构都更快的速度促进进步。这一倡议不仅是为了推动下一代的发现,也是为了让下一代人为塑造人工智能的未来做好准备。NextGenAI加强了学术界和工业界之间…- 28
- 0
-
微软发布医疗AI助手Dragon Copilot
近日,微软公司宣布推出一款名为Dragon Copilot的医疗AI助手,旨在加强临床工作流程。Dragon Copilot是基于语音+文本的混合架构,能够将医生的语音或临床口述内容实时转换为文本,之后它可做进一步处理自动生成专业的医嘱、病历、总结临床摘要、转诊信等,并将内容自动录入到专业的医疗系统中,极大简化了医疗流程解放医生双手。 微软首席执行官Satya Nadella对Dragon Cop…- 26
- 0
-
微软开源创新框架Prompt Wizard
最近,微软开源了一个创新框架-Prompt Wizard,旨在自动化和简化提示优化过程,提升大型语言模型(LLMs)在特定任务中的表现。PromptWizard通过自我进化和自适应机制,结合迭代反馈和高效的探索技术,能够在短时间内生成高效的提示,显著减少传统提示工程所需的时间和精力。 Prompt Wizard的核心由多个模块组成,通过其自我进化和自我适应的机制以及反馈驱动的批评和综合过程,实现…- 28
- 0
-
OpenAI发布最新模型GPT-4.5
美国开放人工智能研究中心(OpenAI)在线上技术直播中发布了最新模型GPT-4.5,作为预览研究逐步向用户开放。OpenAI在新闻稿中表示,这是公司有史以来最大、最好的聊天模型,在计算效率上较GPT-4提升超过10倍。 早期测试显示,与GPT-4.5的交互更加自然,超过OpenAI o1、OpenAI o3-mini并且幻觉非常低;其更广泛的知识储备、更强的用户意图理解能力以及更高的“情商”,使…- 28
- 0
-
苹果开源最新通用多模态视觉模型AIMv2
苹果的研究人员最近开源了最新通用多模态视觉模型AIMv2,它是一系列开放式视觉编码器,包含19个不同参数大小的模型——从300M到2.7B,支持224、336和448像素的分辨率,适用于手机、PC等不同类型的设备。 AIMV2使用了一种创新的多模态自回归预训练方法,将视觉与文本信息深度融合,为视觉模型领域带来了新的技术突破。简而言之,就是AIMV2不再局限于仅处理视觉信息的传统模式,而是将图像和文…- 27
- 0
-
微软开源多模态AI Agent基础模型Magma
最近,微软在官网开源了多模态AI Agent基础模型——Magma。与传统Agent相比,Magma具备跨数字、物理世界的多模态能力,能自动处理图像、视频、文本等不同类型数据,此外Magma还能内置了心理预测功能,增强了对未来视频帧中时空动态的理解能力,能够准确推测视频中人物或物体的意图和未来行为。 Magma模型的技术架构具有显著的创新性。它采用了先进的深度学习算法,能够自动学习和提取多模态数据…- 36
- 0
-
Anthropic发布首个双思维模型Claude 3.7
近日,人工智能初创公司Anthropic宣布发布Claude 3.7 Sonnet,称这是其迄今为止最智能的模型,也是市场上首款混合推理模型。 Claude 3.7提供了标准和扩展两种思考模式:标准思考是无需进行复杂的推理过程,就能立刻提供答案;扩展思维则提供复杂的推理过程,会展示详细的推理思维链,用户可以清晰地看到模型是如何逐步分析问题、应用逻辑,非常适合数学、生物等科研领域,还能通过API精准…- 25
- 0
-
微软发布专用于游戏领域创新大模型Muse
近日,微软发布了一款名为Muse的生成式人工智能模型,宣称将彻底革新视频游戏场景的制作方式。 Muse是基于Transformer架构的,但创建游戏场景的方式却非常独特,并不依赖传统的文本提示,而是通过游戏画面和控制器操作的序列化数据作为输入提示,从而生成连贯的游戏场景和玩法,同时更符合游戏机制和物理规则的游戏内容。 游戏开发是一个高度复杂的过程,涉及创意构思、角色设计、场景搭建、玩法策划等多个环…- 19
- 0
-
微软开源最新动态蛋白质生成模型BioEmu-1
近日,微软开源了BioEmu-1,一种最新动态蛋白质生成模型。该模型能在单个GPU上每小时生成数千种蛋白质结构,生成效率比传统MD模拟提高了几个数量级。 这种超高效率的蛋白质生成模型可以帮助医学家更全面、快速地了解靶点蛋白质的动态变化,设计出有效治疗癌症等绝症药物。此外,每位癌症患者的肿瘤细胞都具有独特的基因突变和蛋白质表达谱。而BioEmu-1可以根据患者特定的基因序列预测蛋白质的结构变化,提供…- 28
- 0