-
腾讯开源超大模型Hunyuan-Large
近日,腾讯宣布推出业界参数规模最大、效果最好的开源MoE大语言模型Hunyuan-Large。Huanyuan-large模型拥有3890亿总参数(389B)和520亿激活参数(52B),具备处理长达256K上下文能力。 据测评结果显示,腾讯Hunyuan-Large模型在CMMLU、MMLU、CEval、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama…- 7
- 0
-
字节跳动和中国科学院联合开源InfiMM-WebMath-40B
字节跳动和中国科学院的研究团队于近日发布了InfiMM-WebMath-40B数据集,该数据集专门为数学推理任务设计的大型开源多模态数据集,包含了2400万个网页、8500万个关联图片URL以及400亿个文本标记,帮助开发人员快速提升多模态模型的图文混合推理能力。 研究人员选择CommonCrawl作为InfiMM-WebMath-40B的主要数据来源,因为它可以定期抓取互联网上公开网页内容的巨大…- 12
- 0
-
OpenAI宣布开源SimpleQA新基准
最近,美国开放人工智能研究中心OpenAI宣布开源SimpleQA新基准,旨在为评估语言模型在回答简短事实问题时的有效性和真实性提供一个标准化的工具。 当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。所以SimpleQA对于开发者来说,可以精准测试大模型能否输出正确的答案,并对大模型进行校准然后进…- 7
- 0
-
Meta开源多模态模型Llama 3.2
最近,Meta开源了多模态模型Llama 3.2,此次开源的是1B和3B轻量级模型。Meta使用了带有LoRA适配器的量化感知训练和SpinQuant进行了大幅度性能优化,平均减少了41%的内存使用、减少56%的模型规模,但推理效率却提升了2—4倍。 作为整个系列里最轻量级的模型,Llama3.2 1B和3B适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持128k…- 13
- 0
-
IBM开源最新企业级大模型Granite 3.0
IBM开源了最新企业级大模型Granite 3.0,该模型包括8B和2B两个微调版本,支持RAG、高级推理、文本/代码生成等,支持12种语言和116种编程语言,接受了12万亿tokens数据训练。 据悉,在AST、BT、安全测试基准中,Granite 3.0 8B超越了Meta最新开源的Llama-3.1 8B。 Granite 3.0的8B和2B版本被设计为企业级AI的“主力”模型,具备更强的稳…- 9
- 0
-
OpenAI发布全新扩散模型sCM
近日OpenAI发布了全新扩散模型方法sCM,仅需两步即可生成高质量图片、3D模型等,速度提升约50倍。该模型以简化的连续时间一致性模型为基础,提供更高的训练稳定性和可扩展性。 sCM扩散模型核心原理是基于一致性模型思路,通过直接将噪声转换为无噪声样本来生成数据。与传统扩散模型不同,一致性模型可找到一条更直接的路径,在单步或少数几步内直接从噪声状态跳跃到数据状态。 sCM扩散模型的特点 1、采用连…- 11
- 0
-
超强文生图模型Stable Diffusion 3.5重磅开源
最近StabilityAI公司宣布正式开源超强文生图模型Stable Diffusion 3.5,共有Medium、Large和Large Turbo三种规模版本,旨在满足科学研究人员、爱好者、初创公司和企业的不同需求。 Stable Diffusion 3.5三种版本介绍 1、Stable Diffusion 3.5 Large Large版本共有80亿个参数,具有卓越的质量和快速响应,是Sta…- 10
- 0
-
上海交大、腾讯联合发布新的微调方法SaRA
为了解决预训练模型微调及应用于实际业务场景中存在的一些问题,上海交大、腾讯联合发布了新的微调方法SaRA。这种微调方法主要是利用那些在预训练过程中由于训练不稳定性而变得看似无效,实则具有学习新知识的潜力的参数。 SaRA微调方法的特点: 1、在图像生成任务方面,传统的微调方法可能无法充分利用模型中的所有参数,导致部分参数在训练过程中未被有效利用;而SaRA方法通过对这些暂时无效的参数进行重新训练,…- 14
- 0
-
阿里国际发布首个大规模商用翻译大模型Marco
最近阿里国际发布了首个大规模商用翻译大模型Marco,支持中、英、日、韩、西、法等15种全球主流语种。目前已在阿里国际AI官网Aidge上发布,面向全球用户开放使用。 在BLEU自动评测指标上,Marco翻译大模型领先于Google翻译、DeepL、GPT-4等市面上的标杆翻译产品。 Marco的主要优势就是由大语言模型驱动,基于语境进行精准翻译。据悉,Marco翻译大模型通过面向多语言的数据筛选…- 20
- 0
-
北大快手联合开源超高清视频模型Pyramid-Flow
近日北大联合快手开源超高清视频模型Pyramid Flow发布,仅通过文本就能生成最多10秒、1280x768分辨率和24帧视频。Pyramid Flow在光影效果、运动动作一致性、视频质量、文本语义还原、色彩搭配等多个方面表现非常出色。 Pyramid-Flow使用A100 GPU在开源数据集上仅训练了20,700小时,其能耗和生成效率比市面上同类开源视频模型好很多,对于没有大量算力的中小企业和…- 18
- 0
-
Meta最新大模型Movie Gen发布
最近Meta公司发布了最新大模型Movie Gen,这是一款能够生成带有声音的高清视频的创新工具,也标志着Meta正式进军文生视频领域。 Movie Gen能够根据文本提示创造长达16秒、每秒16帧的1080P超高清视频,支持73K token上下文,为现有视频配上音频,或对现有视频进行编辑,甚至能够利用照片制作出以真实人物为主题的定制视频。 Movie Gen功能介绍 1、文生视频 Movie …- 16
- 0
-
2024文化和科技融合生态大会
活动时间:2024年10月23日至2024年10月24日 活动地点:南京·牛首山希尔顿酒店 主办单位:文化和科技融合生态大会组委会、南京市文化投资控股集团 联合主办:中国文化产业协会、南京牛首山文化旅游区 支持单位:国家文化科技创新服务联盟 大会背景 随着新一轮科技革命和产业变革的加速推进,5G、云计算、VR、3D视觉传感、人工智能等新技术迭出,为文化内容生产、表现方式和消费场景提供了广阔空间。党…- 36
- 0
-
Meta发布多模态Llama 3.2新模型
最近Meta发布了多模态Llama 3.2新模型,能够同时理解图像和文本。此次一共发布了四个版本,分别为Llama 3.2 1B、Llama 3.2 3B、Llama 3.2 90B和Llama 3.2 11B。 其中Llama 3.2 1B和Llama 3.2 3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持128k标记的上下文长度…- 13
- 0
-
字节跳动发布豆包视频生成大模型
最近字节跳动旗下火山引擎发布最新豆包视频生成大模型,分别是PixelDance和Seaweed,正式进军文生视频领域。 豆包视频生成大模型能够轻松实现自然连贯的多拍动作以及多主体复杂交互,生成的视频更加精准、逼真。通过该大模型生成的视频可以精准地遵循复杂提示指令,让不同人物在视频中完成多个动作指令的互动,且互动过程流畅自然,毫无生硬之感。以下就是豆包视频生成大模型的特色之处: 1、细节处理方面 豆…- 7
- 0
-
IBM发布Docling模型 可快速转换PDF文档格式
为了解决PDF文档转换为机器可处理的格式的这一极具挑战性的难题,IBM的研究人员基于PDF解析器、大模型、OCR等多种技术开发了Docling模型。该模型可将PDF文档保留全部格式的情况下快速转换成JSON、Markdown格式。 Docling模型使用了模块化设计方法,将整个PDF文档处理流程拆解为一系列连续的操作步骤,每个步骤都由专门的模块来执行。这不仅提升了执行效率和准确率,还极大增强了模型…- 32
- 0
-
阿里国际发布最新开源多模态模型Ovis
阿里国际AI团队宣布发布多模态大模型Ovis,据悉Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。 Ovis模型创新了架构设计,首次引入将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入。其支持处理极端长宽比的图像,兼容高分辨率图像。覆盖了多方向数据集覆盖,包括Caption、VQA、OCR、Table、Chart等各个多模态数据方…- 20
- 0
-
阿里发布了史上最大规模的Qwen2.5系列模型
最近阿里巴巴开源发布了史上最大规模的Qwen2.5系列模型,分为基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math三大类。这三大类模型包含0.5B、1.5B、3B、7B、14B、32B和72B等10多个版本,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。 阿里还专门为不想进行繁琐的部署的人群开放了旗舰模型Qwen-Plus和Qwen-Tur…- 34
- 0
-
麻省理工发布创新模型Vid3D
最近麻省理工、Databricks马赛克科研所和康奈尔大学联合推出了创新模型Vid3D,旨在解决传统的3D视频生成方法中存在的问题。 Vid3D模型假设无需明确建模3D时间动态,通过生成2D视频的时序动态轮廓,然后独立地为视频中的每一帧生成3D表示,而无需考虑前后帧之间的时间连贯性。简而言之就像在制作动画电影时,先绘制故事板,然后每个关键帧单独创建3D模型。 时序播种阶段 Vid3D先从一张参考图…- 10
- 0
-
Mistral发布首个多模态AI大模型Pixtral 12B
最近Mistral AI发布了Pixtral 12B,是Mistral首款能够同时处理图像和文本的多模态AI大语音模型。 Pixtral 12B模型拥有120亿参数,大小约为24GB,基于文本模型Nemo 12B构建而成,能够回答关于任意数量、任意尺寸图像的问题。与Anthropic的Claude系列和OpenAI的GPT-4o等其他多模态模型类似,Pixtral 12B理论上应能执行诸如为图像添…- 17
- 0
-
专用于法律领域大模型SaulLM上线
最近法国国家高等教育计算中心、巴黎萨克雷大学的研究人员联合开源了大模型SaulLM,专用于法律领域。SaulLM一共有540亿、1410亿两种参数,以及基础模型和指令微调两种版本。 SaulLM-54B和SaulLM-141B是基于Mixtral系列模型开发而成,通过引入专家混合(MoE)机制,显著提升了模型处理大量数据的能力。MoE架构的核心思想是将大型模型分解为多个小型专家网络,这些专家可以根…- 15
- 0
-
Anthropic最新发布Claude Enterprise 支持500K上下文
最近Anthropic正式推出了全新的Claude Enterprise,这是该公司自推出聊天机器人Claude以来的最大版本升级,专为希望整合Anthropic人工智能的企业而设计。 Claude Enterprise的出现,标志着企业在应用人工智能时迎来了一个全新的阶段,尤其是在内容创作、客户服务和自动化流程方面的能力得到了显著提升。 Claude Enterprise的上下文窗口扩大了将近4…- 12
- 0
-
全新中国文生视频模型海螺AI重磅上线
最近MiniMax旗下的AI产品海螺AI上线了文生视频功能,通过文生视频功能生成视频的质量、推理效率、动作一致性/多样性、文本语义还原、色彩搭配、景深、光影效果等都非常优秀,官网现已开通内测。 海螺AI的文生视频功能操作简便,只需输入一句简单的提示词,即可快速生成一段时长6秒、分辨率高达1280*720的高清视频。这一功能的推出,不仅为用户提供了一种全新的视频创作方式,也进一步降低了高质量视频内容…- 89
- 0
-
阿里推出全新视觉多模态模型Qwen2-VL
阿里最近开源了全新的新视觉多模态模型Qwen2-VL,这款模型的一项关键架构改进是实现了动态分辨率支持。与上一代模型Qwen-VL不同,Qwen2-VL可以处理任意分辨率的图像,而无需将其分割成块,从而确保模型输入与图像固有信息之间的一致性。 Qwen2-VL支持中文、英文、日文、韩文等众多语言,可以在Apache 2.0协议下进行商业化使用。同时阿里发布了Qwen2-VL-72B的API,帮助开…- 19
- 0
-
谷歌推出全新图像生成器Imagen 3
最近谷歌宣布推出了Imagen 3,进一步增强了文本生成图片的技术能力。Imagen 3在文本语义还原、色彩搭配、文本嵌入、图像细节、光影效果等方面都比Imagen 2有了大幅度的提升。目前Imagen 3已经可以在美国地区使用,未来谷歌会持续扩大使用范围。 传统的扩散模型在处理高维复杂数据、图像质量和多样性以及训练稳定性方面有一些缺点,同时开发成本也比较高。在这种背景下谷歌推出了使用了潜空间扩散…- 15
- 0