-
北大快手联合开源超高清视频模型Pyramid-Flow
近日北大联合快手开源超高清视频模型Pyramid Flow发布,仅通过文本就能生成最多10秒、1280×768分辨率和24帧视频。Pyramid Flow在光影效果、运动动作一致性、视频质量、文本语义还原、色彩搭配等多个方面表现非常出色。 Pyramid-Flow使用A100 GPU在开源数据集上仅训练了20,700小时,其能耗和生成效率比市面上同类开源视频模型好很多,对于没有大量算力的…...- 0
- 11
-
Meta最新大模型Movie Gen发布
最近Meta公司发布了最新大模型Movie Gen,这是一款能够生成带有声音的高清视频的创新工具,也标志着Meta正式进军文生视频领域。 Movie Gen能够根据文本提示创造长达16秒、每秒16帧的1080P超高清视频,支持73K token上下文,为现有视频配上音频,或对现有视频进行编辑,甚至能够利用照片制作出以真实人物为主题的定制视频。 Movie Gen功能介绍 1、文生视频 Movie …...- 0
- 10
-
ChatGPT全新功能Canvas上线
最近OpenAI正式发布了全新的工作界面——Canvas,旨在为用户提供一个更为高效的写作与编程环境。这个界面是用OpenAI的最新主力模型GPT-4o构建,用于利用ChatGPT合作进行不仅限于聊天的写作和编码项目工作。 Canvas是一个独立的窗口,用户可以在这个页面中与ChatGPT、Canvas一起协作执行任务,并且是自动触发。Canvas的推出,是响应市场对更加协作、互动的AI工具日益增…...- 0
- 14
-
Meta发布多模态Llama 3.2新模型
最近Meta发布了多模态Llama 3.2新模型,能够同时理解图像和文本。此次一共发布了四个版本,分别为Llama 3.2 1B、Llama 3.2 3B、Llama 3.2 90B和Llama 3.2 11B。 其中Llama 3.2 1B和Llama 3.2 3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持128k标记的上下文长度…...- 0
- 8
-
字节跳动发布豆包视频生成大模型
最近字节跳动旗下火山引擎发布最新豆包视频生成大模型,分别是PixelDance和Seaweed,正式进军文生视频领域。 豆包视频生成大模型能够轻松实现自然连贯的多拍动作以及多主体复杂交互,生成的视频更加精准、逼真。通过该大模型生成的视频可以精准地遵循复杂提示指令,让不同人物在视频中完成多个动作指令的互动,且互动过程流畅自然,毫无生硬之感。以下就是豆包视频生成大模型的特色之处: 1、细节处理方面 豆…...- 0
- 6
-
OpenAI向ChatGPT付费用户开放高级语音模式
最近OpenAI向ChatGPT的所有付费用户开放了备受期待的高级语音模式,新增了自定义指令、语音记忆存储、5种新声音、语速以及新增了50多种语音(最初是40种),同时支持中文模式,接下来就一起来了解一下。 1、新增了5个声音模式 可以选择不同的声音来与你交互,包括冷静、热情、才艺、开朗等不同风格,来满足不同的场景。 2、新增的高级语音自定义指令功能 用户可以通过高级语音自定义指令功能进行更详细的…...- 0
- 9
-
IBM发布Docling模型 可快速转换PDF文档格式
为了解决PDF文档转换为机器可处理的格式的这一极具挑战性的难题,IBM的研究人员基于PDF解析器、大模型、OCR等多种技术开发了Docling模型。该模型可将PDF文档保留全部格式的情况下快速转换成JSON、Markdown格式。 Docling模型使用了模块化设计方法,将整个PDF文档处理流程拆解为一系列连续的操作步骤,每个步骤都由专门的模块来执行。这不仅提升了执行效率和准确率,还极大增强了模型…...- 0
- 22
-
阿里国际发布最新开源多模态模型Ovis
阿里国际AI团队宣布发布多模态大模型Ovis,据悉Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。 Ovis模型创新了架构设计,首次引入将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入。其支持处理极端长宽比的图像,兼容高分辨率图像。覆盖了多方向数据集覆盖,包括Caption、VQA、OCR、Table、Chart等各个多模态数据方…...- 0
- 13
-
阿里发布了史上最大规模的Qwen2.5系列模型
最近阿里巴巴开源发布了史上最大规模的Qwen2.5系列模型,分为基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math三大类。这三大类模型包含0.5B、1.5B、3B、7B、14B、32B和72B等10多个版本,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。 阿里还专门为不想进行繁琐的部署的人群开放了旗舰模型Qwen-Plus和Qwen-Tur…...- 0
- 24
-
麻省理工发布创新模型Vid3D
最近麻省理工、Databricks马赛克科研所和康奈尔大学联合推出了创新模型Vid3D,旨在解决传统的3D视频生成方法中存在的问题。 Vid3D模型假设无需明确建模3D时间动态,通过生成2D视频的时序动态轮廓,然后独立地为视频中的每一帧生成3D表示,而无需考虑前后帧之间的时间连贯性。简而言之就像在制作动画电影时,先绘制故事板,然后每个关键帧单独创建3D模型。 时序播种阶段 Vid3D先从一张参考图…...- 0
- 9
-
OpenAI草莓模型o1发布 现役最强的超复杂推理大模型
传说中的“草莓”终于现身,专为模拟人类的推理能力设计。9月12日,OpenAI推出了内部代号为“草莓”的新人工智能模型OpenAI o1,可以执行一些类似人类的推理任务。 OpenAI o1是全新系列AI模型的第一款。与以往模型不同的是,它拥有进化的推理能力,会在回答前进行缜密思考,生成一个长长的内部思维链,在竞争性编程问题上排名第89位,在美国数学奥林匹克预选资格赛中排名前500,在物理、生物、…...- 0
- 17
-
Mistral发布首个多模态AI大模型Pixtral 12B
最近Mistral AI发布了Pixtral 12B,是Mistral首款能够同时处理图像和文本的多模态AI大语音模型。 Pixtral 12B模型拥有120亿参数,大小约为24GB,基于文本模型Nemo 12B构建而成,能够回答关于任意数量、任意尺寸图像的问题。与Anthropic的Claude系列和OpenAI的GPT-4o等其他多模态模型类似,Pixtral 12B理论上应能执行诸如为图像添…...- 0
- 15