-
MetaLlama推出最新开源模型Llama 3.3-70B
最近,Meta发布了最新开源模型Llama 3.3-70B。Llama 3.3-70B采用了最新的后训练技术,参数规模仅700亿,能实现和Meta最大Llama模型——4050亿参数的Llama 3.1同样的性能,成本还比Llama 3.1更低。 在一系列行业基准测试中,Llama 3.3-70B的表现超越了谷歌的Gemini 1.5 Pro、OpenAI的GPT-4o以及亚马逊新发布的Nova …...- 0
- 25
-
Meta开源多模态模型Llama 3.2
最近,Meta开源了多模态模型Llama 3.2,此次开源的是1B和3B轻量级模型。Meta使用了带有LoRA适配器的量化感知训练和SpinQuant进行了大幅度性能优化,平均减少了41%的内存使用、减少56%的模型规模,但推理效率却提升了2—4倍。 作为整个系列里最轻量级的模型,Llama3.2 1B和3B适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持128k…...- 0
- 84
-
Meta发布多模态Llama 3.2新模型
最近Meta发布了多模态Llama 3.2新模型,能够同时理解图像和文本。此次一共发布了四个版本,分别为Llama 3.2 1B、Llama 3.2 3B、Llama 3.2 90B和Llama 3.2 11B。 其中Llama 3.2 1B和Llama 3.2 3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持128k标记的上下文长度…...- 0
- 42
-
Meta发布首个超GPT-4o开源大模型Llama 3.1
最近,Meta宣布推出迄今为止最强大的开源模型——Llama 3.1。Llama 3.1共有8B、70B及405B三种版本,其中405B版本是目前最大的开源模型之一。 Llama 3.1 405B版本在多项测试中一举超越GPT-4o和Claude 3.5 Sonnet,支持128K上下文长度,英语、法语、德语等8种语言,能生成代码、文本、文本摘要等。 Llama 3.1 405B版本现在没有开放还…...- 0
- 56
-
Meta发布了最新大模型Llama 3
随着人工智能大战持续升级,4月19日,全球科技、社交巨头Meta在官网,正式发布了开源大模型——Llama 3。目前,Llama 3已经开放了80亿(8B)和700亿(70B)两个小参数版本,上下文窗口为8k。 Meta表示,通过使用更高质量的训练数据和指令微调,Llama 3比前代Llama 2有了“显著提升”。Llama 3使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪…...- 0
- 58
-
百度智能云:国内首家推出针对Llama3全系列训练方案
4月18日,Facebook母公司Meta重磅推出了号称“史上最强大开源模型”的Llama3。4月19日,百度智能云千帆大模型成为国内首家推出针对Llama3全系列版本的训练推理方案的平台。现已开放邀约测试。 百度智能云千帆大模型平台中各种尺寸模型定制工具千帆ModelBuilder已上架最新Llama 3系列模型,用户在「体验中心」可以随时体验模型效果。同时,开发者可以根据需求上传数据,在千帆M…...- 0
- 46
-
国产130亿参数大模型开源 性能超Llama2-13B
近日,由元象XVERSE研发的国产大模型XVERSE-13B正式开源,可免费商用。据了解,XVERSE-13B支持40多种语言、8192上下文长度。在多项中英文测评中,性能超过了同尺寸(130亿参数)的LIama2、Baichuan等。 GitHub链接:https://github.com/xverse-ai/XVERSE-13B XVERSE-13B大模型主要有这几个方面的特点: 模型架构方面…...- 0
- 88
-
DeepSeek发布超强开源模型V3最新论文
最近,DeepSeek团队发布了一篇围绕DeepSeek-V3的技术论文,名为《Insights into DeepSeek-V3:Scaling Challenges and Reflections on Hardware for Al Architectures(深入了解DeepSeek-V3:人工智能架构硬件的扩展挑战与思考)》。在论文中,团队把DeepSeek-V3在训练和推理过程中,如何…...- 0
- 29
-
Meta发布最新开源AI大模型Llama 4
近日,美国科技巨头Meta公司发布了其大型语言模型Llama的最新版本,Llama 4 Scout与Llama 4 Maverick。该模型是Meta迄今为止最先进的模型,也是同类产品中多模态性最强的模型。此外Meta还预览了其迄今最强大最智能的模型——Llama 4 Behemoth,是“新模型中的教师”。 Llama 4模型是Llama系列模型中首批采用混合专家(MoE)架构的模型,这一架构也…...- 0
- 41
-
AMD推出完全开源的小参数模型Instella-3B
近日,AMD在官网开源了最新小参数模型Instella-3B。该模型是在AMD Instinct MI300X GPU上训练的,是完全开源的。根据AMD公布的数据,其性能与Llama 3.2 3B、Gemma-2 2B和Qwen 2.5 3B等同类产品相比具有很强的竞争力。 Instella-3B-SFT是经过监督微调的模型,使用了89.02亿tokens的数据,增强了遵循指令的能力。 Inste…...- 0
- 18
-
谷歌宣布开源最新模型Gemma-3 号称能媲美DeepSeek
随着DeepSeek的爆火,国内外的人工智能研究机构都压力倍增。近日,谷歌宣布开源最新多模态大模型Gemma-3,主打低成本高性能。Gemma-3共有10亿、40亿、120亿和270亿四种参数。但即便最大的270亿参数,只需要一张H100就能高效推理,同类模型要达到这个效果最少要提升10倍算力,也是目前最强小参数模型。 谷歌表示,Gemma-3是一系列轻量级、最先进的开源模型,其构建基于与Gemi…...- 0
- 51
-
IBM开源最新企业级大模型Granite 3.0
IBM开源了最新企业级大模型Granite 3.0,该模型包括8B和2B两个微调版本,支持RAG、高级推理、文本/代码生成等,支持12种语言和116种编程语言,接受了12万亿tokens数据训练。 据悉,在AST、BT、安全测试基准中,Granite 3.0 8B超越了Meta最新开源的Llama-3.1 8B。 Granite 3.0的8B和2B版本被设计为企业级AI的“主力”模型,具备更强的稳…...- 0
- 53