国产130亿参数大模型开源 性能超Llama2-13B

近日,由元象XVERSE研发的国产大模型XVERSE-13B正式开源,可免费商用。据了解,XVERSE-13B支持40多种语言、8192上下文长度。在多项中英文测评中,性能超过了同尺寸(130亿参数)的LIama2、Baichuan等。

GitHub链接:https://github.com/xverse-ai/XVERSE-13B

XVERSE-13B

XVERSE-13B大模型主要有这几个方面的特点:

模型架构方面,它是基于标准Transformer架构(Decoder-only),支持8K上下文长度,据称这也是目前同尺寸标准模型中最长。这样一来,可满足更多轮对话,减少遗忘现象,以及输入更多内容完成复杂任务。

训练数据上,构建了1.4万亿tokens的数据集,包含中、英、俄、西等40多种语言。而为了充分利用训练数据,他们在分词策略上,基于BPE(Byte-Pair Encoding)算法,使用上百 GB 语料训练了一个词表大小为 100,278 的分词器。这样一来,能够同时支持多语言,而无需额外扩展词表。

此外,还在训练框架上进行了算子、通信、并行策略及调度等方面的优化,包括高效算子、显存优化、并行调度策略、数据-计算-通信重叠、平台和框架协同等自研技术,使得千卡集群上的峰值算力利用率达到 58.5%,据介绍位居业界前列。

作为通用大模型,XVERSE-13B支持文本生成、自动化写作、数据分析、知识问答、多语言翻译、个性化交互、人物角色扮演、专业小助手等功能。

具体到各项能力测评上,元象XVERSE选取了 MMLU(英文)、 C-Eval(中文)、AGIEval(中英) 、GAOKAO-Bench(中英)、GAOKAO-English(英文)等在内的评测集。

比如在MMLU测评中,其综合评分达到55.1分,在多个维度超过了同参数规模的主流模型。还有在C-Eval、AGIEval和GAOKAO-Bench等中文测评中,分别以54.7、41.4以及53.9分超越了其他模型。

目前,XVERSE-13B代码采用 Apache-2.0协议,向学术研究完全开源,企业只需简单登记,即可免费商用。哈工大已经率先使用大模型推进相关研究工作。

服务商动态

昆仑万维与映宇宙集团母公司达成大模型技术合作

2023-8-8 9:41:57

服务商动态

阿里云serverless应用引擎2.0正式公测

2023-8-9 10:06:05

相关推荐