Cohere推出支持中文、开放权重的最新开源大模型Aya 23

行业动态
2024年5月27日
0
编辑

知名开源大模型厂商Cohere于近日开源了新一代大模型——Aya 23。Aya 23有80亿和350亿两种版本，支持23种语言，可生成文本、代码、总结内容等。目前，Cohere已经全面开放了Aya 23的权重，在遵守CC-BY-NC、C4AI的策略下可以商业化。

Aya 23

在预训练方面，Aya 23基于Cohere Command系列模型，使用包括23种语言文本的数据混合进行预训练。

Aya-23-35B是Cohere Command R的进一步微调版本。预训练模型采用了标准的仅解码器Transformer架构，并行注意力和FFN层、SwiGLU激活、无偏置、RoPE（旋转位置嵌入）、BPE分词器以及分组查询注意力（GQA）。

据实验数据显示：

1、在鉴别性任务上，Aya 23模型在所有未见过的任务上都表现出色，这些任务包括XWinograd、XCOPA和XStoryCloze，使用零样本评估。

2、在多语言MMLU评估中，Aya 23模型在14种语言上的表现也优于其他模型。在多语言数学推理方面，Aya 23模型在MGSM基准测试中的表现超越了所有同类基线模型。

3、在生成任务方面，Aya 23模型在机器翻译和摘要生成上的表现也显著高于其他具有相似参数的模型。

微软推出基于GPT-4o模型的Copilot+ PC

2024-5-21 14:17:41

Mistral.ai发布首个专业代码模型Codestral

2024-5-30 11:27:37

相关推荐

TOP1

恒创科技云服务器怎么选香港/日本/美国云服务器配置和适用场景参考
12小时前
TOP2

UCloud全新上线了快杰O2系列云主机性能更优+稳定性更强+性价比更高
12小时前
TOP3

云服务器使用宝塔面板AI建站快速生成完整的网站详细教程
14小时前
野草云香港VPS云服务器怎么选香港节点配置和购买建议
2026年6月25日
狗云弹性云服务器适合哪些业务配置价格和购买建议
2026年6月25日
尊云裸金属服务器购买指南：适合哪些企业业务使用
2026年6月25日