印度人工智能实验室Sarvam于周二推出了新一代大型语言模型,表明它认为更小巧、高效的开源AI模型能够在市场上与美国和中国的竞争对手分一杯羹。此次发布是在新德里举办的人工智能影响峰会上宣布的,这符合印度政府减少对外国AI平台依赖并根据当地语言和应用场景定制模型的努力。
Sarvam表示,新的产品线包括30亿参数和105亿参数的模型、文本转语音模型、语音转文本模型以及解析文档的视觉模型。这一系列新模型相比公司此前于2024年10月发布的2亿参数Sarvam 1模型有了显著的进步。
30亿和105亿参数的模型采用了专家混合架构,能够同时激活其小部分总参数,在大幅降低计算成本的同时提升了性能。其中30B模型支持32,000个标记上下文窗口,适用于实时对话使用;而更大规模的模型则提供128,000个标记上下文窗口,更适合处理复杂、多步骤推理任务。
Sarvam表示,这些新AI模型是从零开始训练的,并没有基于现有的开源系统进行微调。30B模型被预训练了约16万亿个文本标记,而105B模型则是在涉及多种印度语言的数据上进行了大规模训练。
该初创公司称,新模型适用于实时应用,包括印度语言的语音助手和聊天系统等。Sarvam表示,这些模型是通过印度政府支持的人工智能使命提供的计算资源进行训练,并得到了数据中心运营商Yotta和Nvidia的技术支持。
Sarvam计划以谨慎的态度扩大模型规模,专注于实际应用而非单纯追求大规模。“我们希望在如何扩展方面保持谨慎。”Sarvam联合创始人Pratyush Kumar在发布会上表示,“我们不想盲目地进行扩展。我们需要理解哪些任务在大规模下真正重要,并为此进行构建。”
Sarvam计划开源30B和105B模型,但未明确说明是否会公开训练数据或完整训练代码。
此外,Sarvam还规划了专门的AI系统建设,包括编程导向型模型和企业工具产品“Sarvam for Work”,以及对话式AI代理平台“Samvaad”。
Sarvam成立于2023年,在融资方面已获得超过5000万美元的资金,并获得了Lightspeed Venture Partners、Khosla Ventures和Peak XV Partners(原Sequoia Capital India)的投资。
推荐意见