TeleChat3-105B-A4.7-Thinking,国内首个全国产化训练的千亿参数细粒度MoE语义大模型,开源!

代码:https://github.com/Tele-AI/TeleChat3

模型:https://www.modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking

问答、写作、数学、代码、Agent......多维度比肩业内头部!

代码能力提升,复杂任务拿捏住了!

面对综合任务场景,TeleChat3-105B-A4.7-Thinking高效拆解任务需求,整合多项代码能力,一次性交付出完整可运行的代码。

省去大量人工调试时间投入,运行流畅,审美在线!

📎0b2e3yakiaaanyah4ss4lfuvbxwdutpabjaa.f10002.mp4

由 TeleChat3-105B-A4.7-Thinking 独立完成的射击类小游戏

 

📎0b2ezual6aaafaaglgk4xfuvbtodx7gqbpya.f10002.mp4

由TeleChat3-105B-A4.7-Thinking 设计的视频网站页面

 

细粒度MoE,术业有专攻,协同更高效!

此前,中国电信人工智能研究院(TeleAI)与中电信人工智能科技有限公司已陆续开源原创打造的 TeleChat、TeleChat2 及TeleChat2.5系列模型,以传统稠密参数架构为主,模型尺寸覆盖十亿到千亿,构建了全尺寸大模型开源布局。

上半年,星辰语义大模型的首个MoE架构模型TeleChat2-39B-A12B也正式开源,采用粗粒度MoE架构,初步实现知识模块化存储,按需唤醒相关专家模块。

为了进一步提升MoE 大模型的效率与性能,让参数利用更充分,在中国电信集团 CTO、首席科学家、中国电信人工智能研究院(TeleAI)院长李学龙教授的带领下,TeleAI科研团队以智传网(AI Flow)为理论基础,完成了TeleChat3-105B-A4.7-Thinking的全国产化训练。

该模型采用细粒度MoE架构,基础模型训练数据超15T,共包括1个共享专家和192个路由专家(每次激活4个专家),模型整体共105B参数量,实际激活参数为 4.7B,专家稀疏比处于业界前列。

面对不同的任务类型,更加细分的专家子模块实现了术业有专攻,模块之间也实现了更精准、更任务导向的协同。

打个比方,假如大模型是个理综考生,稠密参数大模型就是从一本“十年高考真题大全”合订本里找思路,知识庞杂,效率低下。粗粒度模型,则实现了初步的学科分类和调用,减少了无效的知识调用。细粒度MoE,则是更进一步,特定的题目只调用特定的细分知识点组合,见招拆招,精准调配。

此外,TeleAI还同步开源了稠密参数模型TeleChat3-36B-Thinking模型,在知识、逻辑推理、智能体等维度实现了能力提升,并实现了文本创作、语义理解、角色扮演等任务的针对性优化。

 

训练黑科技拉满,收敛稳、效率优

训练方式创新

TeleAI 科研团队采用细粒度的模型初始化方式和学习率控制,对不同权重采用不同的初始化方式和学习率,加快模型在训练初期的收敛速度,增强模型在训练中的稳定性。

基础模型训练通过两个阶段预训练和一个阶段中训练完成,总计训练 15T tokens。

预训练第一阶段以通识数据(网页、书籍、多语言数据等)为主,主要提升模型知识能力;第二阶段增大 STEM 和代码相关数据占比,提升模型推理相关能力。

中训练阶段以合成数据为主,包含仓库级代码任务、高质量数理逻辑数据以及智能体任务数据,持续提升模型逻辑推理和智能体相关能力。

后训练也包含两个阶段:

第一阶段模型冷启动微调,为取得更好的冷启动效果,针对微调数据难度和多样性做了大量筛选工作,大幅提升模型多任务理解及指令遵从能力。

 

第二阶段强化学习,采用基于规则校验奖励和 RM 打分模型融合的方式。针对数理、代码、指令遵循等采用规则校验;针对文本创作、语义理解、角色扮演等任务采用专项训练 RM 模型进行打分。

 

国产算力优化

基于中国电信上海临港国产万卡算力池,科研团队在MoE 模块中将 Tensor 并行域转换成专家并行域,从而将 MoE 的 “All to All” 通讯约束在节点内,提高通讯效率。

为了解决长序列训练时预训练文本拼接长度不一致带来的性能劣化,团队引入了micro 级别的动态拼接,缓解计算负载的不均衡,减少了计算波动。

对于复杂的并行策略调优,则采用了自动并行工具来加速搜索、优化并行方式,节约搜索和调优成本。

目前,TeleChat3-105B-A4.7-Thinking已经登陆 GitHub、ModelScope,欢迎开发者们前往体验!

https://github.com/Tele-AI/TeleChat3

 

开源地址:

https://github.com/Tele-AI/TeleChat3

模型链接:

https://www.modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking

 

点击即可跳转模型链接~

https://modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐