国内首个全国产化千亿参数细粒度 MoE：开源！

魔搭ModelScope社区

88人浏览 · 2026-01-19 17:45:08

魔搭ModelScope社区 · 2026-01-19 17:45:08 发布

TeleChat3-105B-A4.7-Thinking，国内首个全国产化训练的千亿参数细粒度MoE语义大模型，开源！

代码：https://github.com/Tele-AI/TeleChat3

模型：https://www.modelscope.cn/models/TeleAI/TeleChat3-105B-A4.7B-Thinking

问答、写作、数学、代码、Agent......多维度比肩业内头部！

代码能力提升，复杂任务拿捏住了！

面对综合任务场景，TeleChat3-105B-A4.7-Thinking高效拆解任务需求，整合多项代码能力，一次性交付出完整可运行的代码。

省去大量人工调试时间投入，运行流畅，审美在线！

📎0b2e3yakiaaanyah4ss4lfuvbxwdutpabjaa.f10002.mp4

由 TeleChat3-105B-A4.7-Thinking 独立完成的射击类小游戏

📎0b2ezual6aaafaaglgk4xfuvbtodx7gqbpya.f10002.mp4

由TeleChat3-105B-A4.7-Thinking 设计的视频网站页面

细粒度MoE，术业有专攻，协同更高效！

此前，中国电信人工智能研究院（TeleAI）与中电信人工智能科技有限公司已陆续开源原创打造的 TeleChat、TeleChat2 及TeleChat2.5系列模型，以传统稠密参数架构为主，模型尺寸覆盖十亿到千亿，构建了全尺寸大模型开源布局。

上半年，星辰语义大模型的首个MoE架构模型TeleChat2-39B-A12B也正式开源,采用粗粒度MoE架构，初步实现知识模块化存储，按需唤醒相关专家模块。

为了进一步提升MoE 大模型的效率与性能，让参数利用更充分，在中国电信集团 CTO、首席科学家、中国电信人工智能研究院（TeleAI）院长李学龙教授的带领下，TeleAI科研团队以智传网（AI Flow）为理论基础，完成了TeleChat3-105B-A4.7-Thinking的全国产化训练。

该模型采用细粒度MoE架构，基础模型训练数据超15T，共包括1个共享专家和192个路由专家（每次激活4个专家），模型整体共105B参数量，实际激活参数为 4.7B，专家稀疏比处于业界前列。

面对不同的任务类型，更加细分的专家子模块实现了术业有专攻，模块之间也实现了更精准、更任务导向的协同。

打个比方，假如大模型是个理综考生，稠密参数大模型就是从一本“十年高考真题大全”合订本里找思路，知识庞杂，效率低下。粗粒度模型，则实现了初步的学科分类和调用，减少了无效的知识调用。细粒度MoE，则是更进一步，特定的题目只调用特定的细分知识点组合，见招拆招，精准调配。