科大讯飞开源星火化学大模型、文生音效模型
近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。
开源项目地址:
Spark Chemistry-X1-13B
魔搭社区:https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B
Gitcode:https://ai.gitcode.com/ifly_opensource/Spark-Chemistry-X1-13B
AudioFly
魔搭社区:https://modelscope.cn/models/iflytek/AudioFly
Gitcode:https://ai.gitcode.com/ifly_opensource/AudioFly
讯飞星火化学大模型Spark Chemistry-X1-13B
该模型基于讯飞星火X1-0420大模型,在多种化学任务数据集上进行了微调,展示了在解决复杂化学问题方面的卓越能力,同时保持了强大的通用能力。该模型在与化学相关的基准测试中表现出色,并且在大多数评估指标上明显优于领先的通用模型。
Spark Chemistry-X1-13B具备以下特点:
- 将长思维链和快思考进行结合,是支持快思考和慢思考的统一模型。
- 采用新的注意力掩码机制,将不同推理模式的训练阶段进行解耦,有效防止了混合模式数据分布之间的干扰。
- 对高等知识问答、化学名称转换和分子性质预测等专门任务进行了多阶段优化,在相关评测上也取得了优异表现。
* 评估数据集为自建,粗体表示当前评测SOTA
* 所有模型均使用相同的评估方案进行评估,结果为大模型在不同任务上平均的Zero-shot效果
Spark-Chemistry-X1-13B能够助力化学相关科研工作的高效推进与深远探索,使得开发者能够高效便捷搭建化学性质预测、化学知识检索问答等相关应用,同时也激发了更多跨领域创新可能,例如计算机科学与化学、生物学与化学等。
讯飞文生音效模型AudioFly
AudioFly模型可基于文本描述输入,生成44.1kHz 采样率的高质量音频,在文本与音效的匹配度上表现优异。AudioFly采用了潜在扩散模型(LDM)架构,经海量多元声音数据训练,支持单事件、多事件场景。
这里是一些AudioFly所生成的样例:
Prompt:A cat meows, and it's drizzling(一只猫喵喵叫着,外面正下着小雨)
Prompt:thunder rumbled in the distance (远处传来阵阵雷声)
thunder rumbled in the distance,魔搭ModelScope社区,10秒
在未进行针对性微调的情况下,AudioFly在学术数据集AudioCaps测试集上取得了SOTA指标,证明了该模型良好的推广性和鲁棒性。
* 以上为在学界大规模音频事件描述数据集AudioCaps上的评测结果
FD:衡量生成音频与真实音频特征分布上的差异
KL:衡量生成结果与真实数据概率分布上的差异
CLAP:计算生成的音频与文本描述的一致性
* 基线模型的指标引用了论文 Stable Audio Open 中的评测分数;AudioFly 评测复用 Stable Audio Open 开源的测试方法保证客观性。
AudioFly的开源能够有效降低音效生成模型的使用门槛,开发者可以将其应用于短视频配音、有声故事生成等领域,释放更多声音创意潜力,创造出更多优质的声音内容。
非常欢迎大家在魔搭社区和Gitcode下载并体验上述开源模型。未来,团队也会分批次陆续在开源社区上开源更多通用与专业模型,为国产大模型开源生态的建设贡献自己的力量。
↓点击链接 直达开源模型链接https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B
更多推荐
所有评论(0)