近期,科大讯飞在魔搭社区(ModelScope)和Gitcode上开源两款模型:讯飞星火化学大模型Spark Chemistry-X1-13B、讯飞文生音频模型AudioFly,助力前沿化学技术研究,以及声音生成技术和应用的探索。

开源项目地址
 

Spark Chemistry-X1-13B

魔搭社区:https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B

Gitcode:https://ai.gitcode.com/ifly_opensource/Spark-Chemistry-X1-13B

AudioFly

魔搭社区:https://modelscope.cn/models/iflytek/AudioFly

Gitcode:https://ai.gitcode.com/ifly_opensource/AudioFly

讯飞星火化学大模型Spark Chemistry-X1-13B

该模型基于讯飞星火X1-0420大模型,在多种化学任务数据集上进行了微调,展示了在解决复杂化学问题方面的卓越能力,同时保持了强大的通用能力。该模型在与化学相关的基准测试中表现出色,并且在大多数评估指标上明显优于领先的通用模型。

Spark Chemistry-X1-13B具备以下特点:

  • 将长思维链和快思考进行结合,是支持快思考和慢思考的统一模型。
  • 采用新的注意力掩码机制,将不同推理模式的训练阶段进行解耦,有效防止了混合模式数据分布之间的干扰。
  • 对高等知识问答、化学名称转换和分子性质预测等专门任务进行了多阶段优化,在相关评测上也取得了优异表现。

* 评估数据集为自建,粗体表示当前评测SOTA

* 所有模型均使用相同的评估方案进行评估,结果为大模型在不同任务上平均的Zero-shot效果

Spark-Chemistry-X1-13B能够助力化学相关科研工作的高效推进与深远探索,使得开发者能够高效便捷搭建化学性质预测、化学知识检索问答等相关应用,同时也激发了更多跨领域创新可能,例如计算机科学与化学、生物学与化学等。

讯飞文生音效模型AudioFly

AudioFly模型可基于文本描述输入,生成44.1kHz 采样率的高质量音频,在文本与音效的匹配度上表现优异。AudioFly采用了潜在扩散模型(LDM)架构,经海量多元声音数据训练,支持单事件、多事件场景。

这里是一些AudioFly所生成的样例:

Prompt:A cat meows, and it's drizzling(一只猫喵喵叫着,外面正下着小雨)

📎getvoice.mp3

Prompt:thunder rumbled in the distance (远处传来阵阵雷声)

📎getvoice (1).mp3

thunder rumbled in the distance,魔搭ModelScope社区,10秒

在未进行针对性微调的情况下,AudioFly在学术数据集AudioCaps测试集上取得了SOTA指标,证明了该模型良好的推广性和鲁棒性。

* 以上为在学界大规模音频事件描述数据集AudioCaps上的评测结果

FD:衡量生成音频与真实音频特征分布上的差异

KL:衡量生成结果与真实数据概率分布上的差异

CLAP:计算生成的音频与文本描述的一致性

* 基线模型的指标引用了论文 Stable Audio Open 中的评测分数;AudioFly 评测复用 Stable Audio Open 开源的测试方法保证客观性。

AudioFly的开源能够有效降低音效生成模型的使用门槛,开发者可以将其应用于短视频配音、有声故事生成等领域,释放更多声音创意潜力,创造出更多优质的声音内容。

非常欢迎大家在魔搭社区和Gitcode下载并体验上述开源模型。未来,团队也会分批次陆续在开源社区上开源更多通用与专业模型,为国产大模型开源生态的建设贡献自己的力量。

↓点击链接 直达开源模型链接https://modelscope.cn/models/iflytek/Spark-Chemistry-X1-13B

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐