职位详情
微信扫码分享
投诉
岗位职责:
1、参与语音生成类大模型相关技术的研发工作,涵盖语音合成、端到端语音对话系统等方向;
2、推动先进技术在实际业务场景中的应用落地,涉及语言、语音及音频的生成与理解等领域;
3、持续跟踪语音生成前沿算法进展,优化现有模型的推理效率与语音合成效果。
岗位要求:
1、掌握主流大模型语音合成技术(如VALL-E、cosyvoice、indextts等),具备模型训练、调优经验,并有实际落地成果;
2、熟悉主流端到端语音大模型方法(如glm-voice、moshi、llama-onmi等),具备相关训练与优化实践经历;
3、理解传统TTS各模块核心技术,具有实际项目经验,包括语音前端处理(G2P、TN、多音字、韵律预测等)、声学模型(vits、fastspeech、glowtts等)以及声码器(hifigan、vocos、bigvgan等);
4、熟练使用PyTorch等深度学习框架,精通Python编程;
5、在NeurlPS、ICML、ICLR、ACL、Interspeech、ICASSP等顶级会议发表过论文,或拥有相关计算机领域工作经验、ACM竞赛获奖者优先考虑。

张先生IP:河北衡水
今日活跃|
度小满科技(北京)有限公司
相关推荐查看更多 >
海淀区
相同职位推荐
企业招聘

