大模型语音算法
7.5-8万元/月发送简历
聊一聊
拨打电话
职位详情:
不合适
投诉
3-5年硕士985MATLAB计算机相关专业声学相关专业语音识别工作经验有国际期刊/会议论文发表语音算法
工作职责:
1. 单人/多说话人语音识别。
2. 语音合成与高质量音频合成。
3. 音频前端与音色转换。
4. 音色克隆(Zero-Shot TTS)。
5. 音乐生成 / 歌声生成。
6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。
7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
岗位要求
1. 计算机、机器学习等相关专业,博士及硕士优先。
2. 较强的代码能力,具有丰富的 TTS / Codec / 流ASR 研究经验,具有相关数据处理经验。
3. 精通 Python 以及 Pytorch 等深度学习框架。
4. 熟悉 Transformer 架构以及大语言模型基础知识。
5. 善于平衡研究目标及落地实现,且结果导向。
6. 良好的沟通和合作能力。
7. 关注技术影响力,具有开源开放精神。
加分项:
1. 曾发表顶级会议论文并具有一定的学术影响力,包括但不限于 NeurIPS、ICLR、ICML、ACL、CVPR、ECCV、InterSpeech 等,具有一些有深度的研究工作是较大加分项,欢迎其他方向的多模态同学看音频方向的机会。
2. 具有较强的工程能力,有开发音视频实时交互系统的经验。
3. 具有高表现力/鲁棒 TTS 生成模型研究/开发经验。
4. 具有持续打磨好每一个技术细节的钻研精神。
5. 拥有知名开源项目,在开源社区具有较好的影响力。
职位总结围绕职位描述,归纳工作内容、招聘要求

魏先生IP:北京
4个月内活跃|
北京伯度咨询有限公司
·人事经理工作地址:
北京海淀区大钟寺东路
点击查看地图法定代表人:刘思妍
成立日期:2021-02-05
