阿里云智能-网络研发通信库高级技术专家-北京/杭州
职位描述
1、技术方案设计
•调研AI大模型训练及推理的前沿技术发展,分析前沿技术和网络的关联以及优化方向;
•分析客户需求,帮助客户使用我们的产品和解决方案,帮忙客户进行性能优化;
2、技术实现
•负责AI计算系统的通信库的设计研发、以优化
•对技术方案进行分析拆解,制定任务目标和产出规范,完成关键模块的设计、编码开发和系统功能实现
•对编码进行阶段性的讨论和CodeReview,并通过调试优化,推动代码成功部署
•对开发中和部署后的程序进行必要的维护和迭代,包括值班oncall、升级工单处置、bug排查、问题诊断、产品体验改善、性能和成本优化等
3、稳定性和性能优化
•制定稳定性策略,寻找并解决产品系统中的潜在风险和瓶颈,覆盖线上疑难杂症问题,确保系统的安全可靠
•运用产品优化技术和方法,进行性能优化,提高产品稳定性和性能
4、技术预研
•跟踪和了解新的产品技术和趋势,根据业务需要提供新的技术支持和建议。
5、技术规划
•理解业务战略及重点,基于业务需求作出高可用、高可靠、高拓展性的技术架构规划和落地。
职位要求
•强烈的自我驱动力,对新技术有求知欲望和自学动力,可以理论结合实践的方式,快速的上手新的知识;
•严谨的工作态度,尤其在面对实验和测试数据和理论分析时,始终保持批判性思维,消除实验误差,保证实验和理论相符;
•有较强的对外沟通意愿,可以和上下游团队形成良好的协作关系,共同解决技术问题,推动项目落地;
•5年以上Coding经验
•所负责的产品有规模化应用经验
•能够负责需要协调多个团队(超过自身团队)的复杂项目;
•清楚认识其他人工作价值,不做低水平重复,寻求合作共赢
•掌握甚至深度参与技术领域相关的前沿信息渠道,通过建立信息搜集和分享体系确保团队持续的获得高质量的一手信息
•对竞对和对标产品的核心技术指标、优劣势对比了如指掌,并通过建立对标机制保障团队对竞对的持续高质量跟进和追赶
•深入了解客户痛点和需求,给出的技术洞见一针见血,确保团队均能在理解客户诉求的前提下开展工作
•能够合理地对于1-2年的系统演进和技术选型做出决策,能够识别技术复用的机会,在项目中复用团队内外部的技术,或者产出能被其他团队复用的技术
•对本技术领域的公司内外及业界相关资源及水平有比较深入了解,面对技术领域的不确定性,具备较好的判断力
•能推动团队实现系统、架构的顺利落地。能治理、完成历史系统&架构的下线流程。有效的清理技术债,对现有系统的稳定性、可靠性、易维护性带来显著提升
•对自己负责的研发模块具备快速上线、响应、应急处理能力,并具备定位到根因的能力
•具有较好的行业/业务判断能力,对行业/业务发展方向有一定预判能力,理解其对所负责产品、系统的影响
•能提出关键问题,把模糊的业务问题转化为清晰的技术问题

阿里云计算有限公司
相关推荐查看更多 >
杭州

