技术支持工程师-智算中心方向
6000-10000元/月岗位职责:
1.项目硬件集成交付:负责智算中心GPU服务器、高速网络交换机、分布式存储系统等硬件设备的现场或远程部署实施,完成硬件调试、固件更新及系统初始化工作。
2.项目软件集群搭建:配置并部署集群管理平台、作业调度系统(如Slurm、Kubernetes)、并行文件系统(如Lustre、Ceph)以及监控告警体系,保障集群稳定运行。
3.性能调优与基准测试:开展系统级和组件级性能测试(如MLPerf、NCCLTests),识别计算、网络、存储IO等方面的性能瓶颈,并协同硬件与研发团队实施优化措施。
4.故障诊断与解决:在项目建设过程中快速排查并处理硬件兼容性问题、驱动冲突、网络互联异常、散热不良等各类技术故障。
5.文档与交付物编写:编制完整的部署文档、测试报告、验收手册及标准化操作流程(SOP),确保客户获得清晰、规范的技术交付成果。
6.内部协作与沟通:与项目经理、硬件工程师、研发人员及供应商技术支持团队高效配合,推动项目按技术标准顺利落地。
任职要求:
•必备条件:
1.计算机科学、电子工程或相关专业本科及以上学历
2.具备1年以上系统集成、数据中心建设或大型IT基础设施项目实施经验
3.具备良好的沟通能力与团队合作意识,能够接受长期高频次出差安排
•技术技能:
1.集群硬件:掌握X86架构设备的硬件组成与工作原理
2.集群软件:具有HPC或AI计算集群搭建与运维实践经验,熟悉Slurm、Kubernetes(K8s)等调度系统
3.自动化与脚本:熟练使用Shell或Python编写脚本,掌握Ansible/Puppet等自动化工具,可用于日常部署与测试任务
有以下经验者优先考虑:
1.拥有数据中心、云服务企业或高性能计算环境的工作背景
2.对人工智能、机器学习训练与推理流程具备基础认知
3.获得过相关技术认证(如RHCE、KubernetesCKA/CKAD、NvidiaDSC、主流云厂商认证等)
4.具备处理高优先级紧急故障(P0/P1级别事件)的实际经验
公司简介:
翼华科技成立于2022年7月,是一家专注于高性能智能化网络算力芯片及AIGC算力集群解决方案的高科技企业。公司在北京、上海、深圳、杭州和西安设有五大研发中心,核心团队源自国际知名芯片企业、全球领先通信设备商、头部互联网公司及电信运营商,拥有深厚的技术积淀与产业洞察。
公司秉持“共情、极致、担当”的企业文化,致力于在异构计算领域发展为全球领先、国内领先的网络算力芯片与解决方案供应商。在RDMA、RISC-V等核心技术方向具备自主优势,同时在ASIC、SoC芯片集成与实现方面具备丰富经验。目前已获国内头部投资机构支持,积极融入国家算力战略布局,助力推进软硬件国产化进程。

翼华科技
点击查看地图