运维
1-1.6万元/月该职位于5日内新发布
、Kubernetes平台管理与优化:
-负责投研平台的Kubernetes集群(CPU&GPU)的部署、升级、扩缩容、监控和故障排除,确保其高可用性与高性能。
设计和实现集群的网络(CNI)、存储(CSI)安全策略与资源调度优化管理集群的认证授权(RBAC),配额管理和成本优化。2、研发效能与自动化:
构建和维护从代码提交到构建、测试、部署的CI/CD流水线(基于GitLabCI/Jenkins/ArgoCD等)。
开发和维护统一的应用部署模板与标准(HelmCharts,Kustomize),降低研发团队的使用门槛。
实现研发环境的快速搭建与复制,支持团队进行高效的代码调试和集成测试。3、可观测性与稳定性建设:
设计和维护集成的日志、监控、告警体系(技术栈如Prometheus,Grafana,ELK)
--与运维工程师协作,建立和完善统一的任务调度平台,并确保其稳定运行。参与制定并实施灾难恢复和业务连续性计划。平台化与数据治理支持:
将基础设施能力产品化,为客户提供自助式服务平台。
1、经验:
-计算机科学或相关专业全日制本科及以上学历,-至少3年以上基础设施/云原生/SRE相关工作经验。·拥有从零到一构建或深度管理大规模Kubernetes生产环境的经验。2、核心技术栈:
.精通Kubernetes的架构、核心概念与云原生的生态系统,具备扎实的故障排查能力。
-熟练掌握至少一种编程语言,如G0、Python或Shell,用于自动化脚本和工具开发。
-拥有丰富的CI/CD流水线设计和实施经验,精通Git工作流具备扎实的Linux操作系统和网络知识。深入理解Linux/Windows类系统,熟悉常见服务的安装配置、优化、高可用,如Nginx、MQ、Redis、keepalived、haproxy等;-深入理解Nginx等网关的工作原理,具备大型互联网系统网关服务的维护经验能处理高并发流量、精通路由配置、安全防护与故障诊断。3、可观测性能力:
拥有构建企业级监控和日志系统的实际经验,熟悉Prometheus,Grafana等工具

上海荣宇智能信息技术有限公司
点击查看地图