需要云平台相关经验
阿里云智能-云平台运维专家-杭州
职位描述
1.运维体系构建与优化:负责设计并落地云平台的运维组织结构、工具链及运营体系,确保云环境及其中的公共组件高度稳定且可用。
2.统一平台与工具整合:为解决业务入口不统一导致的资源管理问题,推动使用统一的运维操作平台,整合各类工具,提供清晰的操作指引,提升效率和管理一致性。
3.账号权限与资源管理:通过细化账号权限管理体系,精细管理策略,加强资源使用的水位管理和配额控制,确保访问隔离,资源合理高效利用。
4.监控与告警体系建设:针对监控与告警能力的不完善,推动产品和资源的全方位监控能力建设,及时发现并预警潜在问题,减少故障发生概率和影响范围。
5.标准SOP与知识库:沉淀常见问题排查SOP和基础知识文档,逐步形成体系化知识库,提升运维协作效率。
6.稳定性相关技改项目:通过协同产研,SRE,业务侧等部门,完成稳定性高可用解决方案的建设交付项目推进和持续提供技术支持。
职位要求
1、5年以上IT、互联网、云计算行业运维工作经验,有阿里云ACP/ACE认证,有海外工作经验等优先。
2、能够在多产品/小型产品线/中型复杂系统层面严格遵循研发安全生产规范和流程,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢。
3、熟练掌握业内主流的研发安全生产技术体系,并在团队内有效落地应用,提升产品/技术/系统的安全和稳定性经验的优先。
4、具有跨产品、中型复杂系统的研发安全生产经验优先,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地。
5、针对部门级的疑难故障问题,能够提出创新的解决思路与方案。
6、具备智能化/自动化运维的理念,牵头负责自动化运维平台的建设,提升人效、降低单位成本、提升稳定性。
7、通过数字化能力的建设,识别运营、人员管理的风险或问题,搭建完整的风险管理体系和执行机制。
阿里云智能-运维技术工程师-杭州
职位描述
部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供先进的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。
云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。
云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于:
1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系
2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛
3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单
4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进
5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障
岗位职责:
1.管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。
2.负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。
3.主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。
4.结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。
5.该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验
职位要求
职位要求
1.3年以上云计算\IT厂商相关工作经验,运维\研发测试\售后技术支持\技术咨询等方向,对以下一个或多个云计算产品领域有深入的理解:计算、存储、网络、数据库等。
2.对云计算业务运维保障管理有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、系统的高可用性架构实现、组织的稳定性意识提升等。
3.对问题有清晰的分析逻辑和全局思维,能提出具有创造性的解决思路和方案,善于学习新技术。
4.有良好的沟通能力和结构化表达能力、能主动观察与了解被沟通对象的想法与诉求,高效沟通,尽量避免冲突并达成共识;能主导跨部门复杂业务沟通,并达成共识、协作完成结果;能并行处理多项工作,快速学习能力强。
优先条件:
1.有ITIL认证,有ITIL体系实践经验,有体系化思维能力;
2.有AWS、Azure等云计算的稳定性保障经验或了解;
3.有项目管理经验优先,能独立主导跨业务的复杂项目落地,具备独立项目的规划能力;
4.有大模型ACA认证,能够利用AI辅助提升工作效率。

阿里云计算有限公司
相关推荐查看更多 >
徐汇区
相同职位推荐
企业招聘

