Opportunity Description
腾讯云-元宝SRE工程师 深圳 分享 在腾讯,优秀的技术运营工程师始终赋能业务,关注技术运营的质量、成本、效率和安全。他们不仅是经验丰富的问题解决者,更是具有全局视角的架构师,通过自动化工具的建设,强力提升平台效能,助力业务发展。 岗位职责 1.负责元宝的稳定运行,支持开源Deepseek等模型服务训练与部署的多个环节;
2.优化模型的部署流程,包括持续集成、持续部署( CI / CD )和自动化工具;
3.负责集群管理和服务治理,设计容灾方案并实施演练,保障系统高可用和稳定性;
4.负责资源成本管理与规划,优化计算和存储资源,提升机器学习任务的执行效率;
5.分析 AI 硬件应用中的质量性能表现,提供系统技术支持能力,推动改进识别和落地;
6.关注业界前沿技术动态,探索复杂业务系统运维自动化和智能化的技术和方向。 岗位要求 1.本科及以上学历,3年以上工作经验,有机器学习平台相关开发或运维经验;
2.熟练使用 Go /Python/ Shell 等一种或多种编程语言,善于使用自动化/智能化方法让服务稳定高效;
3.熟悉容器技术,掌握K8s、 Docker 的技术原理,有实际使用和运维经验;
4.深入了解GPU架构与并行计算,掌握CUDA编程实践,熟悉RDMA网络通信技术、NCCL集合通讯,大模型分布式训练与推理架构及模型压缩技术;
5.对于AI大模型应用的构建、部署和维护过程有深入理解;
6.有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7.具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力。
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 CSIG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月08日2.优化模型的部署流程,包括持续集成、持续部署( CI / CD )和自动化工具;
3.负责集群管理和服务治理,设计容灾方案并实施演练,保障系统高可用和稳定性;
4.负责资源成本管理与规划,优化计算和存储资源,提升机器学习任务的执行效率;
5.分析 AI 硬件应用中的质量性能表现,提供系统技术支持能力,推动改进识别和落地;
6.关注业界前沿技术动态,探索复杂业务系统运维自动化和智能化的技术和方向。
2.熟练使用 Go /Python/ Shell 等一种或多种编程语言,善于使用自动化/智能化方法让服务稳定高效;
3.熟悉容器技术,掌握K8s、 Docker 的技术原理,有实际使用和运维经验;
4.深入了解GPU架构与并行计算,掌握CUDA编程实践,熟悉RDMA网络通信技术、NCCL集合通讯,大模型分布式训练与推理架构及模型压缩技术;
5.对于AI大模型应用的构建、部署和维护过程有深入理解;
6.有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
7.具有良好的沟通协调能力,较好的团队合作精神、责任心和一定抗压能力。