Opportunity Description
企业微信-机器学习平台调度工程师-(成都/北京) 广州 分享 在腾讯,后台开发工程师不仅是“又快又稳”的问题解决专家,更是生态共创者。你将与技术团队一同沉淀优质代码,让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段,你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神,同时欢迎你一起参与团队愿景、文化和产品方向的探讨。 岗位职责 1.主导大规模GPU集群的全局资源调度,通过精细化管理和优化策略,显著提升资源利用率,确保离线和在线任务的高效稳定运行;
2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率;
3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地;
4.积极探索混合云、虚拟化等异构计算等前沿方向,不断推动技术与平台能力的升级和创新。 岗位要求 1.熟练掌握Go/Python/C++至少一门编程语言,精通数据结构和算法,具备扎实的编程基础和问题解决能力;
2.熟悉Kubernetes核心组件(调度器/网络/存储)、容器运行时及CRD开发,具备丰富的大规模集群调优经验,能够有效应对复杂环境下的调度需求;
3.具备OpenMP/MPI/RDMA高性能计算开发经验,熟悉并行计算原理及优化技巧,能够提升大规模训练任务的执行效率;
4.熟悉至少一种主流深度学习框架,例如Pytorch/TensorFlow/Megatron/Deepspeed等;
5.该岗位支持base广州、成都、北京。
分享岗位
方式1:复制岗位链接
方式2:分享岗位海报
手机扫描二维码分享
收藏 WXG 点击了解更多BG信息 技术 三年以上工作经验 更新于年06月12日2.深入优化RDMA高速网络、分布式存储与计算资源的协同调度,有效解决大规模训练任务中的性能瓶颈,提升整体计算效率;
3.基于Kubernetes、Docker等云原生技术,构建高可用调度框架,全面支持分布式训练框架,实现任务编排、容灾与混部能力,并深入K8s调度器、CSI插件及CRD的开发,推动大规模训推技术的实际落地;
4.积极探索混合云、虚拟化等异构计算等前沿方向,不断推动技术与平台能力的升级和创新。
2.熟悉Kubernetes核心组件(调度器/网络/存储)、容器运行时及CRD开发,具备丰富的大规模集群调优经验,能够有效应对复杂环境下的调度需求;
3.具备OpenMP/MPI/RDMA高性能计算开发经验,熟悉并行计算原理及优化技巧,能够提升大规模训练任务的执行效率;
4.熟悉至少一种主流深度学习框架,例如Pytorch/TensorFlow/Megatron/Deepspeed等;
5.该岗位支持base广州、成都、北京。
Ready to Apply?
Submit your application for 企业微信-机器学习平台调度工程师-(成都/北京) at Tencent
Apply for this Position