AI Infra强化学习工程师-(深圳)or(北京)or

Tencent

Shanghai, Shanghai, China Full-time June 25, 2026

Apply Now

Opportunity Description

AI Infra强化学习工程师-(深圳)or(北京)or 上海分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 CSIG 点击了解更多BG信息技术三年以上工作经验更新于年06月05日

在腾讯，后台开发工程师不仅是“又快又稳”的问题解决专家，更是生态共创者。你将与技术团队一同沉淀优质代码，让它成为我们共有的宝贵资产。在不同的业务场景和技术发展阶段，你的架构思维也将帮助更多协作团队拓展新的思考。我们也珍视你的挑战精神，同时欢迎你一起参与团队愿景、文化和产品方向的探讨。

岗位职责

1.负责LLM RL、Agentic RL强化学习训练框架的设计、开发与性能优化，支撑大规模 RL 算法（如 PPO、DQN、GRPO等）的高效落地；
2.构建分布式训练体系，优化训推异步、partial rollout、数据并行、模型并行、Replay Buffer分布式存储与调度策略，提升 GPU 利用率与训练吞吐；
3.设计并实现 RL 训练全流程工具链：包括环境封装、数据预处理、模型版本管理、训练日志监控、指标可可视化（TensorBoard/Weights & Biases）等；
4.解决 RL 训练中的工程瓶颈：如样本传输延迟、GPU 显存溢出、训练稳定性（梯度爆炸 / 消失）等问题，提供工程化解决方案；
5.与 RL 算法团队紧密协作，理解算法需求并迭代基础设施，适配多场景的训练需求；
6.跟进强化学习与分布式训练领域的前沿技术（如 VERL、rllm、Agentlightning、Ray、Megatron-LM等），并落地到实际系统中。

岗位要求

1.算机科学、软件工程、人工智能等相关专业，3 年以上工程化开发经验（含 1 年以上 RL 或深度学习基础设施相关经验）；
2.熟练掌握 Python 编程，具备扎实的工程编码能力，熟悉 C/C++ 者优先（底层优化场景）；
3.深入理解深度学习框架（PyTorch），精通分布式训练原理与实践（FSDP/DeepSpeed/Megatron/Ray 等工具使用经验）；<...

Full-time Other-General

Ready to Apply?

Submit your application for AI Infra强化学习工程师-(深圳)or(北京)or at Tencent

Apply for this Position

Location Shanghai, Shanghai

Country China

Type Full-time

Category Other-General

Posted June 25, 2026

Deadline August 04, 2026

AI Infra强化学习工程师-(深圳)or(北京)or

Opportunity Description

Ready to Apply?

Opportunity Details

About Tencent

Tencent

Share This Opportunity

AI Infra强化学习工程师​-(深圳)or(北京)or

Opportunity Description

Ready to Apply?

Opportunity Details

About Tencent

Tencent

Share This Opportunity

AI Infra强化学习工程师-(深圳)or(北京)or