混元大模型后训练算法工程师/专家-长文&复杂指令

Tencent

Beijing, Beijing, China Full-time June 29, 2026

Apply Now

Opportunity Description

混元大模型后训练算法工程师/专家-长文&复杂指令北京分享

分享岗位

方式1:复制岗位链接

方式2:分享岗位海报

手机扫描二维码分享

收藏 TEG 点击了解更多BG信息技术两年以上工作经验更新于年06月26日岗位职责

1.负责大模型后训练（SFT+RL）阶段长文与复杂指令类数据的全链路研发，围绕长篇幅内容生成、多约束/多步骤复杂指令遵循等核心场景，设计并落地覆盖数据生产、自动化质检与定向修复的端到端方案，确保数据在长程连贯性、结构完整性、指令遵循精度等维度的稳定、高标准交付；
2.深度参与Rubrics评分标准体系的设计、生产与质检，针对长文与复杂指令场景，构建原子化、可量化的多维评价体系，搭建从标准生成到评分验证的自动化 pipeline；建立多层质量校验机制，实现“评测发现问题—数据定向补强—配方迭代优化—效果闭环提升”；
3.深度追踪并研究支撑大模型后训练和复杂指令能力提升的前沿数据技术，重点关注长上下文数据构建、复杂指令自动生成、Rubric-based Evaluation、自动化质检、错误归因与数据修复等方向，能够将最新数据方法快速转化为业务价值，持续驱动模型在长文与复杂任务场景下的能力演进。

岗位要求

1.计算机科学、人工智能或相关专业硕士及以上学历，深入理解Transformer 架构及 LLM 训练原理，能针对 SFT、RLHF/DPO 等后训练场景设计并落地高标准数据方案；
2.深入实践过长文生成、复杂指令遵循、长上下文理解等方向的数据构建与优化，具备 Rubrics 评价体系的设计与质检经验，能推动人工标注、模型打分与规则校验等多种质检手段协同落地；
3.熟练掌握 Python 及 PyTorch 等深度学习框架，善于利用 Cursor、Claude Code 等 AI 辅助工具提升数据生产与自动化分析效率；
4.具备强烈的数据敏感度、技术热情与自驱力，主动思考，能从数据与评测结果中洞察模型能力边界，拥有优秀的跨团队协作与沟通能力。在 CCF-A 顶会（NeurIPS、ICLR、ICML、ACL 等）有高质量论文发表或在开源社区有高影响力贡...

Full-time Other-General

Ready to Apply?

Submit your application for 混元大模型后训练算法工程师/专家-长文&复杂指令 at Tencent

Apply for this Position

Location Beijing, Beijing

Country China

Type Full-time

Category Other-General

Posted June 29, 2026

Deadline August 08, 2026

混元大模型后训练算法工程师/专家-长文&复杂指令

Opportunity Description

Ready to Apply?

Opportunity Details

About Tencent

Tencent

Share This Opportunity