一、岗位职责: 1、负责智算平台业务开发,实现大模型的数据准备、数据处理、模型定义、模型训练、模型评估等过程; 2、负责分布式训练编排、断点续训、推理加速等面向大规模训练推理场景的能力实现; 3、负责开源、自有大模型基于不同芯片、不同组网、不同规模场景下的的适配、调优等过程的支撑和专家服务; 4、开发模型一键迁移等工具,适配不同生态; 5、开发推理加速等工具,为不同模型适配云、边、端等不同场景提供加速能力。 二、任职条件 1、硕士及以上学历,计算机相关专业,3年以上相关工作经验; 2、熟练Java、C 、Python编程语言;熟悉常用的Pytorch/Tensorflow/PaddlePaddle/MindSpore等深度学习框架,掌握Deepspeed/Megatron等分布式训练框架; 3、具备超大规模(千卡及以上)集群进行大模型(100B )预训练、微调、推理加速经验者优先; 4、具备国产化AI芯片开发经验者优先; 5、熟悉主流的容器技术,对K8s扩展开发熟悉者优先; 6、具有较强的架构设计能力,能够独立设计复杂分布式系统,有架构设计经验者优先; 7、有优秀的英文学术论文写作能力,在英文期刊和学术顶会上发表过学术论文者优先。