宽德智能学习实验室(WILL)
系统运维工程师
全职/实习 | 上海/北京
薪酬
面议

负责大模型训练与推理系统中基础设施的部署、运维及优化,保障大规模GPU集群的稳定高效运行。

核心职责

  • 参与算力机房的建设和网络部署,确保机房的安全可靠性。
  • 参与设计自动化运维方案,实现部署、监控、告警全链路管理。
  • 参与运维规范的制定与实施,建立故障应急响应机制。
  • 全流程持续跟踪网络状态,机器硬件状态,确保故障的及时修复。
  • 参与新机型、新技术测试。

任职要求

  • 全日制本科及以上学历,计算机及相关专业。
  • 具有大规模系统运维经验,熟悉Linux/K8s/Docker等工具。
  • 熟悉Python/Shell,可编写运维工具。
  • 有大规模计算集群运维经验者优先。
  • 熟悉RDMA相关网络技术者,且有网络调优经验者优先。
申请方式
发送简历和成绩单(Optional)到邮箱:hr@wizardquant.com,邮件主题:姓名+投递职位+毕业年份+院校专业。或通过以下按钮在线申请。
立即申请
关于
宽德智能学习实验室(WILL)
宽德智能学习实验室(Wizard Intelligence Learning Lab,WILL)致力于实现超级科技助手(ASI for Sci-Tech)。WILL将汇聚顶尖AI人才,专注于研发通用性超级科技助手,追求技术复利与持续性领先。
宽德智能学习实验室(WILL)