负责大模型训练与推理系统中基础设施的部署、运维及优化,保障大规模GPU集群的稳定高效运行。
核心职责
- 参与算力机房的建设和网络部署,确保机房的安全可靠性。
- 参与设计自动化运维方案,实现部署、监控、告警全链路管理。
- 参与运维规范的制定与实施,建立故障应急响应机制。
- 全流程持续跟踪网络状态,机器硬件状态,确保故障的及时修复。
- 参与新机型、新技术测试。
任职要求
- 全日制本科及以上学历,计算机及相关专业。
- 具有大规模系统运维经验,熟悉Linux/K8s/Docker等工具。
- 熟悉Python/Shell,可编写运维工具。
- 有大规模计算集群运维经验者优先。
- 熟悉RDMA相关网络技术者,且有网络调优经验者优先。