是否投递
职责描述
1. 主导算力集群的整体架构设计,涵盖异构计算芯片(GPU/NPU/TPU)选型配比、高性能存储方案(并行文件系统/对象存储)及低延迟高带宽网络拓扑(InfiniBand/RoCE)。
2. 大模型推理框架(sglang/vllm)适配与性能调优,推动需求大模型在国产AI芯片落地
3. 建立全链路性能监控与分析体系,主动识别并解决算力瓶颈问题,保障训练与推理任务运行。
4. 建立算力成本量化模型,制定资源计费、配额与回收策略,定期输出算力使用效率报告与优化建议,平衡业务需求与成本投入。
2. 大模型推理框架(sglang/vllm)适配与性能调优,推动需求大模型在国产AI芯片落地
3. 建立全链路性能监控与分析体系,主动识别并解决算力瓶颈问题,保障训练与推理任务运行。
4. 建立算力成本量化模型,制定资源计费、配额与回收策略,定期输出算力使用效率报告与优化建议,平衡业务需求与成本投入。
任职要求
1.学历与经验: 计算机、电子工程等相关专业硕士及以上学历,5年以上大型数据中心或云计算领域工作经验,其中至少2年AI算力集群架构设计经验。
2.算力平台精通: 深入理解GPU(如NVIDIA A100/H100/H200系列)、NPU(如昇腾910B)等AI加速卡的微架构、性能参数及适用场景,有千卡级以上异构计算集群的规划与调优经验。
3.系统架构能力: 精通服务器硬件选型、高性能存储(如Lustre/GPFS)方案设计及RDMA(RoCE v2/InfiniBand)高速网络拓扑规划,能基于AI训练与推理的混合负载,设计高吞吐、低时延的算力网络。
4.调度与优化: 深刻理解资源调度原理,掌握Kubernetes及主流AI调度器(如Volcano),擅长通过拓扑感知调度、GPU共享(MIG/MPS)等技术解决算力碎片化问题。
5.成本与商业洞察: 熟悉公有云、私有云及算力租赁的成本模型,能结合业务增长趋势制定分阶段的硬件采购与扩容策略,并输出清晰的TCO分析报告。
6.软实力: 极强的跨团队协作能力,能驱动研发、采购与运维团队将算力架构方案高效落地;优秀的文档撰写习惯,能用架构蓝图固化设计。
2.算力平台精通: 深入理解GPU(如NVIDIA A100/H100/H200系列)、NPU(如昇腾910B)等AI加速卡的微架构、性能参数及适用场景,有千卡级以上异构计算集群的规划与调优经验。
3.系统架构能力: 精通服务器硬件选型、高性能存储(如Lustre/GPFS)方案设计及RDMA(RoCE v2/InfiniBand)高速网络拓扑规划,能基于AI训练与推理的混合负载,设计高吞吐、低时延的算力网络。
4.调度与优化: 深刻理解资源调度原理,掌握Kubernetes及主流AI调度器(如Volcano),擅长通过拓扑感知调度、GPU共享(MIG/MPS)等技术解决算力碎片化问题。
5.成本与商业洞察: 熟悉公有云、私有云及算力租赁的成本模型,能结合业务增长趋势制定分阶段的硬件采购与扩容策略,并输出清晰的TCO分析报告。
6.软实力: 极强的跨团队协作能力,能驱动研发、采购与运维团队将算力架构方案高效落地;优秀的文档撰写习惯,能用架构蓝图固化设计。
工作地点
青岛市 海尔科创园
分享
5年以上
本科及以上