基于eBPF和Agent构建LLM训练推理优化体系

发布日期：2025-04-15 20:27 点击次数：93

今天分享的是：基于eBPF和Agent构建LLM训练推理优化体系

报告共计：43页

《基于eBPF和Agent构建LLM训练推理优化体系》由向阳在2024 AI+研发数字峰会上发表。该演讲聚焦LLM训练和推理的效率问题，提出基于eBPF和Agent构建优化体系的方法，为提升AI应用性能提供新思路。

1. LLM训练和推理的效率挑战：LLM训练存在开销大、效率低的问题，如GPT-4和Llama-3.1训练时间长、GPU数量多、利用率低，且GPU年化故障高。代码层面训练低效原因多样，涵盖GPU资源分配不合理、数据处理与传输低效等。LLM推理则面临开销大、时延高的困境，GPU数量的选择也需权衡，同时排查显存消耗存在挑战。

2. 传统解决方案和工具的问题：传统工具在LLM训练和推理的可观测性方面存在缺陷。DCGM Prometheus Exporter只能发现故障，难以优化性能；Nvidia Nsight和PyTorch Profiler存在需手工打造、开销大、适用范围窄等问题；RDMA网络的观测粒度粗，在线推理服务的可观测性工具支持语言有限且需改代码。

展开剩余83%

3. eBPF构建零侵扰可观测性：eBPF具备强大的可观测性能力，能捕获多种事件。其实现可观测性具有零代码侵入、全栈观测的优势。尽管面临数据采集、关联和分析等技术挑战，但在业内已有诸多探索。如Meta利用eBPF进行GPU性能分析，华为将eBPF与ROS2结合。通过eBPF可剖析显存申请和使用量，实现分布式追踪。

4. PyTorch全栈剖析和追踪实践：DeepFlow中的eBPF AutoProfiling可对PyTorch进行全方位剖析。Compute Profiling通过CPU和GPU火焰图，分析函数调用栈耗时；HBM Profiling借助显存申请和实时用量火焰图，排查显存问题；COMM Profiling能剖析RDMA网络性能；Distributed Tracing可实现对在线推理服务和端侧ROS2推理服务的全栈可观测性。

5. Agent自动优化ML代码探索：利用LLM Agent可自动优化ML代码。通过持续剖析和智能分析，获取性能分析数据，对代码进行分析并提出优化建议。如对一段Go语言代码中定时器相关问题的分析，展示了优化代码的思路。

基于eBPF和Agent的体系为LLM训练和推理优化提供了有效途径，DeepFlow在其中发挥了关键作用，实现了零侵扰的全栈可观测性，有助于推动AI应用的发展。

以下为报告节选内容

发布于：广东省