大模型(llm)性能关注指标

Posted on 2026-06-16 Edited on 2026-06-17 Views:

推理框架的关键指标（TTFT vs ITL）

1.TTFT (Time to First Token，首字延迟)： 从请求到达框架到模型吐出第一个字的时间。如果这个时间很高，通常是因为排队或前处理/Tokenizer慢。
2.ITL (Inter-Token Latency，每个Token生成耗时)： 模型生成后续每个字的速度。如果这个速度很快，说明 GPU 推理没问题。
vLLM 特有指标：
- vllm:num_requests_waiting：正在排队的请求数。如果这个数很高，说明请求被堵在外面了。
- vllm:num_requests_running：正在并发处理的请求数。
- vllm:gpu_cache_usage_factor：KV Cache 的利用率。如果达到 100%，后续请求必须排队等待前面的请求结束释放显存。