大模型(llm)性能关注指标

推理框架的关键指标(TTFT vs ITL)

  • 1.TTFT (Time to First Token,首字延迟): 从请求到达框架到模型吐出第一个字的时间。如果这个时间很高,通常是因为排队前处理/Tokenizer慢。

  • 2.ITL (Inter-Token Latency,每个Token生成耗时): 模型生成后续每个字的速度。如果这个速度很快,说明 GPU 推理没问题。

  • vLLM 特有指标:

    • vllm:num_requests_waiting正在排队的请求数。如果这个数很高,说明请求被堵在外面了。
    • vllm:num_requests_running:正在并发处理的请求数。
    • vllm:gpu_cache_usage_factor:KV Cache 的利用率。如果达到 100%,后续请求必须排队等待前面的请求结束释放显存。