为产品团队提供校准评估,验证LLM性能符合预期。