TensorRT ：推理加速

上一产品：Omniverse ：3D仿真协作平台

下一产品：NVIDIA CUDA Toolkit

产品描述

NVIDIA TensorRT 是一个用于优化和加速 NVIDIA GPU 深度学习推理的 SDK。

它从PyTorch、TensorFlow和ONNX等框架中训练出的模型进行优化，专为 NVIDIA GPU 优化，能够显著提升模型推理速度。

支持混合精度（FP32/FP16/BF16/FP8/INT8）、动态形状以及针对变换器和大型语言模型（LLMs）的专用优化，以实现高性能部署。

通过量化（FP16/INT8）、内核优化和动态批处理等技术实现性能提升。

TensorRT 推理的基本流程

模型转换：将深度学习模型（如 .pt 或 .pb 格式）转换为 TensorRT 支持的 .onnx 格式。随后使用 trtexec 工具将 .onnx 模型转换为 TensorRT 引擎（.trt 文件）。

from ultralytics import YOLO
model = YOLO("model.pt")
model.export(format="onnx")

优化与量化：通过 TensorRT 的 FP16 或 INT8 量化功能，进一步优化模型性能。

trtexec --onnx=model.onnx --saveEngine=model.trt --fp16

加载引擎并推理：使用 TensorRT 的 Python API 加载 .trt 引擎文件，进行推理。

import tensorrt as trt
import pycuda.driver as cuda
import pycuda.autoinit
import numpy as np

TRT_LOGGER = trt.Logger()
with open("model.trt", "rb") as f, trt.Runtime(TRT_LOGGER) as runtime:
engine = runtime.deserialize_cuda_engine(f.read())
context = engine.create_execution_context()

数据预处理与后处理：对输入数据进行归一化、调整尺寸等预处理操作，推理后对输出结果进行非极大值抑制（NMS）等后处理。

def preprocess_image(image_path, input_size=640):
image = cv2.imread(image_path)
image = cv2.resize(image, (input_size, input_size))
image = image.astype(np.float32) / 255.0
image = np.transpose(image, (2, 0, 1))
return np.expand_dims(image, axis=0)

性能优势与应用场景

TensorRT 在推理性能上具有显著优势，尤其在 NVIDIA GPU 上表现突出。

例如，使用 TensorRT 推理 YOLO 模型时，性能可比原生 PyTorch 提升 5-10 倍。

其典型应用场景包括实时目标检测、语音识别、大语言模型（LLM）推理等。

https://developer.nvidia.com/tensorrt

NVIDIA TensorRT 文档 — NVIDIA TensorRT

关于我们

扫一扫，关注我们最新消息

联系我们

025-66073091

工作时间：周一至周五 9:00-18:00

联系人：NVIDIA

手机：18915339688

微信

NVIDIA CN

本站以NVIDIA（英伟达）全系列产品为核心，聚焦品牌旗下各类硬件、软件及解决方案的全面、深度介绍，致力于为广大用户打造一个专业、易懂的NVIDIA产品信息聚合平台。
无论是深耕行业的专业从业者、追求极致体验的硬件爱好者，还是初次接触NVIDIA产品的新手用户，都能在这里获取实用的产品资讯，解锁NVIDIA科技的核心魅力。