主页 > D管生活 >Nvidia 发表 TensorRT 3 可程式化推理加速器,比起 CPU 能实 >

Nvidia 发表 TensorRT 3 可程式化推理加速器,比起 CPU 能实

2020-06-08来源:D管生活
点赞:308
Nvidia 发表 TensorRT 3 可程式化推理加速器,比起 CPU 能实

9 月 26 日,在 Nvidia GPU 技术峰会上,Nvidia 创始人兼 CEO 黄仁勋正式发表 TensorRT 3 神经网路推理加速器。据官方介绍,TensorRT 3 能极大改善处理性能,削减从云端到边缘装置(自动驾驶汽车、机器人等)的推理开销。TensorRT 3 是在 Volta GPU 实现最优推理性能的关键,比起 CPU 它能实现高达 40 倍的吞吐量,时延在 7ms 之内。目前,对于 Nvidia 开发者计画成员,现在有针对 Tesla GPU(P4, P100, V100)和 Jetson 嵌入式平台的 TensorRT 3 提供免费下载。

关于 TensorRT

据了解,Nvidia TensorRT 是一种高性能神经网路推理引擎,用于在生产环境中部署深度学习应用程序。应用有图像分类、分割和目标检测,提供的帧 / 秒速度比只有 CPU 的推理引擎高 14 倍。

TensorRT 是世界上第一款可程式化推理加速器,能加速现有和未来的网路架构,TensorRT 可编译到广泛的目标 CUDA GPU 中,从 120 TOPS 到 1 TOPS,从 250 瓦到低于 1 瓦。

它包含一个为优化在生产环境中部署的深度学习模型而创建的资料库,可获取经过训练的神经网路(通常使用 32 位元或 16 位元数据),并针对降低精度的 INT8 运算来优化这些网路。

为何 TensorRT 3 有着无可比拟的地位,他提到了以下几点:

    网路设计呈爆发性增长:AI 推理平台必须具备可程式化性才能执行种类繁多且不断演进的网路架构;新的架构、更深的网路、新的分层设计会继续提升 CNN 的性能。智慧机器呈爆发性增长:AI 智慧会发展到 2,000 万台云端伺服器、上亿台汽车和製造机器人中;最终,以兆计的物联网装置和感测器将智慧地监测一切,从心率和血压监测,到需维修装置的震动监测;AI 推理平台必须可扩展,以解决大量计算的性能、功耗和成本需求。
Nvidia 发表 TensorRT 3 可程式化推理加速器,比起 CPU 能实

TensorRT 3 新的亮点如下:

Nvidia 发表 TensorRT 3 可程式化推理加速器,比起 CPU 能实

黄仁勋在现场介绍,

另外,现场他还提到,神经网路的响应时间或处理延时会对服务质量造成直接影响,在 V100 上执行的 TensorRT 在处理图像是可实现 7ms 的延时,在处理语音是延时不到 200ms,这是标準云端服务的理想目标,单靠 CPU 是无法实现的。

Nvidia 发表 TensorRT 3 可程式化推理加速器,比起 CPU 能实

TensorRT 3 能支援 Caffe2、mxnet、PaddlePaddle、Pytorch、TensorFlow、theano、Chainer 等所有的深度学习框架,将 TensorRT 3 和 Nvidia 的 GPU 结合起来,能在所有的框架中进行超快速和高效的推理传输,支持图像和语言辨识、自然语言处理、可视化搜寻和个性化推荐等 AI 服务。

AI 新纪元

另外,在演讲中,黄仁勋提到,现在已是计算新纪元,包括 TensorRT 在内的 Nvidia 多个平台已被 BAT 等多家科技巨头採用:

另外,黄仁勋在现场正式发表全球首款自主机器处理器 Xavier,这是迄今为止最複杂的 SoC,将于 2018 年第一季向早期接触的合作伙伴提供,在 2018 年第四季全面推出。这个处理器的发表将揭开人工智慧时代新篇章。

Nvidia 发表 TensorRT 3 可程式化推理加速器,比起 CPU 能实

除了 Xavier,他们也发表了一个虚拟机器人仿真环境 Isaac Lab。谈及为何要创造这个自主机器系统,他提到,

在现场,他也强调,Nvidia 将会全力推进「统一架构」CUDA GPU 计算。透过 Inception 计画,将支援 1,900 家初创公司创建 AI 未来。

究竟 Nvidia 能让 AI 跨进怎样的未来,拭目以待!

相关阅读

随便看看