Nvidia GPU 架构演进的简单总结
本文最后更新于 2024年6月17日 凌晨
Nvidia GPU 的架构演进简介
截止到 2024 年,以著名科学家的名字命名的 Nvidia GPU 微架构的演进历史如下:
- Tesla(尼古拉·特斯拉,Nikola Tesla)
- Fermi(恩里科·费米,Enrico Fermi)
- Kepler(约翰内斯·开普勒,Johannes Kepler)
- Maxwell(詹姆斯·克拉克·麦克斯韦,James Clerk Maxwell)
- Pascal(布莱兹·帕斯卡,Blaise Pascal)
- Volta(亚历山德罗·伏特,Alessandro Volta)
- Turing(艾伦·图灵,Alan Turing)
- Ampere(安德烈-玛丽·安培,André-Marie Ampère)
- Hopper(格蕾丝·霍普,Grace Hopper)
- Ada Lovelace(艾达·洛夫莱斯,Ada Lovelace)
- Blackwell (戴维·布莱克韦尔, David Harold Blackwell)
具体发布时间和代表型号总结:
架构名称 | 中文名字 | 发布时间 | 代表型号 | 制程 |
---|---|---|---|---|
Fermi | 费米 | 2010 | Quadro 7000 | 40/28nm |
Kepler | 开普勒 | 2012 | K80, K40M | 28nm |
Maxwell | 麦克斯韦 | 2014 | M5000, M4000, GTX 9XX系列 | 28nm |
Pascal | 帕斯卡 | 2016 | P100, P6000, GTX 1080 | 16nm |
Volta | 伏特 | 2017 | V100, Titan V | 12nm |
Turing | 图灵 | 2018 | T4, 2080TI, RTX 5000 | 12nm |
Ampere | 安培 | 2020 | A100, A30系列 | 7nm |
Hopper | 赫柏 | 2022 | H100 | 5nm (4N) |
Ada Lovelace | 艾达 | 2022 | RTX 40系列 | 5nm (4N) |
Blackwell | 布莱克韦尔 | 2024 | B200 | 4nm (4NP) |
整体演进的介绍
Fermi 架构 (2010)
Fermi 架构是 NVIDIA 第一个完整的 GPU 计算架构,它支持 ECC 和多任务 CUDA Core 处理,强化了 GPU 的计算能力和错误修正能力。Fermi 引入了多个图形处理簇(GPCs),每个包含多个流处理多处理器(SMs),这些都具备较高的并行处理能力和更好的散热效果。此外,它使用 40/28nm 工艺,搭载了高达 6 GB 的 GDDR5 内存。
Kepler 架构 (2012)
Kepler 架构通过优化 CUDA Core 的布局和性能,显著提高了 GPU 的能效比。此架构引入了动态并行技术,允许 GPU 在执行过程中动态调整并行任务的数量和类型,极大地提升了灵活性和计算效率。Kepler 也首次支持 GPU Direct 技术,使得多个 GPU 之间可以直接进行数据传输,避免通过 CPU 中转,减少延迟和增加带宽。
Maxwell 架构 (2014)
Maxwell 架构在前一代基础上进一步提高了性能和能效比,尤其是在图形处理上。它减少了每个处理块的 CUDA Core 数量,增加了更多的控制逻辑,使得 GPU 能够在同等功耗下提供更高的性能。此外,Maxwell 引入了第一代 DSR 技术和 MFAA 技术,提升了图形质量和渲染效率。
Pascal 架构 (2016)
Pascal 架构在 GPU 计算能力上有了质的飞跃,首次引入 HBM2 内存和 NVLink 技术,这些改进显著提高了带宽和支持的数据传输速率。此架构专为高性能计算和深度学习优化,提供了显著的性能提升。Pascal 同时支持多达 16 个 SM 和新的半精度浮点数(FP16)运算,为 AI 训练和推理提供加速。
Volta 架构 (2017)
Volta 架构引入了 Tensor Core,专门设计用于加速深度学习应用中的矩阵运算。它还提升了 NVLink 的带宽,并引入了新的 HBM2 内存技术。Volta 在 AI 计算和图形处理方面均有显著提升,GPU 架构进一步优化了内存使用和数据传输效率。
Turing 架构 (2018)
Turing 架构标志着 NVIDIA 在光线追踪技术上的重大突破,首次引入 RT Core,专门设计用于实时光线追踪。Turing 也改进了 Tensor Core,增强了 AI 推理能力。此外,它引入了新的 GDDR6 内存,提高了内存速度和带宽,为图形密集型应用和游戏提供了更高的性能。
Ampere 架构 (2020)
Ampere 架构进一步扩展了 Tensor Core 和 RT Core 的功能,提供了更强大的 AI 训练和推理能力以及更加逼真的图形渲染性能。它引入了第三代 Tensor Core,支持更多的数据类型和更高的计算效率,同时也推出了多实例 GPU(MIG)技术,允许单个 GPU 资源在多个用户间进行分割,提高了硬件的使用效率。
Hopper 架构 (2022)
Hopper 架构引入了第四代 Tensor Core 和多项创新技术,包括改进的 NVLink 和新的 HBM3 内存技术。它专为 AI 计算和高性能计算场景设计,提供了前所未有的计算速度和效率,同时支持更复杂的 AI 模型和算法。
Blackwell 架构 (2024)
Blackwell 架构是 NVIDIA 在 AI 和数据中心应用中的又一巨大飞跃,它引入了第五代 Tensor Core,支持新的数据类型和 AI 训练技术,提供了极高的计算效率和能效比。Blackwell 还优化了 GPU 内部的数据传输和处理机制,为处理大规模数据集和复杂的 AI 模型提供了强大的支持。