Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon 与以前的模型相比,RX 9070 XT的FP8如何支持AI任务


与以前的模型相比,RX 9070 XT的FP8如何支持AI任务


与以前的模型相比,RX 9070 XT对FP8(8位浮点)操作的支持显着增强了AI任务,尤其是基于RDNA 3体系结构的模型。 FP8是一种较低的精度格式,其中包括BF8(Brain Float 8)和HF8(一半精度浮点)等模式,这些模式旨在提高AI和机器学习任务的推断效率,以提高推断效率。这种支持使GPU可以在不牺牲明显准确性的情况下更快地处理AI工作负载。

与RDNA 3相比,RX 9070 XT中的RDNA 4架构将基线FP16吞吐量加倍,并将其再次加倍以进行稀疏操作。对于FP8工作负载,与RDNA 3上的FP16操作相比,吞吐量增加了8次。吞吐量的大幅度增加对于严重依赖矩阵乘法的任务特别有益,例如在机器学习模型中发现的任务。

rDNA中增强的波矩阵乘积(WMMA)指令4进一步优化了AI任务的性能。这些改进使RX 9070 XT能够在Adobe Lightroom和Davinci Resolve等应用中提供更高的性能,与RX 7900 GRE相比,性能高达34%。对于生成的AI任务,例如稳定的扩散图像生成,RX 9070 XT的速度比其前身快70%。

但是,虽然RX 9070 XT在计算限制的AI任务中表现出色,但由于其256位内存总线,它可能会面临内存绑定工作负载的限制,该任务可提供高达640 GB/s的带宽。这比7900 XT的800 GB/s和XTX的960 GB/s少,这可能会影响需要高内存带宽的任务,例如大语言模型(LLMS)。

总体而言,RX 9070 XT的FP8支持并增强了AI加速器将其定位为AI任务的竞争选择,尤其是那些受益于改善计算性能和较低精度数据类型的任务。但是,与其他高端GPU相比,其在内存密集型AI应用中的效率和性能可能会有所不同。

引用:
[1] https://www.theregister.com/2025/02/28/amd_rx_9070_series/
[2] https://www.neowin.net/news/amd-details-windows-11-ai-performance-gains-on-rx-9070-xt-vs-vs-7900/
[3] https://www.tomshardware.com/pc-components/gpus/amd-rdna4-rx-9000-series-gpus-pecification-pecification-precification-pricing-release-rease-date
[4] https://www.reddit.com/r/localllama/comments/1j088yg/rx_9070_xt_potential_performance_discussion/
[5] https://windowsforum.com/threads/amd-rx-9070-series-unleashing-ai-ai-and-gaming-power-power-on-windows-11.354177/?amp = 1
[6] https://www.guru3d.com/review/amd-announces-radeon-radeon-rx-9070-and-9070-and-9070-xt-preview/page-2/
[7] https://gizmodo.com/amd-unleashes-the-radeon-rx-9070-gpus-2000569514
[8] https://www.storagereview.com/review/asus-prime-amd-radeon-radeon-radeon-9070-xt-and-ard-rx-9070-review
[9] https://www.pcgamer.com/hardware/graphics-cards/amd-has-officially-revealed-its-rdna-4-based-rx-9070-and-rx-9070-xt-gpus-and-they-look-a-lot-like-rdna-3-only-turbocharged/
[10] https://www.tweaktown.com/news/103556/amds-ficial-benchmarks-for-the-the-radeon-rx-9070-xt-and-x-and-across-30-games/index.html