RX 9070 XT AI性能提升，并提供FP8支持和RDNA 4架构

与以前的模型相比，RX 9070 XT的FP8如何支持AI任务

与以前的模型相比，RX 9070 XT对FP8(8位浮点)操作的支持显着增强了AI任务，尤其是基于RDNA 3体系结构的模型。 FP8是一种较低的精度格式，其中包括BF8(Brain Float 8)和HF8(一半精度浮点)等模式，这些模式旨在提高AI和机器学习任务的推断效率，以提高推断效率。这种支持使GPU可以在不牺牲明显准确性的情况下更快地处理AI工作负载。

与RDNA 3相比，RX 9070 XT中的RDNA 4架构将基线FP16吞吐量加倍，并将其再次加倍以进行稀疏操作。对于FP8工作负载，与RDNA 3上的FP16操作相比，吞吐量增加了8次。吞吐量的大幅度增加对于严重依赖矩阵乘法的任务特别有益，例如在机器学习模型中发现的任务。

rDNA中增强的波矩阵乘积(WMMA)指令4进一步优化了AI任务的性能。这些改进使RX 9070 XT能够在Adobe Lightroom和Davinci Resolve等应用中提供更高的性能，与RX 7900 GRE相比，性能高达34％。对于生成的AI任务，例如稳定的扩散图像生成，RX 9070 XT的速度比其前身快70％。

但是，虽然RX 9070 XT在计算限制的AI任务中表现出色，但由于其256位内存总线，它可能会面临内存绑定工作负载的限制，该任务可提供高达640 GB/s的带宽。这比7900 XT的800 GB/s和XTX的960 GB/s少，这可能会影响需要高内存带宽的任务，例如大语言模型(LLMS)。

总体而言，RX 9070 XT的FP8支持并增强了AI加速器将其定位为AI任务的竞争选择，尤其是那些受益于改善计算性能和较低精度数据类型的任务。但是，与其他高端GPU相比，其在内存密集型AI应用中的效率和性能可能会有所不同。

引用：
[1] https://www.theregister.com/2025/02/28/amd_rx_9070_series/
[2] https://www.neowin.net/news/amd-details-windows-11-ai-performance-gains-on-rx-9070-xt-vs-vs-7900/
[3] https://www.tomshardware.com/pc-components/gpus/amd-rdna4-rx-9000-series-gpus-pecification-pecification-precification-pricing-release-rease-date
[4] https://www.reddit.com/r/localllama/comments/1j088yg/rx_9070_xt_potential_performance_discussion/
[5] https://windowsforum.com/threads/amd-rx-9070-series-unleashing-ai-ai-and-gaming-power-power-on-windows-11.354177/？amp = 1
[6] https://www.guru3d.com/review/amd-announces-radeon-radeon-rx-9070-and-9070-and-9070-xt-preview/page-2/
[7] https://gizmodo.com/amd-unleashes-the-radeon-rx-9070-gpus-2000569514
[8] https://www.storagereview.com/review/asus-prime-amd-radeon-radeon-radeon-9070-xt-and-ard-rx-9070-review
[9] https://www.pcgamer.com/hardware/graphics-cards/amd-has-officially-revealed-its-rdna-4-based-rx-9070-and-rx-9070-xt-gpus-and-they-look-a-lot-like-rdna-3-only-turbocharged/
[10] https://www.tweaktown.com/news/103556/amds-ficial-benchmarks-for-the-the-radeon-rx-9070-xt-and-x-and-across-30-games/index.html