Tối ưu hóa tốc độ xây dựng cho Pytorch và Pytorch/XLA

Làm thế nào tôi có thể tối ưu hóa tốc độ xây dựng cho Pytorch và Pytorch/XLA

Tối ưu hóa tốc độ xây dựng cho Pytorch và Pytorch/XLA liên quan đến một số chiến lược:

Tối ưu hóa tốc độ xây dựng Pytorch

1. Sử dụng các nhị phân được xây dựng trước: Thay vì xây dựng từ nguồn, hãy sử dụng các nhị phân được xây dựng sẵn có sẵn từ trang web chính thức của Pytorch. Các nhị phân này được tối ưu hóa với các thư viện như MKL và magma, rất quan trọng cho hiệu suất [5].

2. Tối ưu hóa quy trình xây dựng: Nếu bạn phải xây dựng từ nguồn, hãy sử dụng các công cụ như `ccache` sang bộ đệm được biên dịch các tệp. Điều này làm giảm đáng kể thời gian xây dựng lại sau khi thực hiện các thay đổi nhỏ đối với mã [7].

3. Biên dịch song song: Sử dụng các bộ xử lý đa lõi bằng cách đặt số lượng công việc xây dựng để phù hợp với số lượng lõi CPU có sẵn. Điều này có thể được thực hiện bằng cách sử dụng các cờ như `-j` với` make` hoặc các tùy chọn tương tự trong hệ thống xây dựng của bạn.

Tối ưu hóa hiệu suất Pytorch/XLA

1. Sử dụng thực thi lười biếng: Pytorch/XLA sử dụng thực thi kéo căng lười biếng, trong đó ghi lại các hoạt động trong một biểu đồ trước khi thực hiện. Điều này cho phép tối ưu hóa bằng cách hợp nhất nhiều hoạt động vào một thao tác được tối ưu hóa duy nhất [4] [6].

2. Dữ liệu tải trước: Sử dụng `mpdeviceloader` để tải dữ liệu trước vào các thiết bị XLA, giảm chi phí giao tiếp giữa CPU máy chủ và thiết bị [8].

3. Giảm thiểu giao tiếp thiết bị CPU: Giảm hoặc loại bỏ các hoạt động yêu cầu đồng bộ hóa giữa thiết bị CPU và XLA, chẳng hạn như báo cáo in hoặc ghi lại ghi lại [8].

4. Sử dụng các rào cản để tối ưu hóa: Chèn các rào cản như `xm.mark_step ()` Để chia các biểu đồ tính toán lớn thành các biểu đồ nhỏ hơn, cho phép trình biên dịch XLA tối ưu hóa chúng hiệu quả hơn [8].

5. Tận dụng TPU của đám mây: Để đào tạo quy mô lớn, hãy sử dụng TPU đám mây với PYTORCH/XLA để đạt được hiệu suất cao và đào tạo hiệu quả về chi phí [2] [9].

Trích dẫn:
.
[2] https://www.youtube.com/watch?v=pspMrtWums8
[3] https://sebastianraschka.com/blog/2023/pytorch-faster.html
[4] https://pytorch.org/xla/release/r2.4/index.html
[5] https://discuss.pytorch.org/t/is-building-from-source-really-speed-up-inference-speed/91057
[6] https://pytorch.org/xla/release/2.2/index.html
[7] https://discuss.pytorch.org/t/any-tips-for-speeding-up-the-source-build-process/184558
[8] https://pytorch.org/xla/master/learn/xla-overview.html
[9] https://cloud.google.com/blog/topics/developers-practitioners/scaling-deep-learning-workloads-pytorch-xla-and-cloud-tpu-vm