Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon các hàm numpy được sử dụng trong học máy


các hàm numpy được sử dụng trong học máy


NumPy là thư viện cơ bản cho tính toán khoa học bằng Python và được sử dụng rộng rãi trong các ứng dụng học máy. Dưới đây là một số hàm NumPy phổ biến thường được sử dụng trong học máy:

1. np.array(): Hàm này được sử dụng để tạo mảng NumPy, là cấu trúc dữ liệu cơ bản được sử dụng trong học máy.

2. np.zeros(), np.ones(), np.random.rand(), np.random.randn(): Các hàm này được sử dụng để tạo các mảng chứa các số 0, số 1 hoặc giá trị ngẫu nhiên, thường được sử dụng để khởi tạo các tham số mô hình hoặc tạo dữ liệu tổng hợp.

3. np.linspace(), np.logspace(): Các hàm này được sử dụng để tạo các mảng có các giá trị cách đều nhau, có thể hữu ích cho các tác vụ như kỹ thuật tính năng hoặc trực quan hóa.

4. np.reshape(), np.transpose(), np.expand_dims(): Các hàm này được sử dụng để thao tác về hình dạng và kích thước của mảng, điều này thường cần thiết khi làm việc với các mô hình học máy.

5. np.concatenate(), np.stack(), np.vstack(), np.hstack(): Các hàm này dùng để kết hợp nhiều mảng dọc theo các trục khác nhau, có thể hữu ích cho các tác vụ như kỹ thuật tính năng hoặc tăng cường dữ liệu.

6. np.sum(), np.mean(), np.std(), np.var(): Các hàm này dùng để tính toán thống kê cơ bản thuộc tính của mảng, có thể hữu ích cho việc phân tích dữ liệu và kỹ thuật tính năng.

7. np.dot(), np.matmul(): Các hàm này được sử dụng để thực hiện phép nhân ma trận, đây là một phép toán cơ bản trong nhiều thuật toán học máy.

8. np.linalg.inv(), np.linalg.eig(), np.linalg.svd(): Các hàm này được sử dụng để thực hiện các phép toán đại số tuyến tính, chẳng hạn như đảo ngược ma trận, phân tách giá trị riêng và phân tách giá trị số ít, rất quan trọng trong học máy cho các tác vụ như giảm kích thước và tối ưu hóa mô hình.

9. np.argmax(), np.argsort(): Các hàm này được sử dụng để tìm chỉ số của giá trị lớn nhất hoặc được sắp xếp trong một mảng, có thể hữu ích cho các tác vụ như phân loại hoặc xếp hạng .

10. np.where(): Hàm này được sử dụng để áp dụng logic có điều kiện cho mảng, có thể hữu ích cho các tác vụ như kỹ thuật tính năng hoặc xử lý trước dữ liệu.

Đây chỉ là một vài ví dụ trong số nhiều hàm NumPy thường được sử dụng trong học máy. Các chức năng cụ thể được sử dụng sẽ phụ thuộc vào vấn đề cụ thể và yêu cầu của mô hình học máy đang được sử dụng.

Trích dẫn:
[1] https://madewithml.com/courses/foundations/numpy/
[2] https://faculty.washington.edu/otoomet/machinelearning-py/numpy-and-pandas.html
[3] https://www.youtube.com/watch?v=gnKbAAVUzro
[4] https://www.naukri.com/code360/library/important-numpy-functions-for-ml
[5] https://becominghuman.ai/an-essential-guide-to-numpy-for-machine-learning-in-python-5615e1758301?gi=adb6aadca980

Tích số chấm của NumPy khác với phép nhân ma trận trong các thư viện khác như thế nào

Sự khác biệt chính giữa hàm `np.dot()` của NumPy và phép nhân ma trận trong các thư viện khác là:

1. Tính chiều:
- `np.dot()` có thể xử lý các mảng có kích thước khác nhau, thực hiện các thao tác khác nhau dựa trên hình dạng đầu vào.
- Đối với mảng 1D, `np.dot()` tính tích bên trong.
- Đối với mảng 2D, `np.dot()` tính toán phép nhân ma trận.
- Đối với mảng có chiều cao hơn, `np.dot()` thực hiện tính tổng trên trục cuối cùng của đối số thứ nhất và trục từ thứ hai đến cuối cùng của đối số thứ hai.

2. Hiệu quả:
- `np.dot()` của NumPy được tối ưu hóa cao độ và sử dụng các thư viện BLAS (Chương trình con đại số tuyến tính cơ bản) hiệu quả, giúp thực hiện rất nhanh.
- Các thư viện khác có thể không có cùng mức độ tối ưu hóa, đặc biệt đối với các ma trận lớn hoặc mảng nhiều chiều.

3. Cú pháp:
- Trong Python 3.5 trở lên, toán tử `@` có thể được sử dụng để nhân ma trận, trực quan và ngắn gọn hơn so với việc gọi `np.dot()`.
- Các thư viện khác có thể có cú pháp nhân ma trận riêng, có thể khác với `np.dot()` của NumPy.

4. Tính linh hoạt:
- `np.dot()` linh hoạt hơn trong việc xử lý các mảng có kích thước khác nhau, trong khi phép nhân ma trận trong các thư viện khác có thể có các yêu cầu nghiêm ngặt hơn về hình dạng đầu vào.

5. Quy ước đặt tên:
- Tên `np.dot()` có thể gây hiểu nhầm, vì nó thực hiện cả phép nhân tích số chấm và phép nhân ma trận tùy thuộc vào hình dạng đầu vào.
- Các thư viện khác có thể có nhiều tên hàm mang tính mô tả hơn, chẳng hạn như `matrix_multiply()` hoặc `matmul()`, để phân biệt rõ ràng giữa tích số chấm và phép nhân ma trận.

Tóm lại, mặc dù các phép toán cơ bản có thể tương tự nhau, nhưng hàm `np.dot()` của NumPy cung cấp cách triển khai tích số chấm và phép nhân ma trận linh hoạt và hiệu quả hơn so với các thư viện khác, nhưng quy ước đặt tên có thể gây nhầm lẫn. Việc giới thiệu toán tử `@` trong Python 3.5+ giúp phép nhân ma trận trở nên trực quan hơn.

Trích dẫn:
[1] https://stackoverflow.com/questions/34142485/difference-between-numpy-dot-and-python-3-5-matrix-multiplication
[2] https://www.w3resource.com/python-exercises/numpy/advanced-numpy-exercise-1.php
[3] https://mkang32.github.io/python/2020/08/30/numpy-matmul.html
[4] https://www.includehelp.com/python/difference-between-numpy-dot-and-inner-methods.aspx
[5] https://numpy.org/doc/stable/reference/generated/numpy.dot.html

có trường hợp nào trong đó np.dot được ưu tiên hơn @ hoặc np.matmul không

Có, có những trường hợp trong đó `np.dot` được ưu tiên hơn `@` hoặc `np.matmul`. Dưới đây là một số trường hợp `np.dot` có thể phù hợp hơn:

1. Khả năng tương thích với các phiên bản Python cũ hơn: `np.dot` có sẵn trong tất cả các phiên bản NumPy, bao gồm cả các phiên bản cũ hơn. Nếu bạn cần hỗ trợ các phiên bản Python cũ hơn, `np.dot` là lựa chọn an toàn hơn.

2. Các trường hợp sử dụng cụ thể: `np.dot` có thể xử lý một số thao tác nhất định mà `@` và `np.matmul` không làm được. Ví dụ: nếu bạn cần thực hiện tích số chấm dọc theo một trục cụ thể, `np.dot` có thể xử lý việc này dễ dàng hơn.

3. Dễ đọc và rõ ràng: Trong một số trường hợp, việc sử dụng `np.dot` có thể làm cho mã dễ đọc và dễ hiểu hơn. Ví dụ: nếu bạn đang thực hiện tích số chấm trong một biểu thức phức tạp, việc sử dụng `np.dot` có thể làm cho mã ngắn gọn hơn và dễ theo dõi hơn.

4. Hiệu suất: Trong một số trường hợp, `np.dot` có thể nhanh hơn `@` hoặc `np.matmul` do cách nó xử lý một số thao tác nhất định. Tuy nhiên, đây thường không phải là vấn đề đáng lo ngại trừ khi bạn đang làm việc với các tập dữ liệu rất lớn.

5. Mã kế thừa: Nếu bạn đang làm việc với mã kế thừa sử dụng `np.dot`, việc gắn bó với `np.dot` có thể dễ dàng hơn để duy trì khả năng tương thích và tránh các sự cố tiềm ẩn khi nâng cấp lên phiên bản NumPy mới hơn .

Dưới đây là một số trường hợp trong đó `np.dot` có thể được ưu tiên hơn `@` hoặc `np.matmul`:

- Khả năng tương thích với các phiên bản Python cũ hơn: Nếu bạn cần hỗ trợ các phiên bản Python cũ hơn, `np.dot` là lựa chọn an toàn hơn.
- Các trường hợp sử dụng cụ thể: Nếu bạn cần thực hiện tích số chấm dọc theo một trục cụ thể, `np.dot` có thể xử lý việc này dễ dàng hơn.
- Dễ đọc và rõ ràng: Trong một số trường hợp, việc sử dụng `np.dot` có thể làm cho mã dễ đọc và dễ hiểu hơn.
- Hiệu suất: Trong một số trường hợp, `np.dot` có thể nhanh hơn `@` hoặc `np.matmul` do cách nó xử lý một số thao tác nhất định.
- Mã kế thừa: Nếu bạn đang làm việc với mã cũ sử dụng `np.dot`, bạn có thể dễ dàng gắn bó với `np.dot` hơn để duy trì khả năng tương thích và tránh các sự cố tiềm ẩn khi nâng cấp lên phiên bản NumPy mới hơn.

Tóm lại, mặc dù `@` và `np.matmul` nhìn chung hiệu quả và dễ đọc hơn, nhưng có những trường hợp `np.dot` có thể phù hợp hơn.

Trích dẫn:
[1] https://stackoverflow.com/questions/63628004/whether-to-use-numpys-dot-or-matmul-function
[2] https://stackoverflow.com/questions/34142485/difference-between-numpy-dot-and-python-3-5-matrix-multiplication
[3] https://madewithml.com/courses/foundations/numpy/
[4] https://mkang32.github.io/python/2020/08/30/numpy-matmul.html
[5] https://labex.io/tutorials/python-numpy-dot-function-86429