Home Arrow Icon Knowledge base Arrow Icon Global Arrow Icon Sâu vào phân tích hình ảnh trí tuệ trực quan của iOS 26


Sâu vào phân tích hình ảnh trí tuệ trực quan của iOS 26


iOS 26 giới thiệu một sự phát triển đáng kể trong công nghệ trí tuệ trực quan của Apple, mở rộng khả năng của nó từ nhận dạng dựa trên camera đơn giản sang phân tích trực tiếp hình ảnh trên nội dung màn hình của thiết bị. Việc nâng cấp này xác định lại cách người dùng tương tác với hình ảnh và nội dung trực quan trên các ứng dụng và ảnh chụp màn hình trên iPhone của họ, đặc biệt là các ứng dụng được trang bị silicon mới nhất của Apple để xử lý thiết bị tăng cường.

Trí thông minh trực quan có nguồn gốc từ iOS 18.2 dưới dạng tính năng điều khiển camera cho phép camera iPhone mô tả môi trường xung quanh, dịch văn bản và xác định các đối tượng khác nhau như thực vật và động vật trong thời gian thực. Với iOS 26, Apple đã biến Trí thông minh trực quan thành một công cụ phân tích thị giác toàn diện hơn, không còn giới hạn tiện ích của nó thành những gì máy ảnh quan sát được về mặt vật lý nhưng mở rộng sâu vào nội dung màn hình của chính thiết bị, bao gồm ảnh chụp màn hình và hình ảnh ứng dụng.

Điểm nổi bật quan trọng là người dùng có thể kích hoạt Trí thông minh trực quan trên nội dung màn hình bằng cách nhấn cùng các nút được sử dụng để chụp ảnh màn hình. Hành động này kích hoạt một giao diện cho phép người dùng tương tác với dữ liệu trực quan được ghi lại thông qua nhiều tùy chọn thông minh theo loại nội dung được phát hiện. Hệ thống có thể mổ xẻ hình ảnh cho các đối tượng hoặc phân đoạn văn bản cụ thể trong ảnh chụp màn hình hoặc chụp màn hình và cung cấp thông tin liên quan, kết quả tìm kiếm hoặc các hành động trực tiếp như thêm các sự kiện lịch hoặc tạo danh sách việc cần làm từ các chi tiết được công nhận.

Từ góc độ kỹ thuật, việc phân tích hình ảnh của Visual Intelligence được cung cấp bởi AI thiết bị tinh vi của Apple, một phần của hệ sinh thái "Apple Intelligence" rộng lớn hơn. Hệ sinh thái này tăng cường Siri, công cụ viết và nhận thức về hệ sinh thái trên các thiết bị của Apple. Sự phụ thuộc vào xử lý trên thiết bị bảo tồn quyền riêng tư của người dùng bằng cách tránh tải dữ liệu lên các máy chủ bên ngoài và các nhu cầu xử lý đòi hỏi phải có silicon mạnh chỉ được tìm thấy trong các mẫu iPhone mới hơn (iPhone 15 Pro, 16 Series, 17 Series) và iPad và Mac tương thích.

Các loại đối tượng Trí tuệ trực quan có thể xác định đã được mở rộng đáng kể. Ngoài các động vật và thực vật cơ bản, giờ đây nó nhận ra tác phẩm nghệ thuật, sách, địa danh, địa danh tự nhiên và các tác phẩm điêu khắc trên cả đầu vào camera và ảnh chụp màn hình. Nhận dạng phổ rộng này cho phép hệ thống cung cấp dữ liệu theo ngữ cảnh phong phú, từ việc xác định một bức tranh hoặc điêu khắc đến việc cung cấp chi tiết hoạt động về một doanh nghiệp được thấy trong ảnh chụp màn hình hoặc chế độ xem camera trực tiếp.

Các nhà phát triển cũng được hưởng lợi từ sự tăng cường này thông qua API Ứng dụng được nâng cấp, cho phép các ứng dụng của bên thứ ba tích hợp với Trí thông minh trực quan. Điều này cho phép các ứng dụng sáng tạo như ứng dụng thể dục trích xuất các gói tập luyện từ ảnh chụp màn hình, ứng dụng nấu ăn chuyển đổi hình ảnh công thức thành danh sách tạp hóa và các công cụ năng suất diễn giải ảnh bảng trắng thành nội dung có thể hành động.

Một ví dụ thực tế về chức năng trí tuệ trực quan bao gồm chụp ảnh màn hình của một tờ rơi sự kiện và có AI phân tích các chi tiết về ngày và sự kiện, với khả năng thêm nó trực tiếp vào lịch. Hệ thống cũng có thể thực hiện các tìm kiếm hình ảnh được nhắm mục tiêu trong ảnh chụp màn hình bằng cách cho phép người dùng khoanh tròn các khu vực hoặc đối tượng cụ thể trên màn hình, gửi chúng cho kết quả tìm kiếm hình ảnh dựa trên web (như tìm kiếm hình ảnh Google). Người dùng thậm chí có thể hỏi các chatbot như các câu hỏi của Chatgpt về các yếu tố trong ảnh chụp màn hình, liên kết Trí thông minh trực quan với AI trò chuyện để có trải nghiệm tương tác nhiều hơn.

Tính năng phân tích nội dung và phân tích nội dung hình ảnh này vượt xa việc xác định các đối tượng hoặc thực hiện tìm kiếm; Nó cho phép người dùng thực hiện các hành động ngay lập tức, có ý nghĩa tùy thuộc vào ngữ cảnh. Ví dụ, thông qua Visual Intelligence, người ta có thể đặt hàng thực phẩm từ thực đơn nhà hàng được nhìn thấy trong ảnh chụp màn hình, đặt chỗ, xem giờ hoạt động của địa điểm hoặc trực tiếp thực hiện các cuộc gọi bằng thông tin liên lạc được tìm thấy trực quan. Khả năng phân tích văn bản cho phép các bản dịch, tóm tắt và đọc to thời gian thực, tăng cường khả năng tiếp cận và hiểu biết chéo.

Kiến trúc của Visual Intelligence được tối ưu hóa rất nhiều cho tốc độ và quyền riêng tư. Phản hồi và phân tích thời gian thực của tính năng xảy ra hoàn toàn trên thiết bị mà không yêu cầu kết nối internet, cho phép người dùng nhận kết quả tức thời mà không có độ trễ hoặc mối quan tâm về quyền riêng tư liên quan đến xử lý đám mây. Điều này làm cho nó trở thành một bước tiên phong trong điện toán nhận thức theo ngữ cảnh, chuyển các thiết bị từ những người trình bày phương tiện thụ động sang các trợ lý chủ động giải thích và hành động trên dữ liệu trực quan trôi chảy.

Với iOS 26, giao diện của hệ thống cho Trí thông minh trực quan là thân thiện với người dùng và trực quan. Sau khi kích hoạt tính năng thông qua các nút chụp màn hình hoặc điều khiển camera, người dùng sẽ thấy các tùy chọn được hiển thị theo ngữ cảnh như Â yêu cầu, sẽ tìm kiếm, Â hoặc các hành động ứng dụng cụ thể cho phép tương tác liền mạch. Công cụ phân tích thông minh xác định thông minh loại nội dung, có thể là văn bản, nghệ thuật, mốc, thông tin liên hệ hoặc chi tiết sự kiện và tự động điều chỉnh đầu ra và các hành động của người dùng có sẵn cho phù hợp.

Những hạn chế vẫn còn về mặt hỗ trợ thiết bị, vì cường độ tính toán có nghĩa là khả năng đầy đủ của Visual Intelligence được dành riêng cho các chipset tiên tiến nhất của Apple. Hơn nữa, hỗ trợ ngôn ngữ cho các tính năng nhận dạng đối tượng nhất định hiện tại chủ yếu bằng tiếng Anh, với Apple hoạt động trên hỗ trợ đa ngôn ngữ rộng hơn khi tính năng trưởng thành.

Tóm lại, phân tích hình ảnh trí tuệ trực quan của IOS 26 thể hiện sự tiến bộ đáng kể trong việc tích hợp phân tích thị giác do AI cung cấp vào sử dụng điện thoại thông minh hàng ngày. Công nghệ chuyển từ nhận dạng đối tượng dựa trên camera phản ứng sang một công cụ chủ động chuyển đổi nội dung trên màn hình thành những hiểu biết có thể hành động, trao quyền cho người dùng tương tác với thiết bị và thông tin của họ theo những cách mới, chất lỏng. Nâng cấp này đặt ra một bước nền tảng hướng tới các giao diện Apple trong tương lai nơi các tương tác hình dạng bối cảnh và ý định, sự pha trộn sâu sắc về tầm nhìn, kiến ​​thức và hành động trên thiết bị cho quyền riêng tư và đáp ứng.

***
Sự phát triển chi tiết, chức năng, tích hợp nhà phát triển, giao diện người dùng và các ví dụ thực tế ở trên thể hiện bản chất của các khả năng phân tích hình ảnh của Visual Intelligence trong iOS 26 như được công bố và xây dựng trong các nguồn khác nhau liên quan đến Apple và phạm vi bảo hiểm của chuyên gia vào năm 2025.