iOS 26在苹果的视觉智能技术中引入了显着的演变,从而将其功能从简单的基于相机的识别到直接在设备的屏幕内容上进行了广泛的图像进行扩展。此升级重新定义了用户在应用程序上与iPhone上截止屏幕截图的图像和视觉内容的方式,尤其是那些配备了苹果最新硅的屏幕截图,以增强设备处理。
视觉智能起源于iOS 18.2作为相机控制功能,允许iPhone摄像机实时描述环境,翻译文本并识别植物和动物等各种物体。借助iOS 26,苹果将视觉智能转变为一个更全面的视觉分析工具,该工具不再将其实用性限制在相机在物理上观察到的东西,而是深入到设备自己的屏幕内容中,包括屏幕截图和应用程序图像。
一个关键的亮点是,用户可以通过按下屏幕截图的相同按钮来激活屏幕内容上的视觉智能。此操作触发了一个接口,该接口允许用户根据所检测到的内容类型通过多个智能选项与捕获的视觉数据进行交互。系统可以在屏幕截图或屏幕截图中的特定对象或文本段进行剖析图像,并提供相关信息,搜索结果或直接操作,例如添加日历事件或从确认的详细信息中创建待办事项列表。
从技术的角度来看,Visual Intelligence的图像解析由Apple的精致内设备AI(广泛的“ Apple Intelligence”生态系统的一部分)提供动力。该生态系统增强了Apple设备的Siri,写作工具和生态系统意识。依赖在设备处理的情况下,通过避免将数据上传到外部服务器来保留用户隐私,并且处理要求仅在较新的iPhone型号(iPhone 15 Pro,16系列,17系列)和兼容的iPad和Mac中才能找到强大的硅。
视觉智能可以识别的对象的类型已显着扩展。除了基本动物和植物之外,它现在可以识别相机输入和屏幕截图的艺术品,书籍,地标,自然地标和雕塑。这种广泛的识别允许系统提供丰富的上下文数据,从识别绘画或雕塑到提供有关屏幕截图或实时相机视图中看到的业务的操作详细信息。
开发人员还通过升级的应用程序Intents API从这种增强中受益,该应用程序使第三方应用程序与视觉智能集成在一起。这使创新应用程序(例如健身应用程序)从屏幕截图中提取锻炼计划,将食谱图像转换为杂货清单的烹饪应用程序以及将白板照片解释为可操作内容的生产力工具。
视觉智能功能的一个实际示例包括屏幕截图,并使AI解析日期和事件详细信息,并能够将其直接添加到日历中。该系统还可以通过允许用户圈出屏幕上的特定区域或对象,将其发送给基于Web的图像搜索结果(例如Google Image搜索),从而在屏幕截图中执行目标图像搜索。用户甚至可以询问聊天机器人,例如ChatGpt屏幕截图中有关元素的问题,将视觉智能与会话AI链接起来,以获得更具交互性的体验。
此图像解析和内容分析功能不仅仅是简单地识别对象或执行搜索。它使用户能够根据上下文采取立即,有意义的行动。例如,通过视觉智能,可以从屏幕截图中看到的餐厅菜单中订购食物,进行预订,查看场地的操作时间,或使用视觉上找到的联系信息直接调用电话。解析文本的能力允许大声进行实时翻译,摘要和阅读,增强可访问性和跨语言理解。
Visual Intelligence的体系结构针对速度和隐私进行了大量优化。该功能的实时响应和分析完全在设备上发生,而无需建立互联网连接,从而使用户能够接收即时结果,而无需与云处理相关的延迟或隐私问题。这使其成为上下文感知计算的开创性步骤,将设备从被动媒体演示者转移到了积极的助手,这些助手会流畅地解释和行动。
使用iOS 26,该系统的视觉智能接口是用户友好和直观的。通过屏幕截图按钮或相机控件触发该功能后,用户会在上下文中查看显示的选项。智能解析引擎可以智能地确定内容的类型 - 无论是文本,艺术,地标,联系信息或事件详细信息,并动态调整其输出和可用的用户操作。
在设备支持方面仍然存在局限性,因为计算强度意味着视觉智能的完整功能是为苹果最先进的芯片组保留的。此外,目前,对某些对象识别功能的语言支持主要是英语,而Apple则在功能成熟的情况下进行更广泛的多语言支持。
总而言之,iOS 26的视觉智能图像解析代表了将AI驱动的视觉分析整合到日常智能手机使用中的巨大进步。该技术从基于反应摄像机的对象识别转变为主动工具,该工具将屏幕内容转换为可行的见解,使用户能够以新的流畅方式与其设备和信息进行交互。这次升级为未来的苹果界面设定了基本的一步,即环境和意图形成相互作用,深深的融合愿景,知识和行动,以实现隐私和响应能力。
***上面的详细演变,功能,开发人员集成,用户界面和实际示例代表了iOS 26中Visual Intelligence的图像解析功能的本质,如2025年在各种与Apple相关的来源和专家覆盖范围内宣布并详细阐述。