
类型:七日精选
图片来源:网络
图片来源:网络

ODD 编辑组
从世界发现故事、思考和专业知识。
2025年4月14日
#009 I风暴来袭:Siri巨变、A2A代理、ChatGPT记忆与4o升级
#009 I风暴来袭:Siri巨变、A2A代理、ChatGPT记忆与4o升级
Siri或迎巨变,谷歌推A2A代理,ChatGPT记忆上线,OpenAI切换至4o;XR文本输入目录与Copilot Vision拓展能力;社区榜单揭晓与「圈定即搜」精选解析,连接产品路线与设计实践。
Siri或迎巨变,谷歌推A2A代理,ChatGPT记忆上线,OpenAI切换至4o;XR文本输入目录与Copilot Vision拓展能力;社区榜单揭晓与「圈定即搜」精选解析,连接产品路线与设计实践。
📰 本周值得关注的资讯
苹果悄悄铺路:“快捷指令”应用精细操作暗示 Siri 巨变
苹果公司虽然推迟了 Siri 的 AI 重大升级,不过新版快捷指令已支持对苹果原生应用的深度设置调整,例如 Safari 的自动填充、标签页布局等。这些功能被视为 Siri 未来跨应用操作能力的基础。在具体功能上,Safari 的快捷指令支持尤为突出。用户可通过预设指令一键修改 12 项核心设置,包括自动填充信息、默认搜索引擎、隐私模式开关等。这些精细到极致的操作层级,远超普通快捷指令的范畴,更像是为更复杂的 AI 交互做准备。
苹果悄悄铺路:“快捷指令”应用精细操作暗示 Siri 巨变
苹果公司虽然推迟了 Siri 的 AI 重大升级,不过新版快捷指令已支持对苹果原生应用的深度设置调整,例如 Safari 的自动填充、标签页布局等。这些功能被视为 Siri 未来跨应用操作能力的基础。在具体功能上,Safari 的快捷指令支持尤为突出。用户可通过预设指令一键修改 12 项核心设置,包括自动填充信息、默认搜索引擎、隐私模式开关等。这些精细到极致的操作层级,远超普通快捷指令的范畴,更像是为更复杂的 AI 交互做准备。

据《纽约时报》报道,iOS 19 中的新 Siri 功能有望今年秋季发布
报道提到,苹果并未取消其重新设计的 Siri。据三位了解其计划的人士透露,苹果公司计划在秋季发布一款虚拟助手,能够根据请求编辑照片并发送给朋友。彭博社今年 3 月消息称,苹果对 AI 部门负责人约翰・贾安纳皮尼(John Giannandrea)失去信心,转而任命 Vision Pro 负责人迈克・洛克威尔(Mike Rockwell)接管 Siri 语音助手业务。此次调整凸显苹果在 AI 领域落后于行业对手的紧迫感,并试图通过重组技术团队扭转局面。
据《纽约时报》报道,iOS 19 中的新 Siri 功能有望今年秋季发布
报道提到,苹果并未取消其重新设计的 Siri。据三位了解其计划的人士透露,苹果公司计划在秋季发布一款虚拟助手,能够根据请求编辑照片并发送给朋友。彭博社今年 3 月消息称,苹果对 AI 部门负责人约翰・贾安纳皮尼(John Giannandrea)失去信心,转而任命 Vision Pro 负责人迈克・洛克威尔(Mike Rockwell)接管 Siri 语音助手业务。此次调整凸显苹果在 AI 领域落后于行业对手的紧迫感,并试图通过重组技术团队扭转局面。

The Information 曝光了更多升级版 Siri 未能按时更新的原因及细节
总的来说苹果在 Apple Intelligence 上的问题主要源于技术路线反复、管理层缺乏远见、资源分配不足及团队协作失衡。Siri 团队原计划采用大小模型混合方案,但最终转向单一大模型,违背其隐私策略。领导层 Robby Walker 被批只关注边缘优化,缺乏改革魄力。GPU 资源短缺也严重拖慢开发进度。高层如 Giannandrea 与 Federighi 因风格不合导致团队割裂。现在新老领导交替,Siri 可能会面临再次调整或改版。
The Information 曝光了更多升级版 Siri 未能按时更新的原因及细节
总的来说苹果在 Apple Intelligence 上的问题主要源于技术路线反复、管理层缺乏远见、资源分配不足及团队协作失衡。Siri 团队原计划采用大小模型混合方案,但最终转向单一大模型,违背其隐私策略。领导层 Robby Walker 被批只关注边缘优化,缺乏改革魄力。GPU 资源短缺也严重拖慢开发进度。高层如 Giannandrea 与 Federighi 因风格不合导致团队割裂。现在新老领导交替,Siri 可能会面临再次调整或改版。

谷歌发布 A2A 代理协议,支持智能体间相互协作链接
A2A 是一个开放协议,旨在解决不同智能代理之间难以协作的问题。它通过标准化通信方式,让来自不同平台和供应商的代理可以无缝协作,并与用户互动。A2A 结合模型上下文协议(MCP),支持代理与工具、API 和资源的连接,推动企业级集成和安全协作。Google、LangGraph、CrewAI 等项目已提供示例,展示如何在实际中应用 A2A。
谷歌发布 A2A 代理协议,支持智能体间相互协作链接
A2A 是一个开放协议,旨在解决不同智能代理之间难以协作的问题。它通过标准化通信方式,让来自不同平台和供应商的代理可以无缝协作,并与用户互动。A2A 结合模型上下文协议(MCP),支持代理与工具、API 和资源的连接,推动企业级集成和安全协作。Google、LangGraph、CrewAI 等项目已提供示例,展示如何在实际中应用 A2A。

ChatGPT 升级,会记住过去的对话
OpenAI 正在为 ChatGPT 提供内存升级,使其能够回忆起用户未要求保存的旧对话。OpenAI 首席执行官 Sam Altman 在 X 上表示 ,该聊天机器人“现在可以参考您过去的所有对话”,并且该更新与公司开发“能够在您生活中了解您的 AI 系统”的目标一致。通过长期记忆更新,ChatGPT 现在将以两种方式回忆信息——使用用户手动要求其记住的“保存的记忆”,以及“参考聊天历史”,即“ChatGPT 从过去的聊天中收集的见解,以改善未来的对话”。
ChatGPT 升级,会记住过去的对话
OpenAI 正在为 ChatGPT 提供内存升级,使其能够回忆起用户未要求保存的旧对话。OpenAI 首席执行官 Sam Altman 在 X 上表示 ,该聊天机器人“现在可以参考您过去的所有对话”,并且该更新与公司开发“能够在您生活中了解您的 AI 系统”的目标一致。通过长期记忆更新,ChatGPT 现在将以两种方式回忆信息——使用用户手动要求其记住的“保存的记忆”,以及“参考聊天历史”,即“ChatGPT 从过去的聊天中收集的见解,以改善未来的对话”。

OpenAI 宣布 ChatGPT 自 4 月 30 日起停用 GPT-4 模型,全面升级至 4o 版本
根据官方评估报告,GPT-4o 在写作质量、编程辅助、STEM 领域全面超越 GPT-4 模型,而且最近又进一步升级改善了 GPT-4o 的指令遵循、问题解决和对话流程。历史车轮滚滚向前,模型 token 成本下降,更强大的模型不断出现,GPT-5 也即将发布,淘汰老模型这种事情未来肯定不少见。
OpenAI 宣布 ChatGPT 自 4 月 30 日起停用 GPT-4 模型,全面升级至 4o 版本
根据官方评估报告,GPT-4o 在写作质量、编程辅助、STEM 领域全面超越 GPT-4 模型,而且最近又进一步升级改善了 GPT-4o 的指令遵循、问题解决和对话流程。历史车轮滚滚向前,模型 token 成本下降,更强大的模型不断出现,GPT-5 也即将发布,淘汰老模型这种事情未来肯定不少见。

助力 XR 文本输入探索,研究人员编撰 170+文本输入技术目录
随着沉浸式体验变得越来越复杂,高效文本输入的挑战依然是虚拟现实和增强现实无缝交互的关键障碍。从在虚拟工作区中编写电子邮件到在虚拟世界中登录和社交,有效输入文本的能力对于 XR 的可用性至关重要。为了应对这一挑战,伯明翰大学、哥本哈根大学、亚利桑那州立大学、马克斯普朗克智能系统研究所、西北大学和谷歌的研究人员一起开发了 XR TEXT Trove,汇总了 170 多种文本输入技术。
助力 XR 文本输入探索,研究人员编撰 170+文本输入技术目录
随着沉浸式体验变得越来越复杂,高效文本输入的挑战依然是虚拟现实和增强现实无缝交互的关键障碍。从在虚拟工作区中编写电子邮件到在虚拟世界中登录和社交,有效输入文本的能力对于 XR 的可用性至关重要。为了应对这一挑战,伯明翰大学、哥本哈根大学、亚利桑那州立大学、马克斯普朗克智能系统研究所、西北大学和谷歌的研究人员一起开发了 XR TEXT Trove,汇总了 170 多种文本输入技术。

微软开始测试可以“看见”用户电脑屏幕和应用程序的 Copilot Vision
微软正在测试一项名为 Copilot Vision 的新功能,它让 AI 助手能够“看见”用户的屏幕和应用程序,并提供实时指导。这项功能最初仅限于 Edge 浏览器,现在已扩展到 Windows 11 上的所有应用程序。Copilot Vision 标志着 AI 从“对话助手”向“视觉助手”的转变。它不仅能理解文字,还能理解视觉上下文,意味着未来 AI 将更深入地参与用户的日常操作。该功能有潜力大幅降低学习成本,特别是在复杂软件(如 Photoshop)中。它可能成为新手用户的“实时导师”。另外,微软在 iOS 和 Android 推出了 Copilot Vision 应用,已上线,有兴趣的可以去体验一下。
微软开始测试可以“看见”用户电脑屏幕和应用程序的 Copilot Vision
微软正在测试一项名为 Copilot Vision 的新功能,它让 AI 助手能够“看见”用户的屏幕和应用程序,并提供实时指导。这项功能最初仅限于 Edge 浏览器,现在已扩展到 Windows 11 上的所有应用程序。Copilot Vision 标志着 AI 从“对话助手”向“视觉助手”的转变。它不仅能理解文字,还能理解视觉上下文,意味着未来 AI 将更深入地参与用户的日常操作。该功能有潜力大幅降低学习成本,特别是在复杂软件(如 Photoshop)中。它可能成为新手用户的“实时导师”。另外,微软在 iOS 和 Android 推出了 Copilot Vision 应用,已上线,有兴趣的可以去体验一下。

📒 本周值得读的文章
人工智能正在进化——并改变我们对智能的理解
这篇文章由谷歌高管布莱斯·阿圭拉·亚卡斯与詹姆斯·曼尼卡合著,探讨人工智能如何正在重塑我们对“智能”的理解。作者提出五个核心的智能范式转变:自然计算、神经计算、预测智能、通用智能与集体智能。他们指出,智能并非人类独有,也不一定需要生物基础。相反,智能可以是自然演化的产物,是系统对未来的预测能力,是多个智能体协作的结果。大型语言模型的崛起表明,仅靠预测下一个词,AI 就能展现出惊人的泛化能力,挑战了我们对“理解”和“意识”的传统定义。这是一篇面向未来的思想指南,值得所有关心技术、哲学与人类命运的读者细读。
AI 应用观察:Agent 的未来,智能不只 LLM;顺便聊下 ADK/A2A/MCP,应用爆发的机会来了。
作者 DropFan 结合近期多模态模型的进展、亲身体验的 Agent 产品(如 MGX、AtypicaAI、Dia Browser),深入剖析了当前 LLM 的局限性,并提出“智能不只 LLM”的新思路。同时,他还详解了 Google 最新发布的 ADK、A2A 协议和 MCP 协议,指出 Agent 应用生态正在快速成型,开发者的机会窗口已经打开。
人工智能正在进化——并改变我们对智能的理解
这篇文章由谷歌高管布莱斯·阿圭拉·亚卡斯与詹姆斯·曼尼卡合著,探讨人工智能如何正在重塑我们对“智能”的理解。作者提出五个核心的智能范式转变:自然计算、神经计算、预测智能、通用智能与集体智能。他们指出,智能并非人类独有,也不一定需要生物基础。相反,智能可以是自然演化的产物,是系统对未来的预测能力,是多个智能体协作的结果。大型语言模型的崛起表明,仅靠预测下一个词,AI 就能展现出惊人的泛化能力,挑战了我们对“理解”和“意识”的传统定义。这是一篇面向未来的思想指南,值得所有关心技术、哲学与人类命运的读者细读。
AI 应用观察:Agent 的未来,智能不只 LLM;顺便聊下 ADK/A2A/MCP,应用爆发的机会来了。
作者 DropFan 结合近期多模态模型的进展、亲身体验的 Agent 产品(如 MGX、AtypicaAI、Dia Browser),深入剖析了当前 LLM 的局限性,并提出“智能不只 LLM”的新思路。同时,他还详解了 Google 最新发布的 ADK、A2A 协议和 MCP 协议,指出 Agent 应用生态正在快速成型,开发者的机会窗口已经打开。
🌟 本周值得关注的专利
苹果专利:根据用户行为动态调整界面的缩放
这个专利的核心价值在于:通过感知用户的位置、方向和姿势,动态调整 Vision Pro 中视觉内容的缩放级别和显示方式,从而实现更自然、沉浸和高效的交互体验。这种机制不仅提升了用户在虚拟/增强现实中的感知真实感,还为多种场景下的内容展示和交互方式带来了创新。将用户的自然动作转化为直观的交互方式,让虚拟内容“理解”用户的意图,从而实现更智能、更人性化的混合现实体验。
苹果专利:旨在通过光标与未来的 Mac、iPhone 和头戴显示器(HMD)上的 3D 环境进行交互
该专利主要是为了让用户在使用 Mac、iPhone、iPad 或 Apple Vision Pro 等设备时,能更轻松地用光标在 3D 虚拟环境中操作。这项技术的核心价值在于让人机互动变得更自然、更省力。传统的 3D 操作方式常常很复杂、容易出错,还很耗电,而苹果的新方法可以通过手势或其他方式控制光标,减少不必要的操作步骤,让设备更省电、使用更顺畅。这项技术特别适合用在虚拟现实(VR)、增强现实(AR)或混合现实(MR)场景中,比如虚拟会议、3D 设计、AR 教育等。用户可以像在现实中一样“指点”虚拟物体,提升沉浸感和操作效率。
苹果专利:已申请了一项与 LLM 和视觉模型相关的 AI 专利,用于未来 Siri 的 AI 版本
苹果的专利申请(编号 20250104429)描述了一种结合大型语言模型(LLM)与视觉模型的智能助手系统,用于未来 AI 版 Siri。该系统可通过摄像头、麦克风和传感器感知用户环境,自动判断并执行任务,如调节灯光、识别座位、提供语音建议等。LLM 通过自我监督学习处理大量文本,辅助理解用户意图;视觉模型则识别图像内容,提升 Siri 的上下文感知与主动服务能力,打造更智能、个性化的用户体验。
苹果专利:根据用户行为动态调整界面的缩放
这个专利的核心价值在于:通过感知用户的位置、方向和姿势,动态调整 Vision Pro 中视觉内容的缩放级别和显示方式,从而实现更自然、沉浸和高效的交互体验。这种机制不仅提升了用户在虚拟/增强现实中的感知真实感,还为多种场景下的内容展示和交互方式带来了创新。将用户的自然动作转化为直观的交互方式,让虚拟内容“理解”用户的意图,从而实现更智能、更人性化的混合现实体验。
苹果专利:旨在通过光标与未来的 Mac、iPhone 和头戴显示器(HMD)上的 3D 环境进行交互
该专利主要是为了让用户在使用 Mac、iPhone、iPad 或 Apple Vision Pro 等设备时,能更轻松地用光标在 3D 虚拟环境中操作。这项技术的核心价值在于让人机互动变得更自然、更省力。传统的 3D 操作方式常常很复杂、容易出错,还很耗电,而苹果的新方法可以通过手势或其他方式控制光标,减少不必要的操作步骤,让设备更省电、使用更顺畅。这项技术特别适合用在虚拟现实(VR)、增强现实(AR)或混合现实(MR)场景中,比如虚拟会议、3D 设计、AR 教育等。用户可以像在现实中一样“指点”虚拟物体,提升沉浸感和操作效率。
苹果专利:已申请了一项与 LLM 和视觉模型相关的 AI 专利,用于未来 Siri 的 AI 版本
苹果的专利申请(编号 20250104429)描述了一种结合大型语言模型(LLM)与视觉模型的智能助手系统,用于未来 AI 版 Siri。该系统可通过摄像头、麦克风和传感器感知用户环境,自动判断并执行任务,如调节灯光、识别座位、提供语音建议等。LLM 通过自我监督学习处理大量文本,辅助理解用户意图;视觉模型则识别图像内容,提升 Siri 的上下文感知与主动服务能力,打造更智能、个性化的用户体验。
🍚 本周的下饭信息
受关税影响,苹果联系供应商欲将生产线搬至美国。瞅一眼👀
三星告京东方窃取商业机密,国产崛起老电视了。瞅一眼👀
《爱、死亡和机器人》下一季将于今年 5 月登陆 Netflix。瞅一眼👀
曝光整理:苹果 iOS 19 设计全面曝光,十年来最大界面升级!瞅一眼👀
传 Vision Pro 2 进入量产阶段,供应链确认蓝思科技/长盈精密供货。瞅一眼👀
Google 官方提示工程 (Prompt Engineering)白皮书-翻译来自宝玉。瞅一眼👀
Gemini Live 的屏幕共享功能正在向 Pixel 9 和 Galaxy S25 设备推出。瞅一眼👀
oppo 的一键闪记功能,使用 action button 把收集的东西使用 ai 分析总结、打标、回忆关联,检索关联,感觉实用性很高。瞅一眼👀
受关税影响,苹果联系供应商欲将生产线搬至美国。瞅一眼👀
三星告京东方窃取商业机密,国产崛起老电视了。瞅一眼👀
《爱、死亡和机器人》下一季将于今年 5 月登陆 Netflix。瞅一眼👀
曝光整理:苹果 iOS 19 设计全面曝光,十年来最大界面升级!瞅一眼👀
传 Vision Pro 2 进入量产阶段,供应链确认蓝思科技/长盈精密供货。瞅一眼👀
Google 官方提示工程 (Prompt Engineering)白皮书-翻译来自宝玉。瞅一眼👀
Gemini Live 的屏幕共享功能正在向 Pixel 9 和 Galaxy S25 设备推出。瞅一眼👀
oppo 的一键闪记功能,使用 action button 把收集的东西使用 ai 分析总结、打标、回忆关联,检索关联,感觉实用性很高。瞅一眼👀
继续阅读



