
类型:七日精选
图片来源:网络
图片来源:网络

ODD 编辑组
从世界发现故事、思考和专业知识。
2025年3月17日
#005 通俗解读大模型 Token,Magma 迈向时空智能
#005 通俗解读大模型 Token,Magma 迈向时空智能
团队精选,小鳄继续守擂;带来通俗解读“大模型 Token”;资讯聚焦具身智能基础模型 Magma,兼具语言与时空智能,覆盖 UI 导航与机器人操作等任务。
团队精选,小鳄继续守擂;带来通俗解读“大模型 Token”;资讯聚焦具身智能基础模型 Magma,兼具语言与时空智能,覆盖 UI 导航与机器人操作等任务。
📰 本周值得关注的资讯
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器 人操作全能
由于二维数字世界和三维物理世界之间存在差异,现有的VLA模型通常对任务进行简化,导致多模态理解能力偏弱,在跨任务和跨领域的泛化能力上不够通用。 微软、马里兰大学、威斯康星大学麦迪逊分校、韩国科学技术院、华盛顿大学的研究人员开发了一个具备多模态理解、行动预测的智能体基础模型Magma,不仅保留了视觉语言模型的语言理解能力(语言智能),还具备在视觉空间世界中进行规划和行动的能力(时空智能),能够完成从用户界面(UI)导航到机器人操作等各种智能体任务。
具身智能新时代!VLA迎来最强基础模型Magma:UI导航、机器 人操作全能
由于二维数字世界和三维物理世界之间存在差异,现有的VLA模型通常对任务进行简化,导致多模态理解能力偏弱,在跨任务和跨领域的泛化能力上不够通用。 微软、马里兰大学、威斯康星大学麦迪逊分校、韩国科学技术院、华盛顿大学的研究人员开发了一个具备多模态理解、行动预测的智能体基础模型Magma,不仅保留了视觉语言模型的语言理解能力(语言智能),还具备在视觉空间世界中进行规划和行动的能力(时空智能),能够完成从用户界面(UI)导航到机器人操作等各种智能体任务。

文心X1:直接开大招的深度思考模型
百度发布文心大模型4.5 和深度思考模型X1。文心X1支持联网搜索和自主调用工具,在任务梳理、长文本处理、舆情分析和旅行规划等方面表现出色。文心4.5 实现原生多模态深度融合,能理解多种模态及它们之间的关系,在图片解释、位置识别、图表解读和图像生成等方面表现优秀,还可用于播客制作。两款模型目前可在文心一言官网免费体验。
文心X1:直接开大招的深度思考模型
百度发布文心大模型4.5 和深度思考模型X1。文心X1支持联网搜索和自主调用工具,在任务梳理、长文本处理、舆情分析和旅行规划等方面表现出色。文心4.5 实现原生多模态深度融合,能理解多种模态及它们之间的关系,在图片解释、位置识别、图表解读和图像生成等方面表现优秀,还可用于播客制作。两款模型目前可在文心一言官网免费体验。

谷歌全面升级Flash Thinking2.0,全面开放深度研究功能
根据官方介绍,Flash Thinking2.0最新版本新增了文件上传功能,并大幅提高了处理速度。对于Gemini Advanced用户而言,该系统现在能够在单个上下文窗口中处理高达100万个标记的信息量,这意味着AI可以同时分析和理解更大规模的数据集。
谷歌全面升级Flash Thinking2.0,全面开放深度研究功能
根据官方介绍,Flash Thinking2.0最新版本新增了文件上传功能,并大幅提高了处理速度。对于Gemini Advanced用户而言,该系统现在能够在单个上下文窗口中处理高达100万个标记的信息量,这意味着AI可以同时分析和理解更大规模的数据集。

谷歌将用 Gemini 取代 Google Assistant
谷歌在一篇博客文章中表示,它将在“未来几个月内”让更多用户从 Google Assistant 升级到 Gemini。今年晚些时候,Assistant 将不再在大多数移动设备上可用,也无法从应用商店中获取。“此外,我们将为平板电脑、汽车和耳机、手表等可连接手机的设备升级 Gemini,”该公司补充道。“我们还将为扬声器、显示器和电视等家用设备带来由 Gemini 提供支持的全新体验。”
谷歌将用 Gemini 取代 Google Assistant
谷歌在一篇博客文章中表示,它将在“未来几个月内”让更多用户从 Google Assistant 升级到 Gemini。今年晚些时候,Assistant 将不再在大多数移动设备上可用,也无法从应用商店中获取。“此外,我们将为平板电脑、汽车和耳机、手表等可连接手机的设备升级 Gemini,”该公司补充道。“我们还将为扬声器、显示器和电视等家用设备带来由 Gemini 提供支持的全新体验。”

谷歌的全新 Gemma 3 AI 模型速度快、性能低,并且适用于手机
3 月 12 日,谷歌发布了第三代开源 AI 模型,并提出了一些令人印象深刻的声明。Gemma 3 模型有四种变体——10 亿、40 亿、120 亿和 270 亿个参数——旨在从智能手机到强大的工作站的各种设备上运行。谷歌表示,Gemma 3 是世界上最好的单加速器模型,这意味着它可以在单个 GPU 或 TPU 上运行,而不需要整个集群。从理论上讲,这意味着 Gemma 3 AI 模型可以在 Pixel 智能手机的张量处理核心 (TPU) 单元上本地运行,就像它在手机上本地运行 Gemini Nano 模型一样。
谷歌的全新 Gemma 3 AI 模型速度快、性能低,并且适用于手机
3 月 12 日,谷歌发布了第三代开源 AI 模型,并提出了一些令人印象深刻的声明。Gemma 3 模型有四种变体——10 亿、40 亿、120 亿和 270 亿个参数——旨在从智能手机到强大的工作站的各种设备上运行。谷歌表示,Gemma 3 是世界上最好的单加速器模型,这意味着它可以在单个 GPU 或 TPU 上运行,而不需要整个集群。从理论上讲,这意味着 Gemma 3 AI 模型可以在 Pixel 智能手机的张量处理核心 (TPU) 单元上本地运行,就像它在手机上本地运行 Gemini Nano 模型一样。

Android 或将推出通知摘要AndroidAuthority
的工作人员查看了Android 13 最新 Beta 版更新的代码,发现提及了“通知摘要”。要启用此功能,用户必须在“设置”应用的“通知”仪表板下轻触专用切换按钮。另外,用户可以禁用他们不想看到汇总通知的应用的通知。对字符串的分析表明,该功能只会汇总包含对话内容(例如消息)的通知,而不会汇总其他应用消息。
Android 或将推出通知摘要AndroidAuthority
的工作人员查看了Android 13 最新 Beta 版更新的代码,发现提及了“通知摘要”。要启用此功能,用户必须在“设置”应用的“通知”仪表板下轻触专用切换按钮。另外,用户可以禁用他们不想看到汇总通知的应用的通知。对字符串的分析表明,该功能只会汇总包含对话内容(例如消息)的通知,而不会汇总其他应用消息。

IOS19 设计语言将大改,或与 VisionOS 相似据彭博社
援引匿名消息人士报道,苹果公司即将对 iPhone、iPad 和 Mac 操作系统进行的一系列重大更新,可能会带来该公司多年来最大的平台设计变化,比如增加更多高斯模糊和透明度的设计。报道称,此次改版将与 iOS 19、iPadOS 19 和 macOS 16 一起推出,将刷新图标、菜单、应用程序、窗口和系统按钮,同时简化导航和控制。据报道,新设计大致基于苹果 VisionPro VR 耳机的操作系统visionOS ,该系统使用圆形图标和半透明面板进行导航。
IOS19 设计语言将大改,或与 VisionOS 相似据彭博社
援引匿名消息人士报道,苹果公司即将对 iPhone、iPad 和 Mac 操作系统进行的一系列重大更新,可能会带来该公司多年来最大的平台设计变化,比如增加更多高斯模糊和透明度的设计。报道称,此次改版将与 iOS 19、iPadOS 19 和 macOS 16 一起推出,将刷新图标、菜单、应用程序、窗口和系统按钮,同时简化导航和控制。据报道,新设计大致基于苹果 VisionPro VR 耳机的操作系统visionOS ,该系统使用圆形图标和半透明面板进行导航。

苹果今年可能会为 AirPods 配备实时翻译功能
苹果最近专注于对 AirPods 进行更注重健康的改造,而不是将其作为普通的无线耳机进行宣传。去年年底,AirPods Pro 2推出了高音量降低功能,以及听力测试系统和助听器设施。据报道,现在该公司正在考虑对 AirPods 进行对话升级。据彭博社报道,苹果计划在今年晚些时候为 AirPods 带来实时翻译功能。重点是消除面对面交谈中的语言障碍
三星在 One UI 7 推出前改进了 Now Bar
三星基于 Android 15 的新 One UI 7 更新有很多功能,上周,三星开始推出一项紧急更新来改进
Now Bar,可能在下个月公测的 One UI 7 发布之前推出。Now Bar 可以在锁屏底部(通常位于通知栏)显示实时通知、音乐、地图、遥控器和运动。
四部门:9月1日起,AI生成合成内容应当添加标识
《标识办法》明确服务提供者应当对文本、音频、图片、视频、虚拟场景等生成合成内容添加显式标识,在提供生成合成内容下载、复制、导出等功能时,应当确保文件中含有满足要求的显式标识;应当在生成合成内容的文件元数据中添加隐式标识,隐式标识包含生成合成内容属性信息、服务提供者名称或者编码、内容编号等制作要素信息;应当在用户服务协议中明确说明生成合成内容标识的方法、样式等规范内容,并提示用户仔细阅读并理解相关的标识管理要求。
苹果今年可能会为 AirPods 配备实时翻译功能
苹果最近专注于对 AirPods 进行更注重健康的改造,而不是将其作为普通的无线耳机进行宣传。去年年底,AirPods Pro 2推出了高音量降低功能,以及听力测试系统和助听器设施。据报道,现在该公司正在考虑对 AirPods 进行对话升级。据彭博社报道,苹果计划在今年晚些时候为 AirPods 带来实时翻译功能。重点是消除面对面交谈中的语言障碍
三星在 One UI 7 推出前改进了 Now Bar
三星基于 Android 15 的新 One UI 7 更新有很多功能,上周,三星开始推出一项紧急更新来改进
Now Bar,可能在下个月公测的 One UI 7 发布之前推出。Now Bar 可以在锁屏底部(通常位于通知栏)显示实时通知、音乐、地图、遥控器和运动。
四部门:9月1日起,AI生成合成内容应当添加标识
《标识办法》明确服务提供者应当对文本、音频、图片、视频、虚拟场景等生成合成内容添加显式标识,在提供生成合成内容下载、复制、导出等功能时,应当确保文件中含有满足要求的显式标识;应当在生成合成内容的文件元数据中添加隐式标识,隐式标识包含生成合成内容属性信息、服务提供者名称或者编码、内容编号等制作要素信息;应当在用户服务协议中明确说明生成合成内容标识的方法、样式等规范内容,并提示用户仔细阅读并理解相关的标识管理要求。

继续阅读



