You can't work for Twitter, Elon Musk is different
You can't work for Twitter, Elon Musk is different
You can't work for Twitter, Elon Musk is different

类型:七日精选

图片来源:网络

图片来源:网络

Image

ODD 编辑组

从世界发现故事、思考和专业知识。

2025年8月7日

#024 从学习到造物:生成世界与人机边界的再织

#024 从学习到造物:生成世界与人机边界的再织

本期聚焦AI与设计革新:ChatGPT学习模式重塑教学,Genie 3生成可交互世界;Figma上市与Photoshop Harmonize迭代工具;苹果与Google专利推进感知与无障碍;B站原声翻译、小米开源模型与生态渠道加速。

本期聚焦AI与设计革新:ChatGPT学习模式重塑教学,Genie 3生成可交互世界;Figma上市与Photoshop Harmonize迭代工具;苹果与Google专利推进感知与无障碍;B站原声翻译、小米开源模型与生态渠道加速。

📰 本周值得关注的资讯

Chatgpt 推出「学习模式」

ChatGPT 的新“学习模式”打破问问题直接给出答案的形式,它通过逐步指导而非快速回答来辅助学习。不给答案,只教思路,帮助用户建立更深入的理解。这种模式会可能把教培辅导干趴下吗?该功能对免费、Plus、Pro、Team 版登录用户开放,ChatGPT Edu 版用户将在未来几周内获得该功能。

Chatgpt 推出「学习模式」

ChatGPT 的新“学习模式”打破问问题直接给出答案的形式,它通过逐步指导而非快速回答来辅助学习。不给答案,只教思路,帮助用户建立更深入的理解。这种模式会可能把教培辅导干趴下吗?该功能对免费、Plus、Pro、Team 版登录用户开放,ChatGPT Edu 版用户将在未来几周内获得该功能。

谷歌 Genie 3:让你秒变造物主,世界的边界不存在了

中文媒体介绍

简单来说,Genie 3 是一个通用世界模型(world model)。我们只需要给它一句文字提示,比如「一条宁静的湖边小路」,它就能在几秒钟内生成一个你可以实时漫步、互动的动态世界。它能做到的,不只是生成「会动的视频」,而是真正创造一个可以实时互动、操控的虚拟世界。对比 Genie 1 和 Genie 2,这次 Google DeepMind 团队实现了一次关键的升级,从「生成可互动视频」变成了「实时生成可互动世界」。

更长的持续性和一致性:相比前代模型十几秒的互动时间,Genie 3 将这个时长提升到了「几分钟」。更重要的是,它拥有长达一分钟的视觉记忆。这意味着,当我们转身再回头时,墙上的涂鸦、远处的建筑依然会保持原样,世界不会在你回头后「刷新」,极大地提升了沉浸感。

谷歌 Genie 3:让你秒变造物主,世界的边界不存在了

中文媒体介绍

简单来说,Genie 3 是一个通用世界模型(world model)。我们只需要给它一句文字提示,比如「一条宁静的湖边小路」,它就能在几秒钟内生成一个你可以实时漫步、互动的动态世界。它能做到的,不只是生成「会动的视频」,而是真正创造一个可以实时互动、操控的虚拟世界。对比 Genie 1 和 Genie 2,这次 Google DeepMind 团队实现了一次关键的升级,从「生成可互动视频」变成了「实时生成可互动世界」。

更长的持续性和一致性:相比前代模型十几秒的互动时间,Genie 3 将这个时长提升到了「几分钟」。更重要的是,它拥有长达一分钟的视觉记忆。这意味着,当我们转身再回头时,墙上的涂鸦、远处的建筑依然会保持原样,世界不会在你回头后「刷新」,极大地提升了沉浸感。

Figma 在纽约证券所上市

当地时间 7 月 31 日,设计软件公司 Figma 正式登陆纽约证券交易所,开盘价较发行价翻番,凸显投资者对高增长科技股与人工智能主题的浓厚兴趣。Figma 开盘报 83 美元,远高于 33 美元的发行价,盘中一度逼近 125 美元,涨幅超 277%,最终收盘报 115.5 美元,首日飙涨 250%,市值攀升至 676 亿美元,远超 2023 年与 Adobe 解除并购协议时的 200 亿美元估值。

Figma 在纽约证券所上市

当地时间 7 月 31 日,设计软件公司 Figma 正式登陆纽约证券交易所,开盘价较发行价翻番,凸显投资者对高增长科技股与人工智能主题的浓厚兴趣。Figma 开盘报 83 美元,远高于 33 美元的发行价,盘中一度逼近 125 美元,涨幅超 277%,最终收盘报 115.5 美元,首日飙涨 250%,市值攀升至 676 亿美元,远超 2023 年与 Adobe 解除并购协议时的 200 亿美元估值。

B 站推出 AI 原声翻译功能:保留 UP 主声线音色,破解二次元文化出海难题

B 站推出了自主研发的 AI 原声翻译功能,旨在解决国际版与国内版合并后的内容互通问题。该技术能够保留 UP 主的原始声线、音色特征和说话习惯,为海外用户提供更自然的中文内容体验。采用对抗式强化学习和 Deep Research 技术,确保翻译精准并保留文化韵味。

B 站推出 AI 原声翻译功能:保留 UP 主声线音色,破解二次元文化出海难题

B 站推出了自主研发的 AI 原声翻译功能,旨在解决国际版与国内版合并后的内容互通问题。该技术能够保留 UP 主的原始声线、音色特征和说话习惯,为海外用户提供更自然的中文内容体验。采用对抗式强化学习和 Deep Research 技术,确保翻译精准并保留文化韵味。

Adobe Photoshop 推出“Harmonize”用 AI 自动匹配光影

Adobe 通过一系列生成式 AI 工具,如 "Harmonize",简化了复杂的图像编辑过程,提升了图像合成与修饰的效率,并引入了内容凭证以保障图像真实性。

Adobe Photoshop 推出“Harmonize”用 AI 自动匹配光影

Adobe 通过一系列生成式 AI 工具,如 "Harmonize",简化了复杂的图像编辑过程,提升了图像合成与修饰的效率,并引入了内容凭证以保障图像真实性。

小米开源声音理解大模型 MiDashengLM-7B

8 月 4 日,小米发布并全量开源 MiDashengLM-7B 模型。该模型基于 2024 年发布的 Xiaomi Dasheng 声音基座模型作为音频编码器,Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。小米称该模型声音理解性能在 22 个公开评测集上刷新多模态大模型最好成绩,单样本推理的首 Token 延迟(TTFT)为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。

小米开源声音理解大模型 MiDashengLM-7B

8 月 4 日,小米发布并全量开源 MiDashengLM-7B 模型。该模型基于 2024 年发布的 Xiaomi Dasheng 声音基座模型作为音频编码器,Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解。小米称该模型声音理解性能在 22 个公开评测集上刷新多模态大模型最好成绩,单样本推理的首 Token 延迟(TTFT)为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。

OpenAI 为 ChatGPT 增加长时间使用提醒

下面“文章”中分享了一篇相关解析,聊了聊 chatgpt 这个功能的产品涉及哲学。

8 月 4 日,OpenAI 发布博文,公布了近期 ChatGPT 优化方向。ChatGPT 将出于用户健康考虑,为 ChatGPT 增加温和的长时间使用提醒,当用户在某一对话中沉浸过长时间时会有弹窗提示。同时,ChatGPT 将加强对幻觉与情感依赖等对话内容的识别,并与专业人士、研究团队合作,以更好回复精神与情感困难问题。

OpenAI 为 ChatGPT 增加长时间使用提醒

下面“文章”中分享了一篇相关解析,聊了聊 chatgpt 这个功能的产品涉及哲学。

8 月 4 日,OpenAI 发布博文,公布了近期 ChatGPT 优化方向。ChatGPT 将出于用户健康考虑,为 ChatGPT 增加温和的长时间使用提醒,当用户在某一对话中沉浸过长时间时会有弹窗提示。同时,ChatGPT 将加强对幻觉与情感依赖等对话内容的识别,并与专业人士、研究团队合作,以更好回复精神与情感困难问题。

📒 本周值得读的文章

当 ChatGPT 也开始逐渐成为微信的模样

浅谈“OpenAI 为 ChatGPT 增加长时间使用提醒”产品设计哲学。目标不是要抓住你的注意力,而是要帮你更好地使用注意力。他们衡量成功的标准,不是用户停留了多久,或者点击了多少次,而是你是否解决了最初的问题,然后心满意足地离开。它甚至说,通常情况下,用户在产品里花的时间越少,反而是产品奏效的标志。

人工智能正在扁平化语言——并重新分配权力

长期以来,优秀的写作不仅是技巧,更像是一道门槛——只有能用权威语言表达的人才能进入“内圈”。而如今,这种格局正在悄然变化,表达的渠道变得更加开放,每个人都有机会参与进来,分享自己的观点和故事。

当 ChatGPT 也开始逐渐成为微信的模样

浅谈“OpenAI 为 ChatGPT 增加长时间使用提醒”产品设计哲学。目标不是要抓住你的注意力,而是要帮你更好地使用注意力。他们衡量成功的标准,不是用户停留了多久,或者点击了多少次,而是你是否解决了最初的问题,然后心满意足地离开。它甚至说,通常情况下,用户在产品里花的时间越少,反而是产品奏效的标志。

人工智能正在扁平化语言——并重新分配权力

长期以来,优秀的写作不仅是技巧,更像是一道门槛——只有能用权威语言表达的人才能进入“内圈”。而如今,这种格局正在悄然变化,表达的渠道变得更加开放,每个人都有机会参与进来,分享自己的观点和故事。

🌟 本周值得关注的专利

苹果专利通过预测用户注视点,实现重点区域高精度渲染,提升显示效率

该专利利用眼动追踪和智能算法,预测用户即将注视的屏幕区域,并对该区域进行高细节渲染,其余部分则降低精度,从而节省算力、减少延迟,显著提升 AR/VR 等场景下的视觉体验。

苹果专利实现了无需接触的呼吸与面部动作监测,革新健康追踪方式

苹果新专利通过嵌入干涉传感器于智能眼镜等可穿戴设备,无需接触皮肤即可精准监测呼吸和面部动作,支持健康追踪、健身指导及手势交互,推动智能设备体验升级。

谷歌的非侵入式分析物检测

谷歌的最新专利利用拉曼光谱和脉冲激光技术,实现了无创、实时检测皮肤下生物标志物的新方法,结合多激光协同与机器学习算法,极大提升了检测准确性和便携性。这一技术不仅适用于智能手表等可穿戴设备,有望替代传统采血检测方式,还将推动健康监测设备在慢病管理和运动健康等领域的普及,促进医疗与消费电子的深度融合。

Synchron 与 Apple 合作推出专利,实现用脑信号直接控制 iPad,开启无障碍人机交互新纪元

Synchron 的植入式脑机接口(BCI)与 Apple 新 BCI 协议结合,让用户仅凭意念即可原生操控 iPad,无需手、声音或眼动。该技术无需开颅手术,极大提升了实用性和可扩展性,标志着脑控设备首次进入日常生活,推动认知输入成为未来主流的人机交互方式。

苹果专利通过预测用户注视点,实现重点区域高精度渲染,提升显示效率

该专利利用眼动追踪和智能算法,预测用户即将注视的屏幕区域,并对该区域进行高细节渲染,其余部分则降低精度,从而节省算力、减少延迟,显著提升 AR/VR 等场景下的视觉体验。

苹果专利实现了无需接触的呼吸与面部动作监测,革新健康追踪方式

苹果新专利通过嵌入干涉传感器于智能眼镜等可穿戴设备,无需接触皮肤即可精准监测呼吸和面部动作,支持健康追踪、健身指导及手势交互,推动智能设备体验升级。

谷歌的非侵入式分析物检测

谷歌的最新专利利用拉曼光谱和脉冲激光技术,实现了无创、实时检测皮肤下生物标志物的新方法,结合多激光协同与机器学习算法,极大提升了检测准确性和便携性。这一技术不仅适用于智能手表等可穿戴设备,有望替代传统采血检测方式,还将推动健康监测设备在慢病管理和运动健康等领域的普及,促进医疗与消费电子的深度融合。

Synchron 与 Apple 合作推出专利,实现用脑信号直接控制 iPad,开启无障碍人机交互新纪元

Synchron 的植入式脑机接口(BCI)与 Apple 新 BCI 协议结合,让用户仅凭意念即可原生操控 iPad,无需手、声音或眼动。该技术无需开颅手术,极大提升了实用性和可扩展性,标志着脑控设备首次进入日常生活,推动认知输入成为未来主流的人机交互方式。

🍚 本周的下饭信息

  1. X.AI 官网更新了未来感十足,互动细节细腻。瞅一眼👀

  2. Devouring Details 交互动效参考手册,售价有些贵但网站的交互很值得细品。瞅一眼👀

  3. Cursor 高级设计师 Ryolu 的个人网站。瞅一眼👀

  4. 那个我们都熟悉的行楷,究竟是如何封神的?瞅一眼👀

  1. X.AI 官网更新了未来感十足,互动细节细腻。瞅一眼👀

  2. Devouring Details 交互动效参考手册,售价有些贵但网站的交互很值得细品。瞅一眼👀

  3. Cursor 高级设计师 Ryolu 的个人网站。瞅一眼👀

  4. 那个我们都熟悉的行楷,究竟是如何封神的?瞅一眼👀

No headings found. Make sure your Rich Text component contains H1-H6 headings.

继续阅读

Create a free website with Framer, the website builder loved by startups, designers and agencies.