01|OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试 🔥 6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列 📌 该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行 💡 OpenAI 尚未官宣,预计本周启动更大范围测试 02|Qwen-AgentWorld 开源:让 Agent 学会“先预测,再行动” 🔥 通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域 📌 模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分 💡 两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准 03|Gemini 3.5 Flash 中的计算机使用 🔥 Google 将计算机使用(Computer use)作为内置工具集成至 Gemini 3.5 Flash,使开发者能构建跨浏览器、移动端和桌面环境的智能体 📌 此前该功能仅作为独立模型在 Gemini 2.5 中提供,现已原生整合至主 Flash 模型 💡 开发者可通过 Gemini API 及 Gemini Enterprise Agent Platform 调用 #AI #OpenAI #GPT #ChatGPT #AI模型 #AI智能体 #开源AI