AI每日动态 2026-06-24：里德·霍夫曼称SpaceX不是一家人工智能公司，xAI则是彻等30条速递

📅 2026-06-24 · 数据来源 AI HOT × Hermes Agent 自动采集加工本文每日23:00自动更新，汇集今日AI行业最值得关注的动态。

⚡ 今日速览

里德·霍夫曼称SpaceX”不是一家人工智能公司”，xAI则是”彻底的灾难”
字节跳动技术副总裁洪定坤：AI Coding 的实践与探索
火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级
DFlash：块扩散草稿模型实现最高15倍吞吐量提升
MiniCPM-V 4.6 在 Apple Core AI 上高速运行
OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño
OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试
Qwen-AgentWorld 开源：让 Agent 学会”先预测，再行动”

🧠 大模型发布

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

来源: IT之家（RSS）
链接: https://www.ithome.com/0/967/852.htm

Qwen-AgentWorld 开源：让 Agent 学会”先预测，再行动”

通义千问推出首个原生语言世界模型 Qwen-AgentWorld，覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹，经 CPT→SFT→RL 三阶段训练，在 AgentWorldBench 上超越 GPT-5.4（58.25）和 Claude Opus 4.8，Qwen-AgentWorld-397B-A17B 取…

来源: 公众号：通义实验室（千问）
链接: https://mp.weixin.qq.com/s/NV9WGpGsfFz35jww5agM9g

FastWan-QAD：单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列，基于 FastVideo 的量化感知蒸馏（QAD）方案训练。在单张 NVIDIA GeForce RTX 5090 上，端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

来源: X：Sky Computing Lab (@haoailab)
链接: https://x.com/haoailab/status/2069493820732170695

Krea 2 技术报告正式发布

我们的技术报告已发布。

深入解析创建 Krea 2 所用的数据、架构及训练技巧。

https：//www.krea.ai/blog/krea-2-technical-report

来源: X：Krea AI (@krea_ai)
链接: https://x.com/krea_ai/status/2069473417804591191

Mistral OCR 4

Mistral AI 发布 OCR 4，新增边界框、块分类（标题、表格、方程式、签名等）及逐页逐词置信度分数。支持 170 种语言、10 个语系，可单容器全自托管部署。在 OlmOCRBench 上得分 85.20，独立标注者偏好率平均 72%。定价每 1000 页 $4，Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

来源: Mistral AI：News（网页）
链接: https://mistral.ai/news/ocr-4

网易有道发布 Confucius4-TTS：14 语种跨语种无口音语音克隆开源模型

网易有道推出”子曰 4.0”TTS 引擎 Confucius4-TTS，声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆，克隆音色与原声相似度超 85%，任务准确度达 97%。模型支持中文、英语等 14 种语言，首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-T…

来源: IT之家（RSS）
链接: https://www.ithome.com/0/967/636.htm

京东全栈开源JoyAI-VL-Interaction，从”一问一答”走向”边看边说”

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction，获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应，支持将复杂任务委托后台Agent处理。在58个真人盲评中，对比豆包视频通话助手胜率77.6%，对比Gemini视频通话助手胜率87.9%，监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统，支持摄像头、直播流…

来源: 公众号：京东JoyAI
链接: https://mp.weixin.qq.com/s/IY6XGp4k6VgD9ZPH6YprCA

豆包音频生成模型1.0发布，重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0（Doubao-Seed-Audio 1.0），支持文本与音频参考生成，端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围，长时生成中保持多角色音色一致性，无需后期多轨混音。模型支持0样本多模态输入，无需额外训练即可生成；实现音色与风格解耦控制及”一声多角”能力。一次支持2分钟音频创作，多次延长保持音色统一。已开启火山方舟API…

来源: 公众号：火山引擎
链接: https://mp.weixin.qq.com/s/iL0uyUjOMUEfudeuDP6wQQ

Seed2.1 正式发布，深入 AI 生产力

字节Seed发布Seed2.1系列，面向真实生产力场景的智能体，强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分，Agents’ Last Exam位列参评模型第一梯队；MobileWorld手机GUI任务最高分，CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上，Seed2.1 Pro在NL…

来源: 字节 Seed：Research Feed（网页内嵌数据）
链接: https://seed.bytedance.com/zh/blog/seed2-1-%E6%AD%A3%E5%BC%8F%E5%8F%91%E5%B8%83-%E6%B7%B1%E5%85%A5-ai-%E7%94%9F%E4%BA%A7%E5%8A%9B

🚀 AI产品发布

火山引擎推出Agent Ready基础设施，AgentKit与ArkClaw企业版升级

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施，构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块，实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系，Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库，支持…

来源: 公众号：火山引擎
链接: https://mp.weixin.qq.com/s/83mrPAPgQRKhxLkoSvRgBQ

OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño

OpenAI 与 Broadcom 联合推出 Jalapeño，一款专为大语言模型（LLM）推理优化的定制 AI 芯片，旨在提升 AI 系统的性能、效率与规模。

来源: OpenAI：官网动态（RSS · 排除企业/客户案例）
链接: https://openai.com/index/openai-broadcom-jalapeno-inference-chip

今天，豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线，面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型，支持操作本地电脑、浏览器、调用Skills技能、定时任务，内置Office办公套件，并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式，专业版接入豆包2.1 Pro模型。定价：标准套餐68元/月（连续包月），加强套餐200元/月，高级套餐500元/…

来源: 公众号：豆包（字节）
链接: https://mp.weixin.qq.com/s/Sb-NMXTrWFQES1EDO_Gr2g

Runway推出Seedance 4K等三款新模型

Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。全球最佳模型，汇聚一处。

使用优惠码 30RUNWAY，前三个月可享七折优惠。

通过下方链接开始使用。

来源: X：Runway (@runwayml)
链接: https://x.com/runwayml/status/2069535148450705517

Anthropic 推出 Claude Tag：在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag，一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文，支持多用户交互，经授权后可自动学习其他频道和数据源。开启”环境”行为后，能主动更新未解决的线程或任务。支持异步工作，可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具…

来源: Anthropic：Newsroom（网页）
链接: https://www.anthropic.com/news/introducing-claude-tag

无限制OCR：单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目，实现单次长时域解析（One-Shot Long-Horizon Parsing），旨在一次性处理长时间跨度的 OCR 任务。

来源: Hacker News 热门（buzzing.cc 中文翻译）
链接: https://github.com/baidu/Unlimited-OCR

IBM 开源 CUGA：轻量级智能体框架，提供二十余个单文件示例应用

IBM 开源了 CUGA（Configurable Generalist Agent），一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环，在 AppWorld（2025年7月-2026年2月）和 WebArena（2025年2月-9月）基准上排名第一。支持 Fast / Balanced / Accu…

来源: Hugging Face：Blog（RSS）
链接: https://huggingface.co/blog/ibm-research/cuga-apps

国内首个高考志愿AI测评出炉，千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告，测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照，千问表现更稳定精确：44道事实题全对；模拟10个志愿中6个可录取；100场匿名对比中专家58次倾向千问回答。使用千问辅助后，人类咨询师正确率提升，耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据，覆盖约3000所院校、2000多个专业。

来源: 公众号：千问APP（阿里）
链接: https://mp.weixin.qq.com/s/oGHVP4MgGS1rbmT8s8St8Q

OpenRouter推出统一图像API

OpenRouter推出统一图像API，整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式，通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述；通过`/api/v1/images/mod…

来源: OpenRouter：Announcements（RSS）
链接: https://openrouter.ai/blog/announcements/image-api

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因…

来源: HuggingFace Daily Papers（社区热门论文）
链接: https://arxiv.org/abs/2606.24530

📊 行业动态

Oracle因AI应用裁员21000人，债务驱动云基础设施投资

Oracle在截至5月31日的财年裁员21000人，员工总数降至141，000人，降幅12.9%。公司称AI技术的采用导致劳动力缩减，同时重组成本达18亿美元，同比增长481%。Oracle计划2026年通过债务和股权筹集450至500亿美元，扩建Oracle Cloud Infrastructure，服务OpenAI、xAI、AMD、Nvidia、Meta等客户。公司债务超1200亿美元。分析人…

来源: Ars Technica：AI（RSS）
链接: https://arstechnica.com/ai/2026/06/oracles-21000-layoffs-help-drive-its-debt-fueled-ai-investments

GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟，呼吁对加州 AI 透明度法案（SB 942，拟由 SB 1000 修正）进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证，这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要，已有直接监管和执法机制，并建议参考欧盟 AI 法案的透明…

来源: GitHub Blog
链接: https://github.blog/news-insights/policy-news-and-insights/github-joins-coalition-advocating-for-fixes-to-california-ai-transparency-act-to-protect-open-source

五眼联盟警告：AI网络威胁数月内将影响普通用户

2026年6月22日，五眼联盟（美、英、加、澳、新）网络安全部门联合警告，即将到来的AI模型（如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos）将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞，大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延，印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI，个人用户开启多因素认证、…

来源: Artificial Intelligence News（RSS）
链接: https://www.artificialintelligence-news.com/news/five-eyes-warning-ai-cyber-threats

📄 AI论文

DFlash：块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出，是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token，再由目标模型并行验证，保证输出无损。相比 EAGLE-3，DFlash 实现最高 2.5 倍加速，在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍（MATH-500 达 6.08×）。在 NVIDIA Blackwell 上（TensorRT-LLM），gpt…

来源: MarkTechPost（RSS）
链接: https://www.marktechpost.com/2026/06/24/dflash-speculative-decoding-drafts-whole-token-blocks-in-parallel-for-up-to-15x-higher-throughput-on-nvidia-blackwell

AI招聘工具存在种族偏见和系统性排斥；黑人占比26%，亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现，AI招聘筛选工具存在显著的种族歧视：26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥；若AI按推荐率最高群体（通常为白人）标准执行，将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法，形成”算法单一文化”，导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据（8.3万份…

来源: Hacker News 热门（buzzing.cc 中文翻译）
链接: https://hai.stanford.edu/news/ai-hiring-tools-can-yield-racial-bias-and-systemic-rejection

九位评委，两个有效投票：相关错误削弱LLM评审面板

苹果机器学习研究团队发现，LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明，9位评委实际仅提供约2个独立投票的信息量，面板准确率比独立投票理想值低8-22个百分点，最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微，即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度…

来源: Apple Machine Learning Research（RSS）
链接: https://machinelearning.apple.com/research/correlated-llm-evaluation-panels

💡 技巧与观点

里德·霍夫曼称SpaceX”不是一家人工智能公司”，xAI则是”彻底的灾难”

LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX”不是一家人工智能公司”，6月12日上市后收购AI编程工具Cursor属于”花钱买相关性”；xAI则是”彻底的灾难”，所有11位联合创始人已离职，Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制…

来源: Hacker News 热门（buzzing.cc 中文翻译）
链接: https://fortune.com/2026/06/24/reid-hoffman-spacex-musk-openai-anthropic-gen-z-mistake

字节跳动技术副总裁洪定坤：AI Coding 的实践与探索

在火山引擎Force大会，字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年，字节AI代码贡献率增长6倍，tokens消耗增长5倍，但过度关注单一指标可能失真—TRAE团队代码超90%由AI生成，人均需求吞吐率仅提升60%。900次实验显示，主流Coding模型组合代码正确率超80%，但可交付性仅40-60分；结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协…

来源: 公众号：火山引擎
链接: https://mp.weixin.qq.com/s/mdmaAyUIvxE8WT_GEbF2wQ

MiniCPM-V 4.6 在 Apple Core AI 上高速运行

🥳感谢分享，@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行，实在令人印象深刻—尤其是在 Apple Core AI 上以不到 2B 参数跑出。干得漂亮，推动高效多模态 AI 向前发展。🫡

来源: X：面壁智能 OpenBMB (@OpenBMB)
链接: https://x.com/OpenBMB/status/2069676334381728106

在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时，不同来源的 Web 应用会重复下载并缓存相同的模型资源（如 Xenova/whisper-tiny.en）和 Wasm 运行时文件（如 4，733 kB 的 ort-wasm-simd-threaded.asyncify.wasm），即使资源 URL 相同，浏览器因 Network Isolation Key 隔离缓存，单次 demo …

来源: Hugging Face：Blog（RSS）
链接: https://huggingface.co/blog/cross-origin-storage

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4-6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM-5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草…

来源: Hugging Face：Blog（RSS）
链接: https://huggingface.co/blog/huggingface-hub-release-ci

📋 关于本栏目

本页面每日23:00自动更新，内容由 AI HOT 提供原始数据，Hermes Agent 自动采集、分类、加工后发布到 agents-quant.com。