📅 2026-06-24 · 数据来源 AI HOT × Hermes Agent 自动采集加工 本文每日23:00自动更新,汇集今日AI行业最值得关注的动态。

⚡ 今日速览

  1. 里德·霍夫曼称SpaceX”不是一家人工智能公司”,xAI则是”彻底的灾难”
  2. 字节跳动技术副总裁洪定坤:AI Coding 的实践与探索
  3. 火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级
  4. DFlash:块扩散草稿模型实现最高15倍吞吐量提升
  5. MiniCPM-V 4.6 在 Apple Core AI 上高速运行
  6. OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño
  7. OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试
  8. Qwen-AgentWorld 开源:让 Agent 学会”先预测,再行动”

🧠 大模型发布

OpenAI ChatGPT 语音最大规模升级:双向AI语音模型 Bidi 1 已上线测试

6月23日,部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1,位于设置模型选择器中,与标准语音和高级语音并列。该模型支持边说话边监听,用户可在对话中途打断并发出新指令,例如要求从1数到10时中途喊停倒数,模型会立即切换执行。OpenAI 尚未官宣,预计本周启动更大范围测试。

来源: IT之家(RSS)
链接: https://www.ithome.com/0/967/852.htm


Qwen-AgentWorld 开源:让 Agent 学会”先预测,再行动”

通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取…

来源: 公众号:通义实验室(千问)
链接: https://mp.weixin.qq.com/s/NV9WGpGsfFz35jww5agM9g


FastWan-QAD:单卡5090上1.8秒生成5秒视频

Sky Computing Lab 发布 FastWan-QAD 视频生成模型系列,基于 FastVideo 的量化感知蒸馏(QAD)方案训练。在单张 NVIDIA GeForce RTX 5090 上,端到端生成一段 5 秒 480P 视频仅需 1.8 秒。模型、代码及博客已开源。

来源: X:Sky Computing Lab (@haoailab)
链接: https://x.com/haoailab/status/2069493820732170695


Krea 2 技术报告正式发布

我们的技术报告已发布。

深入解析创建 Krea 2 所用的数据、架构及训练技巧。

https://www.krea.ai/blog/krea-2-technical-report

来源: X:Krea AI (@krea_ai)
链接: https://x.com/krea_ai/status/2069473417804591191


Mistral OCR 4

Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。

来源: Mistral AI:News(网页)
链接: https://mistral.ai/news/ocr-4


网易有道发布 Confucius4-TTS:14 语种跨语种无口音语音克隆开源模型

网易有道推出”子曰 4.0”TTS 引擎 Confucius4-TTS,声称是业内首个支持 14 种语言跨语种无口音、且无需参考文本即可完成语音克隆的开源模型。用户仅需 3 秒音频即可实现零样本音色克隆,克隆音色与原声相似度超 85%,任务准确度达 97%。模型支持中文、英语等 14 种语言,首创音频 Prompt 情感克隆迁移。底层采用 GPT 式语义大模型、SSL 预训练特征与 ECAPA-T…

来源: IT之家(RSS)
链接: https://www.ithome.com/0/967/636.htm


京东全栈开源JoyAI-VL-Interaction,从”一问一答”走向”边看边说”

京东近日开源全球首个全栈交互模型JoyAI-VL-Interaction,获vLLM-Omni原生支持。该模型能持续观察视频流、主动判断关键事件并实时响应,支持将复杂任务委托后台Agent处理。在58个真人盲评中,对比豆包视频通话助手胜率77.6%,对比Gemini视频通话助手胜率87.9%,监控预警场景达100%胜率。开源内容包括模型权重、交互数据集、训练方案及完整可部署系统,支持摄像头、直播流…

来源: 公众号:京东JoyAI
链接: https://mp.weixin.qq.com/s/IY6XGp4k6VgD9ZPH6YprCA


豆包音频生成模型1.0发布,重新定义AI音频创作

火山引擎正式发布豆包音频生成模型1.0(Doubao-Seed-Audio 1.0),支持文本与音频参考生成,端到端输出目标音频。单条Prompt可编排多角色对白、情绪语气、背景音乐及环境氛围,长时生成中保持多角色音色一致性,无需后期多轨混音。模型支持0样本多模态输入,无需额外训练即可生成;实现音色与风格解耦控制及”一声多角”能力。一次支持2分钟音频创作,多次延长保持音色统一。已开启火山方舟API…

来源: 公众号:火山引擎
链接: https://mp.weixin.qq.com/s/iL0uyUjOMUEfudeuDP6wQQ


Seed2.1 正式发布,深入 AI 生产力

字节Seed发布Seed2.1系列,面向真实生产力场景的智能体,强化通用Agent能力、代码工程交付与多模态理解。Seed2.1 Pro在GDPval基准获最高分,Agents’ Last Exam位列参评模型第一梯队;MobileWorld手机GUI任务最高分,CreativeWork多环境任务表现突出。多模态在CharXiv-RQ等多项基准取得SOTA。代码能力上,Seed2.1 Pro在NL…

来源: 字节 Seed:Research Feed(网页内嵌数据)
链接: https://seed.bytedance.com/zh/blog/seed2-1-%E6%AD%A3%E5%BC%8F%E5%8F%91%E5%B8%83-%E6%B7%B1%E5%85%A5-ai-%E7%94%9F%E4%BA%A7%E5%8A%9B


🚀 AI产品发布

火山引擎推出Agent Ready基础设施,AgentKit与ArkClaw企业版升级

火山引擎在FORCE大会推出面向企业智能应用的Agent Ready基础设施,构建AI云与Agent三层架构。AgentKit升级提供Identity、Runtime、Sandbox、Evaluation等模块,实现Agent可靠、可控、可衡量。Identity已接入数千家身份体系,Runtime支持长程任务和分钟级12万沙箱并发。ArkClaw企业版集成Agent广场、技能中心与企业知识库,支持…

来源: 公众号:火山引擎
链接: https://mp.weixin.qq.com/s/83mrPAPgQRKhxLkoSvRgBQ


OpenAI 与 Broadcom 发布面向 LLM 推理的定制芯片 Jalapeño

OpenAI 与 Broadcom 联合推出 Jalapeño,一款专为大语言模型(LLM)推理优化的定制 AI 芯片,旨在提升 AI 系统的性能、效率与规模。

来源: OpenAI:官网动态(RSS · 排除企业/客户案例)
链接: https://openai.com/index/openai-broadcom-jalapeno-inference-chip


今天,豆包正式推出专业版

豆包专业版基于豆包2.1系列大模型上线,面向复杂办公与生产力场景。办公任务模式接入可执行Agent任务的豆包2.1模型,支持操作本地电脑、浏览器、调用Skills技能、定时任务,内置Office办公套件,并可生成带后端数据库的在线应用。免费用户可体验豆包2.1 Turbo版办公任务模式,专业版接入豆包2.1 Pro模型。定价:标准套餐68元/月(连续包月),加强套餐200元/月,高级套餐500元/…

来源: 公众号:豆包(字节)
链接: https://mp.weixin.qq.com/s/Sb-NMXTrWFQES1EDO_Gr2g


Runway推出Seedance 4K等三款新模型

Seedance 4K。Seedance Mini。Kling 3.0 Turbo。现已推出。 全球最佳模型,汇聚一处。

使用优惠码 30RUNWAY,前三个月可享七折优惠。

通过下方链接开始使用。

来源: X:Runway (@runwayml)
链接: https://x.com/runwayml/status/2069535148450705517


Anthropic 推出 Claude Tag:在 Slack 中通过 @Claude 协作

Anthropic 推出 Claude Tag,一种在 Slack 频道中通过 @Claude 委托任务的新协作方式。Claude 可记住频道上下文,支持多用户交互,经授权后可自动学习其他频道和数据源。开启”环境”行为后,能主动更新未解决的线程或任务。支持异步工作,可自主推进项目数小时或数天。即日起面向 Claude Enterprise 和 Team 客户提供 beta 版。管理员可精细控制工具…

来源: Anthropic:Newsroom(网页)
链接: https://www.anthropic.com/news/introducing-claude-tag


无限制OCR:单次长时域解析

Unlimited OCR 是一个托管在 GitHub 的项目,实现单次长时域解析(One-Shot Long-Horizon Parsing),旨在一次性处理长时间跨度的 OCR 任务。

来源: Hacker News 热门(buzzing.cc 中文翻译)
链接: https://github.com/baidu/Unlimited-OCR


IBM 开源 CUGA:轻量级智能体框架,提供二十余个单文件示例应用

IBM 开源了 CUGA(Configurable Generalist Agent),一个处理规划、执行循环、工具调用和状态管理的轻量级智能体框架。开发者只需提供工具列表和提示词即可构建 CugaAgent。内置计划-执行-反思循环,在 AppWorld(2025年7月-2026年2月)和 WebArena(2025年2月-9月)基准上排名第一。支持 Fast / Balanced / Accu…

来源: Hugging Face:Blog(RSS)
链接: https://huggingface.co/blog/ibm-research/cuga-apps


国内首个高考志愿AI测评出炉,千问多项表现超过资深咨询师

友松实验室发布国内首个高考志愿AI能力测评报告,测试千问高考志愿填报Agent四大模块。与53位平均从业4.6年的人类咨询师对照,千问表现更稳定精确:44道事实题全对;模拟10个志愿中6个可录取;100场匿名对比中专家58次倾向千问回答。使用千问辅助后,人类咨询师正确率提升,耗时减少约27%。该Agent基于千问高考志愿大模型和夸克8年高考数据,覆盖约3000所院校、2000多个专业。

来源: 公众号:千问APP(阿里)
链接: https://mp.weixin.qq.com/s/oGHVP4MgGS1rbmT8s8St8Q


OpenRouter推出统一图像API

OpenRouter推出统一图像API,整合Google、OpenAI、Black Forest Labs、Recraft、ByteDance、Sourceful、Microsoft、xAI等30+模型。新API提供标准化请求格式,通过/api/v1/images/models端点返回每个模型的分辨率、宽高比、输出数量、输入参考图数量、种子等能力描述;通过`/api/v1/images/mod…

来源: OpenRouter:Announcements(RSS)
链接: https://openrouter.ai/blog/announcements/image-api


NatureBench:AI编码智能体能否匹配Nature系列论文已发表SOTA?

NatureBench是一个跨学科基准测试,包含90个从Nature系列同行评审论文中提取的任务,用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线,为每个任务提供标准化容器化环境,解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置,最强模型仅在17.8%任务上超过已发表SOTA(g>0.1准则)。分析表明,智能体成功主要依赖方法论翻译,失败主因…

来源: HuggingFace Daily Papers(社区热门论文)
链接: https://arxiv.org/abs/2606.24530


📊 行业动态

Oracle因AI应用裁员21000人,债务驱动云基础设施投资

Oracle在截至5月31日的财年裁员21000人,员工总数降至141,000人,降幅12.9%。公司称AI技术的采用导致劳动力缩减,同时重组成本达18亿美元,同比增长481%。Oracle计划2026年通过债务和股权筹集450至500亿美元,扩建Oracle Cloud Infrastructure,服务OpenAI、xAI、AMD、Nvidia、Meta等客户。公司债务超1200亿美元。分析人…

来源: Ars Technica:AI(RSS)
链接: https://arstechnica.com/ai/2026/06/oracles-21000-layoffs-help-drive-its-debt-fueled-ai-investments


GitHub联合开源联盟呼吁修改加州AI透明度法案以保护开源

GitHub 联合 Black Forest Labs、Hugging Face 与 Mozilla Corporation 组成开源联盟,呼吁对加州 AI 透明度法案(SB 942,拟由 SB 1000 修正)进行针对性修改。当前草案要求开发者在下游用户未履行义务时撤销开源许可证,这与开源许可证永久不可撤销的性质冲突。联盟认为该要求非必要,已有直接监管和执法机制,并建议参考欧盟 AI 法案的透明…

来源: GitHub Blog
链接: https://github.blog/news-insights/policy-news-and-insights/github-joins-coalition-advocating-for-fixes-to-california-ai-transparency-act-to-protect-open-source


五眼联盟警告:AI网络威胁数月内将影响普通用户

2026年6月22日,五眼联盟(美、英、加、澳、新)网络安全部门联合警告,即将到来的AI模型(如OpenAI的GPT-5.5-Cyber、Anthropic的Mythos)将降低编写复杂攻击代码的门槛。自动化智能体可全天候扫描互联网漏洞,大幅缩短安全窗口期。AI驱动的超个性化钓鱼诈骗已在亚太蔓延,印度2026年初勒索软件事件激增165%。五眼联盟建议企业部署自动化防御AI,个人用户开启多因素认证、…

来源: Artificial Intelligence News(RSS)
链接: https://www.artificialintelligence-news.com/news/five-eyes-warning-ai-cyber-threats


📄 AI论文

DFlash:块扩散草稿模型实现最高15倍吞吐量提升

DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt…

来源: MarkTechPost(RSS)
链接: https://www.marktechpost.com/2026/06/24/dflash-speculative-decoding-drafts-whole-token-blocks-in-parallel-for-up-to-15x-higher-throughput-on-nvidia-blackwell


AI招聘工具存在种族偏见和系统性排斥;黑人占比26%,亚裔占比15%

一项覆盖340万人、400万份申请、150家雇主和1700个职位的大规模实地研究发现,AI招聘筛选工具存在显著的种族歧视:26%的黑人申请者和15%的亚裔申请者遭遇算法对其族群的系统性排斥;若AI按推荐率最高群体(通常为白人)标准执行,将有4万份额外申请进入下一轮。多数雇主依赖同一第三方供应商算法,形成”算法单一文化”,导致10%提交4份申请者被所有职位拒绝。对比同期未用AI的招聘数据(8.3万份…

来源: Hacker News 热门(buzzing.cc 中文翻译)
链接: https://hai.stanford.edu/news/ai-hiring-tools-can-yield-racial-bias-and-systemic-rejection


九位评委,两个有效投票:相关错误削弱LLM评审面板

苹果机器学习研究团队发现,LLM-as-a-judge面板因模型间高度相关而严重受限。对7个模型家族的9个前沿大语言模型在3个自然语言推理数据集上的测试表明,9位评委实际仅提供约2个独立投票的信息量,面板准确率比独立投票理想值低8-22个百分点,最佳单一模型的表现已匹敌或超越整个面板。增加评委数量或改进聚合算法收效甚微,即使允许算法获取正确答案也仅能缩小至多11%的差距。该结论在多种提示变体、温度…

来源: Apple Machine Learning Research(RSS)
链接: https://machinelearning.apple.com/research/correlated-llm-evaluation-panels


💡 技巧与观点

里德·霍夫曼称SpaceX”不是一家人工智能公司”,xAI则是”彻底的灾难”

LinkedIn联合创始人、Anthropic和OpenAI投资者Reid Hoffman在播客中公开批评SpaceX和xAI。他指出SpaceX”不是一家人工智能公司”,6月12日上市后收购AI编程工具Cursor属于”花钱买相关性”;xAI则是”彻底的灾难”,所有11位联合创始人已离职,Grok模型在基准测试中落后于Anthropic和OpenAI。他还批评美国政府6月11日以出口管制为由强制…

来源: Hacker News 热门(buzzing.cc 中文翻译)
链接: https://fortune.com/2026/06/24/reid-hoffman-spacex-musk-openai-anthropic-gen-z-mistake


字节跳动技术副总裁洪定坤:AI Coding 的实践与探索

在火山引擎Force大会,字节跳动技术副总裁洪定坤分享AI Coding实践。过去一年,字节AI代码贡献率增长6倍,tokens消耗增长5倍,但过度关注单一指标可能失真—TRAE团队代码超90%由AI生成,人均需求吞吐率仅提升60%。900次实验显示,主流Coding模型组合代码正确率超80%,但可交付性仅40-60分;结合Harness基建后提升至80分。AI降低编程门槛但需优化指标、治理、协…

来源: 公众号:火山引擎
链接: https://mp.weixin.qq.com/s/mdmaAyUIvxE8WT_GEbF2wQ


MiniCPM-V 4.6 在 Apple Core AI 上高速运行

🥳感谢分享,@MLBoy_DaisukeMajima 🚀 MiniCPM-V 4.6 在设备上以这样的速度运行,实在令人印象深刻—尤其是在 Apple Core AI 上以不到 2B 参数跑出。 干得漂亮,推动高效多模态 AI 向前发展。🫡

来源: X:面壁智能 OpenBMB (@OpenBMB)
链接: https://x.com/OpenBMB/status/2069676334381728106


在 Transformers.js 中实验提议的跨源存储 API

Transformers.js 在浏览器中运行 AI 模型时,不同来源的 Web 应用会重复下载并缓存相同的模型资源(如 Xenova/whisper-tiny.en)和 Wasm 运行时文件(如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm),即使资源 URL 相同,浏览器因 Network Isolation Key 隔离缓存,单次 demo …

来源: Hugging Face:Blog(RSS)
链接: https://huggingface.co/blog/cross-origin-storage


huggingface_hub 实现每周发布:AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4-6 周缩短至每周,全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型(当前为 Z.ai 的 GLM-5.2)来起草发布说明和 Slack 公告,但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草…

来源: Hugging Face:Blog(RSS)
链接: https://huggingface.co/blog/huggingface-hub-release-ci


📋 关于本栏目

本页面每日23:00自动更新,内容由 AI HOT 提供原始数据,Hermes Agent 自动采集、分类、加工后发布到 agents-quant.com


自动生成于 2026-06-24 23:13 · Powered by Hermes Agent