联系我们

- 全国服务热线:
National Service
Hotline:
0898-08980898
- 手机:15200006666
- 电话:0898-08980898
- 邮箱:admin@youweb.com
- 地址:广东省清远市
一周AI大事:国产开源大模型杀疯了GPT-5难产内幕曝光
一、重磅工具:谷歌正式上线Gemini Deep Think——奥赛级大脑撬动AI新时代
新闻:谷歌宣布,其将在Gemini应用中为Google AI Ultra订阅用户正式开放Deep Think功能。这一功能是此前在国际数学奥林匹克竞赛中摘金的Deep Think模型的商业化版本。Deep Think通过并行思维技术和延长“思考”时间来提升推理与计算能力,在数学和编码基准测试中表现超群:在无需借助外部工具的情况下,HLE-Math测试得分率达34.8%;Live Code Bench测试得分率为86.6%;在美国高中数学挑战赛(AIME 2025)中得分率更是高达99.2%。可以说,Deep Think是迄今为止最智能的AI模型。
谷歌DeepMind已向数学家们提供了Deep Think特别试用版,但同时强调其应用范围远不止于此:Deep Think的优势不仅在于助力数学探索,在需要创造力和战略规划的工作中同样能大放异彩,例如解决复杂的编程难题以及迭代式网页设计。
锐评:当年被奥数劝退的我们,现在终于有机会花钱把“奥数金牌大脑”请回家了。
1. 新闻:智谱AI (Z.ai)发布了开源混合专家模型GLM-4.5。该模型拥有3550亿总参数和320亿激活参数,是一款开源混合专家(MoE)架构的AI推理模型。与其一同发布的还有轻量版模型GLM-4.5-Air,总参数为1060亿,激活参数120亿。这两款模型均采用支持“思考”与“非思考”模式的混合推理架构,并专为推理、编码和智能体应用进行了优化。目前GLM-4.5已登陆HuggingFace。
3. 新闻:Cogito发布v2系列开源混合推理模型。该系列涵盖70B、109B (MoE)、405B、671B (MoE) 四种规模。其中最大的671B MoE模型跻身全球最强开源推理模型之列,性能媲美最新的DeepSeek R1模型,但推理链更短。Cogito团队利用“迭代蒸馏与强化 (IDA)”技术,在四个非推理基础模型(Llama 3.3 70B、Llama 4 109B MoE、Llama 4.1 405B、DeepSeek v3 671B MoE)上进行训练,从而将推理过程内化于模型之中并提升其推理能力。该团队将此过程描述为“迭代式自我提升”。
4. 新闻:Runway推出Runway Aleph,为AI视频模型增加基于聊天的场景编辑功能。用户只需要通过对话式提示,就能移除、更改或添加人物、背景,甚至调整特效和摄像机角度。这无疑将交互式视频编辑推向了新的高度。一位用户在生成一段说唱歌手跳舞的视频后,惊叹道:“我刚用上RunwayML Aleph,简直太疯狂了!”
5. 新闻:阶跃星辰发布Step-3多模态推理模型。这是一款拥有3210亿总参数、380亿激活参数的多模态推理MoE模型,提供“高性价比的多模态智能”。Step-3在MMMU和MathVision基准测试中的得分率分别为74%和64%。该公司还发表了关于Step-3设计的论文,阐述其如何通过多矩阵分解注意力 (MFA) 等架构特性实现更高的模型推理效率。Step-3也是采用Apache 2.0许可协议的开源模型,已在HuggingFace上线。
6. 新闻:阿里巴巴推出开源MoE视频模型通义万相Wan2.2。该模型仅需单张4090 GPU,即可通过文本或图像生成5秒720p视频。Wan2.2支持文生视频和图生视频两种模式,并与Dffusers库兼容,目前已经在Hugging Face上线,标志着消费级AI视频生成模型的质量迈上了新台阶。
7. 新闻:Black Forest Labs与Krea AI联合发布FLUX.1 Krea [dev]。这是一款拥有120亿参数的文生图Transformer模型,其权重在非商业许可下开源。这款模型能输出带有独特“自然颗粒感”的图像,达到真实照片的效果,在遵循提示词方面优于许多同类开源模型,还支持LoRA微调。Black Forest Labs评价:“FLUX.1 Krea [dev] 克服当前AI图像普遍存在的过度饱和感,以独特的美学方法实现了写实主义的新高度。”
马斯克旗下聊天机器人Grok推出AI文生视频生成器Grok Imagine。马斯克在X社交平台上宣布了这一消息,他将其形容为“AI版的Vine”。用户只需输入文字描述想看的图像或场景,Grok Imagine就能将其转化为带有音效的视频片段。目前Grok Imagine处于测试阶段,正逐步向Grok聊天机器人的高级订阅用户开放,X平台用户都可以申请加入等待名单。
微软在Edge浏览器中引入Copilot模式,实现了AI功能的深度集成。Copilot支持语音导航,并可以通过查看用户所有打开的标签页,全面理解用户当前的工作或研究内容。微软CEO萨蒂亚·纳德拉 (Satya Nadella) 表示:“我最喜欢的功能是多标签页RAG。你可以让Copilot分析所有打开的标签页,就像我用它来分析我们团队过去一年在《自然》期刊上发表的论文一样。”
Manus AI推出实验性功能“Wide Research”,用于处理大规模、高吞吐量任务。该功能可为单一目标同时调用100多个并行的AI智能体,例如一次性比较100款运动鞋或生成50种设计风格。公司在博文中称,他们的智能体是“个人云计算平台”,旨在为用户扩展AI算力。“Wide Research”功能正在向Pro版用户逐步开放。
GPT-5难产内幕曝光。消息称OpenAI的GPT-5项目面临重重困境,其核心团队被Meta大规模挖角,导致内部组织架构混乱。同时,OpenAI遭遇严重数据瓶颈,高质量网络数据日趋紧张,大模型现有训练技巧失效,导致GPT-5未能实现技术突破,性能提升不如预期,甚至未达到GPT-3到GPT-4级别的跃升。
Meta挖角OpenAI前CTO团队遭拒。扎克伯格向OpenAI前首席技术官米拉·穆拉蒂(Mira Murati)创办的AI初创公司Thinking Machines Lab(TML)抛出橄榄枝。据知情人士透露,Meta已经接触了超过12名TML员工,并向其中一些人提供了极其丰厚的薪酬待遇。其中一份多年期合同的总报价甚至超过了10亿美元;其他报价则在2亿到5亿美元之间。但截至目前,TML尚未有任何员工接受这些报价。
谷歌与Cognition收购Windsurf的详情披露。谷歌斥资24亿美元收购Windsurf的技术和顶尖人才,这笔资金主要分配给投资者和约40名Windsurf员工(主要是联合创始人),导致Windsurf多数员工未能获得首批补偿。随后,Cognition以约2.5亿美元的价格收购Windsurf剩余部分,确保了所有剩余员工都获得补偿。
各家AI初创公司融资动态。OpenAI近期超额完成83亿美元融资,公司估值达到3000亿美元。OpenAI透露,公司年化收入达130亿美元,并预计年底将达到200亿美元。AI存储平台Vast Data正寻求新一轮融资,估值可能高达300亿美元。Vast Data为AI数据中心开发高效存储解决方案,2023年融资时估值为91亿美元。应用AI研究公司Fundamental Research Labs获得3300万美元的融资,公司开发的多款AI应用如通用消费助手Fairies和基于电子表格的智能体Shortcut均已产生营收。AI初创公司C8 Health筹集1200万美元,致力于解决医疗领域临床知识管理碎片化的问题。该公司开发的AI驱动平台可集中管理医院的最佳实践和规程,并通过移动端、桌面端和电子病历系统即时推送给工作人员。
扎克伯格称“超级智能已近在眼前”。Meta首席执行官马克·扎克伯格(Mark Zuckerberg) 发表了关于AI的最新宣言。他宣称“超级智能已近在眼前”,并阐述自己的AI愿景。 扎克伯格倡导发展“赋能每个人的个人超级智能”,这一理念与集中式自动化工作的思路形成对比,被外界解读为是在暗讽OpenAI。然而,扎克伯格的此次新声明并未像以往那样明确表态支持开源AI。如果Meta未来不再坚定支持开源AI模型,那将非常令人惋惜。
库克动员“打赢AI这场仗”。苹果公司首席执行官蒂姆·库克(Tim Cook)罕见召开一小时全员大会,向数万名员工传达了目标:苹果“必须”在人工智能领域取得胜利,并将为此投入“不设上限”的资源。库克援引公司发展史表示,苹果并非首次后发制人。“我们很少是第一个——Mac之前有PC,iPhone之前有智能手机,iPad之前有平板电脑,但我们都重新定义了现代标准。”他同时强调,“人工智能的影响将超越智能手机与互联网,因此苹果必须也必将这么做,否则我们就会落后。”
马斯克说AI将带来机器人大爆发。在7月29日的特斯拉活动上,公司首席执行官埃隆·马斯克(Elon Musk)展望称,擎天柱(Optimus)人形机器人到2026年年产量有望达到数百台,并设想其机器人业务年营收可突破30万亿美元。他形容AI发展速度如“超音速海啸”,有望彻底革新劳动力结构,消除大量体力劳动,迈向“物质极大丰富的新时代”。
皮查伊要省钱还要效率。在7月底召开的全体员工内部大会上,谷歌首席执行官桑德尔·皮查伊(Sundar Pichai)强调:“当下我们必须借助AI转型,实现更高生产率,并节约资源”。他表示,尽管公司将大幅增加AI相关投资,但同时需要“用更少的人力实现更多的产出”。
