生成式AI
一、 OpenAI新动静:开源推理模型、1小时百万新增、新融资
1. OpenAI宣布将在未来几个月开源首个推理模型,这是自GPT-2以来的首款开源模型,可在消费级硬件上运行;
2. ChatGPT过去一小时用户暴增百万,而首次达到百万用户曾用了5天时间;
3. OpenAI获得400亿美元融资(软银领投300亿),估值达3000亿美元,但须在年底前完成非营利向营利转型。
https://mp.weixin.qq.com/s/one6SAuEEd1rWl-BjewWiw
二、 DeepSeek-V3成绩超R1,被改造为免费「网页版Cursor」
1. 新版DeepSeek-V3-0324模型在竞技场击败DeepSeek-R1,成为开源模型排名第一,编码能力媲美顶尖闭源模型;
2. DeepSite是一款基于DeepSeek-V3的免费网页应用,可让用户一边开发一边看效果,被称为"网页版Cursor";
3. 实测表明DeepSite能一句话生成游戏和网站,但完成度和稳定性仍有限制,每天有使用次数限制。
https://mp.weixin.qq.com/s/ygQnKclaQ8Vw2HGhpRmKng
三、 Runway的Gen-4上线!保真度、一致性、可控性做到最强
1. Runway发布最新视频生成模型Gen-4,拥有迄今最高的画面保真度、动态流畅度和创作可控性;
2. 新能力让Gen-4能够利用视觉参考和文字指令创建连贯叙事,已用于制作多部短片和音乐视频;
3. Runway正面临知识产权诉讼风险,同时据报道正筹集新一轮融资,估值将达40亿美元,预计今年收入达3亿美元。
https://mp.weixin.qq.com/s/RDUOox7hi5TkaGo8_gYw9A
四、 一脑多机!智源研究院2项新发布,让不同机器人轻松协作
1. 智源研究院发布跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,实现跨场景多任务轻量化快速部署;
2. RoboBrain融合机器人任务规划、可操作区域感知和轨迹预测能力,在多项评测中超越GPT-4V、Claude3等模型;
3. RoboOS基于"大脑-小脑"分层架构,支持多种机器人协作,通过共享记忆系统实现跨本体协作,推动单机智能向群体智能发展。
https://mp.weixin.qq.com/s/c55U1z2c2V0ABXZCkJzTIg
五、 亚马逊Nova Act浏览器AI助手,预览版,测试得分超竞品
1. 亚马逊发布Nova Act通用AI Agent及SDK,能控制网页浏览器并执行简单操作,将为Alexa+提供关键功能;
2. Nova Act在内部测试中表现优于OpenAI和Anthropic产品,在ScreenSpot Web Text测试中得分94%,超过竞品;
3. Nova Act由亚马逊AGI实验室开发,该实验室由前OpenAI研究员David Luan和Pieter Abbeel领导,目标是创建能在计算机上完成任何人类任务的系统。
https://mp.weixin.qq.com/s/4nqQmy8DvJs1n1cxP4daXQ
六、 苹果visionOS 2.4 正式版来了,Apple Intelligence 正式「上头」
1. Apple Intelligence正式登陆Vision Pro,为用户提供写作工具、图像生成、智能回复和自然语言照片搜索等AI功能,目前仅限美式英语;
2. visionOS 2.4引入全新"空间画廊"应用,提供精选空间照片、视频和全景图内容,涵盖艺术、文化、自然等领域,将定期更新;
3. 苹果推出iPhone版Vision Pro应用,方便用户发现新空间体验、远程队列下载应用、访问设备信息,同时优化访客模式功能。
https://mp.weixin.qq.com/s/GIcL5VZKZbZcgbtwGb5sjA
前沿科技
七、 宇树发布灵巧手,单手20自由度(16主动+4被动),94灵敏触点
1. 宇树科技发布Dex5灵巧手,20自由度(16主动+4被动),94灵敏触点,能柔顺丝滑反向驱动(直接本体力控);
2. 从第一代Dex3-1三指(7自由度)升级为五指,拇指4个主动自由度,四指各3主动+1被动,实现抓、抛、捏、接、扭等精细动作;
3. 灵巧手作为人形机器人关键执行器,Dex5在主流第二代产品中表现优越,性能比肩特斯拉第二代产品。
https://mp.weixin.qq.com/s/P_AKLPISpmLARpjezL87Eg
报告观点
八、 a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一
1. 语音交互正成为AI应用最强突破口,技术进步使AI语音在延迟、人性化和情感表达方面已超越早期Siri和Alexa;
2. 创业领域热度高,25%YC公司投入AI语音开发,垂直领域应用从呼叫中心到招聘全面开花,小公司比巨头更具优势;
3. 优质AI语音产品需有个性和信任感,真实的对话伙伴比唯命是从的工具更有商业价值,用户情感连接是核心竞争力。
https://mp.weixin.qq.com/s/OC7g3f4X87W4YpostQLulw
九、 智谱AI CEO张鹏最新访谈:当下被忽略的大模型「反共识」
1. 智谱AI CEO张鹏认为Agent发展要"模型进,工程退",强调最终智能体应用会回归以模型为核心的结构,而非像Manus这样的工程化解决方案;
2. 智谱持"反共识"观点,坚持预训练大模型的重要性,认为它是大模型推理能力的天花板,即使当前行业关注度不高;
3. 面对DeepSeek等开源模型带来的变化,智谱AI将2025年定为开源年,同时强调"开源不等于完全免费",用户仍需投入技术人员、维护和本地化成本。