文丨程曼祺
编辑丨宋玮
被传 “放弃预训练,资金链紧张、被阿里收购……” 大模型独角兽零一万物发生了什么?
李开复说:“我们没有寻求被收购”,“我们还会继续做预训练”。
变动消息传出的第二天,零一万物 ceo 李开复 向《晚点 latepost》解释了实际发生的调整:
零一万物已与阿里云成立 “产业大模型联合实验室”,零一万物大部分训练和 ai infra 团队会加入该实验室,成为阿里员工。
这之后,零一万物将不再追求训练超级大模型,但会继续训练参数适中的更快、更便宜的模型,基于后者打造可以赚钱的应用。
这是第一家公开大幅调整发展方向的中国大模型独角兽。它成了过去两年大模型热潮的一个节点。
李开复总结了中国大模型创业的挑战:
2025 年会更好吗?李开复看到:应用爆发和商业化淘汰会一起发生。零一万物的机会是:挖掘 to b 大模型的 pmf。
“一些细分领域客户,会因为有了大模型而营业额翻倍,这是最好的 pmf,因为马上能产生巨大价值。我们已有一些尝试。” 李开复说。
访谈李开复的这天,中关村鼎好大厦——这里是他 2009 年创立的创新工场和 2023 年创立的零一万物的办公地——也即将入住一批新人:
字节跳动在北京的大模型研发团队正计划陆续集中至此。这家巨头被报道今年会投 70 亿美元做 ai 大模型,这超过所有中国大模型头部公司的融资总和。
中国大模型创业公司会全军覆没吗?李开复说,没有任何概率。因为一定会诞生颠覆式的 ai-first 应用。
去年 5 月我们访谈李开复时,他说想打造 agi 时代的微软。
“这个梦想算是破灭了吗?” 这次我们问。
“当然没有……只能说我们现在是从应用起步。谁都可以仰望星空,更重要的是脚踏实地。”
回应零一万物调整,“不会停止预训练,但不再追逐超大模型”
晚点 :这几天感觉累和疲惫吗?
李开复 :不是疲惫,就是让我觉得需要澄清,所以有了这次采访。
晚点 :传闻你们资金紧张、裁员,以及被阿里收购。实际发生了什么?
李开复 :我们和阿里成立了产业大模型联合实验室,依赖大厂训练更大的模型,帮助我们提升较小的模型。我们认为,一个商业公司需要非常快而便宜的模型,然后在上面打造可以赚钱的应用。
晚点 :除了目前和阿里合作的这种调整外,谈论过别的可能吗?比如被收购。
李开复 :我们没有寻求过被收购,我们有独特的价值。
但任何一个创业公司——我也在创新工场投了很多公司——都要考虑投资人。如果收购是最好的结局,公司有责任考虑这个选项。
晚点 :阿里是否会接收你们大部分的预训练和 ai infra 团队?
李开复 :零一万物有能力,也想做超大集群 infrastructure 和训练的人确实会加入联合实验室,成为阿里的员工。
晚点 :这意味着零一要放弃预训练吗?
李开复 :我们还会做预训练。
我认为以后预训练会分叉:一个是训练超大模型,这是在追寻 agi,但它会很贵。这部分我们其实很早就放弃了。
晚点 :所以零一放弃追寻 agi 了?
李开复 :仰望星空追寻 agi 需要充足甚至不计代价的弹药储备,脚踏实地来看,我们现阶段的最高优先级是先巩固拿到弹药的实力。
晚点 :“很早就放弃了”,是指什么时候?
李开复 :上次我们谈时是去年 5 月,那时我们发布了 yi-large,它是在往超大模型走。但当时我们就有一个认知,这个模型并不快,也不便宜。
所以就开始面临一个抉择:我是要花更多 gpu 和资源,烧更大的模型?还是务实一些,做一个可以落地、赚钱的商业公司?
晚点 :什么时候做出了决断?
李开复 :当时就发生了,你还记得我们那时谈到了一个 yi-x-large 模型的计划吗?它是比 yi-large 更大的版本。我们去年 5 月到 6 月就决定放弃了。
晚点 :没有放弃的部分是什么?
李开复 :训练更快、更便宜的模型。
我们决定不做 yi-x-large 的同时,已经在同步做 moe(混合专家系统模型,优点是推理成本更低、速度更快),就是去年 10 月推出的 yi-lightning,它的速度比 yi-large 快好几倍,而价钱只有 gpt-4o 的 1/30。我们现在也正在做 yi-lightning-v2。
晚点 :你之前说过,零一的优势之一就是你们自己做 ai infra 和推理引擎,能主动大幅降低训练和推理成本。现在你们的 infra 团队去了和阿里的联合实验室,这个优势还在吗?
李开复 :我们现在仍有一个较小的训练团队和 infra 团队,他们会继续做 “模应一体”,并且未来联合实验室的技术我们也能利用。
晚点 :各大模型系列都会有不同大小的版本,你们现在和阿里有这么深入的合作,继续自己训练更快、更便宜模型的必要性是什么?
李开复 :还是我之前的判断——当预训练结果已经不如开源模型时,每个公司都不应该执着于预训练。
而 yi-lightning 现在的成本和表现仍不能被开源替代,我们还是会专注用自己的好模型打造好应用。好的定义可以是:够小、够快、够便宜、够厉害。如果有一天真被替代了,我们会做出务实的选择。
晚点 :你们和阿里的合作中,他们除了接收部分零一的团队,需要支付其它费用吗?这是否类似一种收购?
李开复 :细节还不方便披露。但可以明确说,不是公司资产收购。
晚点 :除了阿里,你们和字节有沟通类似的合作可能吗?
李开复 :阿里是我们投资人,所以沟通更多。
晚点 :阿里为何愿意合作?我收集到两种想法:一是不想让自己的投资“打水漂”,二是为了收集人才。
李开复 :阿里的反馈你需要问阿里。可以说的是,联合实验室的合作是基于我们各自的优势,达成了战略和技术产品路线的共识,我们会加速在技术、平台、应用等方面的共享共建,开启中国“大厂+小虎“的合作新范式。
晚点 :零一的管理团队会怎么变化?
李开复 :还是祁瑞峰负责销售,谷雪梅负责模型训练和 to c 产品,马杰负责 to b,然后 cmo 是 anita(黄蕙雯)。我的-1 其实基本一直没变,只是职责有调整。
晚点 :我们了解到,零一也在推进拆分一些业务,比如把游戏应用拆成一个子公司,独立对外融资,这是出于什么考虑?
李开复 :还是一些准备,没有真的执行完。
晚点 :去年 5 月那次访谈,你说零一要做就想做成一个万亿美元公司,要做成 agi 时代的微软。这个梦想算是破灭了吗?
李开复 :当然没有,但是我暂时不会去想它。
当时我觉得最有价值的公司是 ai 时代的微软,今天还没有谁做出来,每家公司都还有机会。只能说我们现在是从应用起步,微软的第一个产品, basic 编译器,也是应用。
谁都可以仰望星空,更重要的是脚踏实地。
“只有大公司能继续做超大模型;scaling law 在变慢;商业化灵魂拷问时刻已经到来”
晚点 :现在零一的定位和方向,与去年 5 月你描述的展望已有很大差别,这些变化很突然。
李开复 :这件事没有一个突然的起因,也不是被动的调整,是去年 5 月开始萌芽,第三季度看到需要走这条路,之后跟阿里讨论,这一个月做了执行。
一部分是因为行业变了,一部分是因为认知变了。
晚点 :从去年 5 月到现在,哪些行业和认知变化导致了现在的选择?
李开复 :主要是三件事,第一,从商业角度考虑,我们认为只有大公司能继续做超大模型,第二,scaling law 在变慢,第三,商业化灵魂拷问的时刻已经到来。
第一件事,我们去年 5 月就意识到了:我们认为 2025 年是应用爆发年,这需要能支持普惠应用的、够快、够便宜的模型。所以我们重新定义了目标:不是要烧世界上最贵、最大、表现第一的模型,而是要做足够便宜、足够快的模型。
现在市场上最主流的模型也都是像 yi-lightning 这样更小的模型,比如 gpt-4o mini 和 anthropic 的 claude 3.5 sonnet。它们的性能即使不是最顶尖,支持应用也足够了。
到 9、10 月时,我们也看到 scaling law 明显进入 diminishing return(收益递减)。不是说用更多算力和数据做不出进步,而是进步不符合投资回报。举个例子:从一张卡加到 10 张卡时,可以达到 9.5 张卡的价值,但从 10 万张卡加到 100 万张卡,也许只能达到 30 万张卡的价值。另外,如 ilya 所说,互联网数据资源就像化石燃料般正逐渐枯竭,虽然算力还在提升,但数据增长速度已见顶。
晚点 :scaling law 变缓,几乎所有 ai 公司都感受到了。但最头部的公司还是在持续做超大模型。
李开复 :因为这并不代表超大模型就彻底没用了,超大模型一个非常重要的用处,就是可以做教师模型。
这个趋势不是我发明的。你看 anthropic 的 opus 模型后来就不给外面用了,为什么?因为它就是用来做教师模型。
就我们了解,opus 其实训练得挺好,但太大、太贵、太慢,对外也卖不了多少,卖出去的也是被竞品用作教师模型,那还不如留着训练 sonnet,然后卖 sonnet。
(注:anthropic claude 系列模型从大到小,分为 opus、sonnet 和 haiku 3 个版本。opus 最大、最贵。claude 3 发布了全部 3 个版本,而 claude 3.5 目前只对外发布了 sonnet 和 haiku。)
晚点 :openai gpt-5 迟迟不发布,和这个趋势有关吗?
李开复 :gpt-5,或者也可能叫 4.5,这个还没定论,但 openai 已经做出来了,在内部测试效果。它确实更好了,但好的程度不匹配它带来的延迟和成本。
它会不会对外卖,我不知道,但它绝对扮演着把 gpt 其它小模型提升一遍的功能,就是提升 “学生” 的能力,然后再用 “学生” 来做应用普及。
晚点 :在技术上,作为教师模型的超大模型,具体怎么提升其它更小模型的能力?
李开复 :一是可以标注一些结果,这能大大提升后训练的效果。
二是超大模型可以生成合成数据,合成数据可以用作训练新模型。比如像 yi-lightning 这样的模型,数据到达一定量级之后(训练效果)会饱和,合成数据虽然不能完全替代真实数据,但可以帮助生成更好的数据,让它饱和之后再上一个台阶。
晚点 :你举的例子里,anthropic 和 openai 都是自己在做教师模型。
李开复 :中国公司面临芯片的限制,融资额和估值也远低于类似的美国公司。如果你一年烧 5 亿美金,就算融了十几亿美金,也会马上面临拷问。
所以只有那些真心想做 agi,想做世界最大、最棒、最牛模型的公司能继续做超大模型。这个成本、代价会非常高,绝对不是一个初创公司可以做的事。创业公司去和大厂比,谁能烧出更大的模型,最终不会成功。
晚点 :所以你们选择了 “抱大腿”?
李开复 :因为我们自己做不起教师,那谁来做,就是大厂。你要是说抱大腿,也行。我们应该勇敢地做这个决策,因为它符合趋势,也让我们可以轻装上阵。
做一个很棒的手机应用,需要重做一个安卓吗?做一个很棒的 pc 应用,需要重做一个 windows 吗?以后这种超大模型的能力肯定是靠大厂。
晚点 :openai o1 的出现,看起来会打开 scaling law 的第二曲线。这会怎么影响你的上述判断?
李开复 :我恰恰觉得,一个非常快的推理模型,在 o1 之后的 inference-time scaling law 时代更符合趋势。因为慢思考和长思考会拉长响应时间。之前只有一步思考,就算你比别人快 5 倍,用户收益也不明显。但如果是多步思考,就会放大推理速度的差距,慢的模型在一些场景会不可忍受。
我们自己做了非常快的推理引擎,以后可以做更多实验,这也是我们选择更快、更便宜路径的另一个原因。
(注:o1 会 “像人一样” 分步思考问题,它通过把更多算力资源放到推理(inference)阶段,来提升模型表现。)
晚点 :零一是第一个和大厂做 “教师-学生” 合作的,未来会有更多中国创业公司有相似动作吗?
李开复 :我不想评估别的公司,但我觉得,全世界每个较小规模的大模型公司都要考虑这 4 件事:
“从信仰 scaling law 到怀疑 scaling law 只花了一年时间”
晚点 :接下来可以来聊一聊你说的商业化灵魂拷问。其实大模型创业热潮才两年,为什么现在就进入拷问时刻?
李开复 :因为大模型时代,一切都加快了。如果我们回看 ai 1.0 时代,技术就是深度学习;应用是从视觉逐渐切入其它,一个个慢慢来。
公司的发展,从谁的人最牛、论文最多、比赛成绩最好,慢慢进入商业里程碑,谁能拿下一个大单,谁能再多拿几单,谁能商业扩张;最终灵魂拷问是——不考虑你是个 ai 公司,你的财务报表能不能上市。这不是终点,但是一个重要里程碑,投资人能退出,公司能带着更多信誉往前走。这个过程,商汤等 ai 1.0 公司普遍走了 6-8 年。
现在一切都加快了。技术迭代加快了,我们从信仰 scaling law 到怀疑 scaling law 只花了一年时间。过去不是这样,摩尔定律支撑了多久?
灵魂拷问也来得更快。因为要烧 scaling law 的创业公司会烧钱更多、更快。所以我们更应该做一个符合商业逻辑、对投资人负责,能确保活下来的商业模式。这才能面对最后的灵魂拷问:你到底能不能把技术转换成商业价值,先有收入,再增加收入,然后收窄亏损,最终从单点盈利到多点持续盈利。这个过程必须加快。
晚点 :怎么回答这个拷问?
李开复 :可以拆分成几个题目:第一,你到底懂不懂商业运作?第二,这个事情到底能实现多少收入?第三,能实现多少收入增长?第四,能不能控制成本。
从我的角度,有几个重要的原则:第一是,不打打不赢的仗。如果一个行业你没有验证负担得起的 pmf(产品市场匹配),或一定程度验证了,但面临巨头的强碾压,这个仗是不能打。
第二,不能去做大量看不到回报的投入。比如有些 to c 应用,一旦停止投放,用户就不增加了,或即使它有一定自然增长,也需要不断输血、亏损才能维持行业地位。类似的还有付费不高、不创造核心价值的 to b 招标,它会变成恶性循环:付费少,很难做好,客户就不满意,ai 公司也赚不到钱。
晚点 :这么严苛的原则下,能投入的商业化方向岂不是很少?
李开复 :这就是一个难解的局,to b、to c、国内、国外,都不容易做。
国内 to c 很难有收入,而且巨头掌握用户和流量。国内 to b,大部分案子不能赚钱,项目制的案子还不见得能复制,然后国外 to b 我们根本不会做。
这么难解的一个局的前提下,还有一个问题:如果你还要烧巨大的模型,还有 5000 张、10000 张卡,每年带来 2-3 亿美金的成本,这些成本怎么分摊到业务收入上去?如果你的亏损是收入的 5 倍、10 倍、20 倍,灵魂拷问就会失败。我在朋友圈里说 “2025 年是商业化淘汰年”,就是这么一回事。
所以作为一个 ai 创业公司,我们要把用在 gpu 上的钱当做一个 business expense(营业费用),就和买电脑、出差经费一样。
如果决定要买 gpu,要花多少钱?一年花几次?可以得到多少回报?这些都要回答清楚。你问任何一个公司的 ceo、cfo 或采购:买或不买电脑对公司的影响,他都能清楚告诉你。
晚点 :这还是早期创业公司的逻辑吗?
李开复 :初创期不用考虑这个,我们去年就没考虑,但现在灵魂拷问来得更快了。
晚点 :如果长板足够长,是否可以推迟拷问到来的时间?比如模型特别惊艳,或产品增长数据特别好。
李开复 :当然可以。但我们现在看到的中国打法是把推理成本降低。我们的模型是在变快,但这件事怎么转换成钱?还是要回答拷问。
晚点 :零一可以把长板做得特别长,先不考虑收入和盈利吗?
李开复 :这是一个平衡问题。我和我的团队,做收入是有信心的,做增长我们会试。
做模型有很长的长板,坦诚说,中国今天还没有一个公司做出来了。
晚点 :最近很受关注的 deepseek 算做到了吗?
李开复 :deepseek 做得非常好,它的优势跟我们类似,对比美国最强的模型,deepseek 和 yi-lightning 是性价比高,而美国顶级模型是绝对 performance 更好。
我们非常尊重 deepseek。但如果真要说长板特别长,可能还要观察。
“2025 年零一会有数亿收入”,怎么来
晚点 :零一现在的思路是直面更快到来的商业化拷问,你昨天在朋友圈也提到, 2024 年你们的实际收入已超 1 亿元人民币,2025 年还会翻数倍。具体要怎么做到?
李开复 :我们应该是 2023 年新成立的 4 家大模型六小虎里(智谱 ai 和 minimax 两家六小虎在 2023 年之前已成立),第一家做到 1 亿收入的,这离上市还远得很。但作为第一个运营年,有 1 亿元收入,是一个挺自豪且挺独特的事。
我们的海外 to c 产品基本已打平,接下来有机会盈利。国内的 to b 落地场景里,我们在游戏、能源、汽车、金融领域,也都在谈千万以上的单子。而且基本都是软件单,不是打包卖硬件、卖服务器。下一个阶段我们会继续放大这些领域,也会进入我们有机会的新领域。
晚点 :进这么多 to b 领域,会不会重蹈 ai 1.0 的老路:在好多场景里接了定制化、高难度的订单,被交付拖得步履沉重。
李开复 :有些领域我们不见得自己做,我们会和行业公司共创,一起设合资公司,对方出行业 know-how 和一些可分享的垂类数据,我们出技术,一起做细分行业模型和更好的行业c7娱乐麻将胡了的解决方案。
现在整个行业的一个挑战就是,客户和技术提供商不是双赢,而是一方压价,另一方因为没有利润只能随便做做。如果能结合对方的行业 know-how、数据和我们的技术,做合资公司,做大两边都有钱赚,做得不好两边都有亏损,这样更能创造价值。我有把握,在 25 年能有数倍收入增长,从 1 亿做到数亿。
晚点 :明年,后年呢?to b 怎么保证收入增长可持续、可预测,是一个老问题。
李开复 :有 3 种 to b 可以做:一是能给客户创造核心价值的,就是不仅帮它省钱,还能帮他赚钱。
二是在一些特别垂直又适合大模型的领域,找到一家有远见的公司和 ceo,对方愿意和大模型公司一起共创。这对企业是个巨大的决定和投入,这种单子肯定不多,但每个都是金矿。
第三就是做方案有复制性的领域,服务第一个客户时可能不赚钱,但后面还有 20 个、100 个。
中国大模型创业公司会全军覆没吗?——“没有任何概率”
晚点 :2024 年,零一陆续有中高层离开,包括前预训练负责人黄文灏、生产力 to c 产品负责人曹大鹏、多模态研发负责人潘欣等,这是从之前追求更大模型,到准备接受拷问的调整带来的吗?
李开复 :每个人离职可能有不同理由,有些是想追求 agi,有些可能是禁不住诱惑。大厂突然要来天价来挖人,每个创业公司都遇到了。
我只能说我们初创时的我的 -1 基本都还在,我们是靠这些人去不断找优秀的人。
晚点 :黄文灏是不是字节高层亲自来挖的?
李开复 :(笑)我不知道。
晚点 :中国大模型创业公司全军覆没,这个概率有多大?
李开复 :没有任何概率。
这些公司都很聪明,都有很多资金,所以都会找到自己的方向,我还是坚信一个判断——三年后,没有一个公司会被认为是大模型公司。就像今天你不会说字节、美团是移动互联网公司,你会说它们是社交、内容、外卖、电商公司。
晚点 :我说的全军覆没,不是指这些公司死掉,而是指它们没有像一些人期待的那样成为新一代巨头,这轮技术变化的绝大部分成果会被现有科技巨头获得。
李开复 :如果真是这样,就代表了 ai-first 应用没有想象中那么颠覆,所以我不认为这会发生。
因为每一个足够颠覆的 ai-first 应用,都是一个创业公司的机会。从互联网到移动互联网,搜索没怎么被颠覆,所以 google、百度依然很强,但出行、短视频、支付、本地生活……确实是移动互联网的新应用,它们需要 mobile-first 的特性才成立:标记地理位置、随身携带等等。
晚点 :那么 ai-first 应用的核心特性是什么?
李开复 :用自然语言做交互,有通用推理和理解能力。还有一个判断方法——就是一个应用如果没有大模型就不成立,那它肯定是 ai-first 应用,比如主要由 ai 来写作的工具;缺少不了 “ai 朋友” 的社交网络等等。
只要 ai-first 成立,就会有非常多的创业公司跑出来,我坚持认为这才是高概率事件。ai 是比移动互联网更颠覆的技术。
“等了 40 多年,不试才是遗憾”
晚点 :上一次聊时,我们讨论过一个问题,就是其实你没有必要自己到一线创业,和你行业地位、人生阶段相似的人,更多是选择支持一个公司,而你却自己当 ceo,主动跳入了这个混战。回头看,会后悔这个选择吗?
李开复 :不会,我之所以决定做这件事,是看到它特别适合我的背景,它包括了技术、产品、投融资和商业运作,我能给这件事带来独特价值。
每个创业的过程中,都会有跌荡起伏和调整。如果一个 ceo 碰到一点挑战就开始后悔,这样的人没资格做 ceo。
晚点 :功成名就时再来做一个新公司,会不会有额外的包袱?
李开复 :我没有。反而是,如果等了四十多年,终于等到了 ai 时代,我却没有出来做我擅长做的事,没有去试一把,这会成为终身遗憾。
晚点 :你之前投资过很多公司,也深度孵化过科技创业公司,自己创业这两年,你的成长是什么?
李开复 :不要针对不可能的目标盲目投入;机会来临时,要勇敢做决策,机会消失时也是。
还有,要能对未来有一个比较清晰的预测,基于这个预测,提前做调整。我们今天就是在这么做。
晚点 :你对 2025 年的预测是什么?
李开复 :第一是会有大量 to c 应用爆发。
第二是,我们会挖掘到 to b 大模型的 pmf,这指靠大模型才能满足的 to b 真实需求,大量 ai-first 细分行业模型也会爆发。它的主要价值不是在金融、保险这些大行业,而是在垂直行业里;行业老大不一定特别大,但它们的营业额会因为有大模型而翻倍。这是最好的 pmf,因为马上能产生巨大价值。我们已经有一些尝试,现在还不能剧透太多。
晚点 :关于 2025 年的应用爆发点,现在被讨论很多的方向是推理能力提升后打开了 agent(智能体)应用的更多可能。你怎么推演 agent 2025 年的发展,零一可能会做哪些尝试?
李开复 :我们对 agent 已经做了一些探索,怎么让大模型从能言善道到理解并执行一系列逻辑,从能处理单指令到多个指令。
现阶段大模型要落地为智能体,距离 “点石成金” 还有很多难点,通用的 agent 平台还需要时间。但在一些垂直领域,比如法律、游戏、金融服务领域,我们已经在和pg电子游戏的合作伙伴一起开发行业模型 agent。
晚点 :之前向你搜集对 good ai 的看法时,你说:工作其实是工业革命遗留下的魔咒,你希望能出现一个将人类从繁冗的重复劳动中解放的 “super agent”。如果真有了 “super agent”,你会把时间用来干什么?
李开复 :继续做我热爱的工作,只要这个工作还没被 ai 取代。花更多时间和我爱的人在一起,这一定是 ai 做不了的。
晚点 :想对其他大模型公司创始人说什么?
李开复 :王慧文说过一句话,每一位都是勇士,我们应该彼此鼓励。
晚点 :最后问一个轻松点的问题,2025 年的新年愿望是?
李开复 :两个女儿职场顺利,情场顺利。
证明零一万物今天做出的决定是正确的决定。
题图来源:视觉中国
亚洲激惰小说 | 3天前 |
插进小骚穴视频啊啊啊啊 |
大神潜入商场偷拍女生嘘嘘 | 3天前 |
正能量c7娱乐麻将胡了官网在线免费看 |
呤霖色色 | 6天前 |
iiixxxx18 |
日本70岁老熟女摄a∨初摄jrzd六十影片 | 0天前 |
久久yyy |
狠狠躁天天躁无码中文字幕一 | 6天前 |
大黑屄小说 |
日本男女fuck | 5天前 |
特黄黄片免费 |
胖太太日逼 | 4天前 |
粗大肥胖枯瘦毛 |
综合熟妇自拍 | 0天前 |
陪上司连续出差7天吉泽 |
日韩无码一级电影 | 5天前 |
淫乱浪妇娜娜 |
泉麻里香无码视频 | 1天前 |
啊好大好骚进来 |