你的位置:创序服务有限公司 > 产品中心 > 半年20余倍增长,一个中国Token工场的生意飞轮
产品中心
半年20余倍增长,一个中国Token工场的生意飞轮
发布日期:2026-06-22 18:31    点击次数:107

半年20余倍增长,一个中国Token工场的生意飞轮

出品|虎嗅科技组

作家|陈伊凡

剪辑|苗正卿

头图|AI生成

这是虎嗅WAIC“跟踪Token交易新范式”系列著述第【03】期。

畴昔两年,Token的分娩成本一直鄙人降,但售价却一直涨。

看起来反覆无常的事,背后是一笔基于Token交易模式渐渐熏陶而竖立的生意。

硬件和模子,这几年不停优化迭代,险些王人指向吞并个标的:更便宜的推理、更便宜的算力。

但另一面,是渐渐熏陶的智能体以及依然闭环的业务。“真实靠AI赚到钱的东说念主,根蒂不会被价钱劝退,只会寡言想办法降本。”夏立雪说,他险些莫得任何想考时候就下了这个判断,似乎是依然提前看解析了这个问题。他是无问芯穹的合资独创东说念主兼CEO。这家2023年竖立的、与清华大学电子工程系有深厚渊源的公司,作念的一部分事情,在行业里有一个越来越流行的说法:Token工场。

可能很难在市集上找到对标无问芯穹模式的公司,其卡住了一个此前未被发现的场景,或是长在了跟着AI需求拉动而新出身的结构洞上的改进模式。它不研发通用大模子,不作念芯片,也不作念面向C端的运用,它坐在芯片和模子之间,把供不应求的算力资源进行革新、匹配、优化,更高效地迁徙为Token,芯片厂商、模子厂商、运用厂商等各方王人需要在无问芯穹的Agentic Infra体系上集成,由无问芯穹进行革新和分派,这是一种由技能最初的软件与算法界说的交易模式。

这种特殊的模式让无问芯穹比任何一个在Token产业链上的公司王人能率先感知始于青萍之末的变化。

我在上海模速空间无问芯穹的会议室见到夏立雪,玄色的公司文化衫,语速极快,说到技能问题,似乎进入一种“心流”情状。模速空间是上海AI改进的核心,以无问芯穹为圆心的2公里,产业链的险峻游在此集聚。

据公司本年5月知道,客岁12月到本年4月底,无问芯穹的Agentic MaaS业务中,Token调用量增速跨越20倍,这是畴昔从未有过的增长。

这个数字背后,是一件依然成为现实的事:推理,正在成为比老师大得多的市集。

畴昔三年,AI产业的叙事干线是老师。谁有更多GPU,谁老师出更大的模子,谁就站在食品链顶端。算力竞赛的逻辑了了恶毒:堆卡、堆电力、堆钱。英伟达的H100在暗盘上卖到六位数好意思元,致使要靠提前囤货。

但2025年底运行,这个逻辑变了。2026年推理的数据量初次跨越了老师。证据国际数据机构统计,2026年全球企业在推理基础设施上的成本开销瞻望达680亿好意思元,而老师基础设施开销为450亿好意思元。

当AI不再仅仅回应一个问题,而是要完成一项复杂的任务:写齐备的代码、审阅一份公约、抓续跟进一个边幅,它蹧跶的Token数目是聊天场景的几十倍致使上百倍。无问芯穹的数据是,在其Agentic MaaS平台调用的Token中,95%以上王人是智能体场景。

推理需求的爆发,正在把AI产业链的价值重点往下移。芯片制造商、模子公司、云工作商,每一层王人在重新订价,而位处核心的基础设施工作商,正在从“管说念”变成“工场”,又从工场变为在价值链领有更大影响力的Token分娩力迁徙。

臆测这个工场运转得好不好,无问芯穹里面有一个方针:每月能产出若干有价值的万亿参数级模子的Token。这个方针隔断来看,有两个臆测模范,一个是效率:单元时候的token产出量;另一半是建壮性,系统能弗成一语气不宕机地跑下去。两个方针,在万亿参数大模子场景下,无问芯穹畴昔一两年完毕了5到10倍的性价比莳植。

在无问芯穹,有一个公式:AI分娩力=智能范畴*Token分娩效率*Token价值迁徙。

当Token业务在产业中能完毕交易化闭环的时候,就能为市集提供更充沛、更建壮、更高性价比的优质Token,进而在产业内获取口碑,眩惑更多用户使用。

拿到更多需求之后,也能索取出更好的优化空间,一方面是斗争到更多真实场景,不错明确不同优化技能在场景中的价值;另一方面是需求鼓胀多的情况下,资源分派的疗养空间更大,需求种类越丰富,和非同质化资源的适配可能性就越多,M种模子乘以N种芯片的优化空间也会越来越大。

这也解释了为什么agent的崛起对无问芯穹是一个乘数效应,而非加法。

在这套公式下,飞轮正在动弹。

推理需求爆发,国产芯片和处治决策正在迎来全新的契机,这件事与也曾在这个领域常见的国产替代叙事天渊之别。中国芯片厂商对成本的敏锐和工程化的材干,正在为这个产业链带来在全球市集角逐的竞争力。

AI算力市集的现实是:芯片种类越来越多,但莫得哪一张芯片能高效跑总共任务;模子范畴越来越大,单机八卡早就存不下万亿参数的模子,需要集群配合;不同的推理任务,对延长、混沌量、精度的条件天渊之别。这一切类似在沿途,让“把算力用好”这件事,变成了一个极其复杂的系统工程问题。固然,这亦然中国工程化材干上风的体现。

这个判断在推理侧,prefill和decode的分离上得到了具体考证。大模子推理分为两个阶段:prefill负责相识输入、构建险峻文,谋略密集;decode负责缓缓生成输出,通讯密集、对延长更敏锐。两种任务对芯片的条件统统不同。这是AI算力讲究化需求下爆发出的新的场景。

依托团队耐久在软硬协同等方面的技能积贮,无问芯穹很早就运行深度磋议P/D分离,把两类任务分派给更稳健的芯片——国产芯片在prefill场景依然不错落地,这意味着供不应求的市集里,国产算力有了真实的效用点,不再黑白黑即白的“能弗成用”,而是“在那边用最合适”,致使是“用好”。

无问芯穹以token手脚其AI分娩力公式的核心变量之一,是在2026年,这意味着通盘公司的优化主见,变为在“若何把芯片用满”的基础上,还要处治“若何让每一个Token产生最大价值”——技能优化检朴的成本,奏凯迁徙为毛利,再干与下一轮研发,造成正向轮回。Token,正在成为AI产业里最接近货币的单元。它不错被分娩、被蹧跶、被订价、被来回。

更大的判断,夏立雪用了一个类比:Token的爆发,像极了移动互联网从3G到4G的阶段。

但他补了一句,4G期间最蹙迫的“运用”不是微信,也不是淘宝,而是那些充分使用流量、勇于在流量便宜之后重新规划组织的公司。到了token期间,真实改动产业方式的就怕是某一款杀手级AI运用,而是那些用AI重构里面单干、让东说念主和AI真实配合起来的微型组织——十东说念主、二十东说念主,致使一两个东说念主,但分娩效率远超传统同范畴团队。

这类组织依然在出现了。“咫尺无须惦念莫得运用场景,核心是咱们能弗成接得住这样多需求。”

这句话引出了无问芯穹正在作念的下一步:跳出纯token工场的规模,运行介入Token的分娩力迁徙法子。

结构洞上长出的改进模式

虎嗅:当华为、中兴等这些系统厂商他们也在用集群的形势提高Token的性价比,无问芯穹这个模式的壁垒在那边?

夏立雪:上层的壁垒是咱们在软硬协同领域有充足的积贮和熏陶效果。咱们是基于系统算法作念硬件适配优化,不针对单一硬件厂商或单一模子,材干不错掩盖产业全生态,是中立的第三方,技能适配性强,在种种场景下王人不错使用。

其次,咱们的视线是面向通盘供不应求的产业作念布局,把市集上总共芯片产能王人手脚优化的输入变量,最终完毕让通盘生态中总共现存主体王人进展最大价值。这不是单点的一双一优化,当产业生态复杂度莳植——比如出现多种模子、多种芯片并存的情况,咱们这种大体系资源优化材干就会造成生态层面的壁垒。

咱们团队内在的核心壁垒是遥远跟进业界最新的发展变化。此前作念宽阔模子和MoE优化,之后又针对万亿参数模子难以在单一硬件上范畴化扩展的问题,很早就运行深度磋议P/D分离和半分离联系技能,咫尺也在研发不错各别化体现国产芯片材干的联系技能。

咱们的壁垒不是单点的技能最初,而是系统化的、滚动式的抓续改进。

虎嗅:从芯片到模子之间存在中间优化的空间,针对Token经济学,不同厂商也建议了不同的处治决策,举例华为和一些芯片厂商建议的“超节点”的要领,以集群材干应答单卡算力不及,从无问芯穹的态度,如何设立中间的优化层?

夏立雪:咫尺是算法牵引系统、硬件和集群建造的期间,咱们和芯片厂商有共同的主见,便是要完毕真实的产业落地,惟有各方能对接上、跑通业务,便是好的生态。芯片厂商最核心的是要作念好我方的“居品证实书”,而若何把芯片这个复杂精密的硬件用好,是咱们手脚行业大众要作念的事。咫尺国内种种各样的芯片王人有类似CUDA的层,有CAN、SUCA、MARCA等不同的架构,咱们的生态便是把这些架构合资接入、革新、讲究化经管和资源分派,保证工作建壮,最终完毕交易化闭环。

虎嗅:有莫得具体的数字证实客户选拔你们的决策,在同等推理任务和同等效果下,Token成本着落了若干?建壮性达到了什么进度?

夏立雪:比如在万亿参数范畴的大模子场景下,咱们完毕的token每秒产能对应的性价比和一两年前比较依然作念到了五到十倍的着落,这是软硬协同优化带来的运行成本着落。

Token产能有两个核心维度,一个是微不雅运行层面的分娩效率,也便是单元时候内的Token产出量;另一个是宏不雅层面的建壮性,幸免频频停机真贵导致实验产能着落。咱们在这两个方针上王人取得了很好的效果,最奏凯的证明便是客户王人在抓续使用咱们的工作。

虎嗅:里面最垂青的核心方针是什么?

夏立雪:本色上最终王人会归拢到单元时候内的Token产出量,最新永久免费ÄV无码网站这是考试优化效果的独一方针。咱们核心关注的是无问芯穹每月能够产生若干有价值的万亿参数大模子的Token。

这个方针下涵盖两个部分:一个是Token每秒的分娩效率,另一个是可参与分娩的资源范畴。软硬协同优化中也包含大范畴系统建壮性的优化,这点往往被忽略,但颠倒蹙迫。

因为当咱们从小而好意思的技能团队转向系统工作商时,需要为客户委派大范畴抓续建壮的业务,范畴的蔓延必须以建壮性手脚维持。

虎嗅:2026年被认为是推理大年,你们哪条业务线有显明增速?

夏立雪:以公司Agentic MaaS平台为例,从2025年年底到本年5月,Token调用量增速在20倍以上。而且这种增长是健康的结构化增长,是多种需求同期存在、有分层结构的增长,并降低以抓续的单点增长。

咫尺通盘模子产业的发展类似金字塔从底部朝上大肆,顶端运用在不停拓展新的需求领域,AI依然不错完毕写代码、作念规划、作念营销,畴昔还可能掩盖法律等场景。推理需求的快速增长带动了全产业链的健康发展,掩盖模子公司、运用公司、基础设施工作商致使芯片公司。

从这一年的教诲来看,全链路王人完成数字化、总共信号王人不错在数字全国闭环的任务和组织,会更快进入自我闭环的迭代,也会最优先吃到AI进化带来的红利乃至利润增长。东说念主工智能本人擅长自我迭代,类似AlphaGo不错通过自我对弈完毕快速进化。

虎嗅:这些场景具体王人是哪些?能举几个例子吗?

夏立雪:比如代码生成场景最早爆发,一方面是研发东说念主工智能的圭表员本人最熟识代码场景,另一方面是代码的提交、评审全历程王人稀有字化纪录,类似的还有线上营销场景,联系历程王人稀有字全国的纪录。合座来看,上一波数字化转型作念得好的、或者互联网期间原生的场景,需求增长王人颠倒快。

要是按需求复杂度永别,咱们公司95%的需求王人来自智能体场景,也便是由AI完成齐备可委派的任务,而非浅易的聊天需求,用户更惬心为分娩力和最终完了付费,这是产业落地的良性趋势。咫尺在代码生成这类赛说念,依然不错完毕AI团队配合,不同的AI分别承担代码编写、质料保险的责任,造成最浅易的配合模式,这类场景依然跑通,后续也会在其他行业缓缓落地,现时东说念主工智能落地的节律颠倒好,咱们手脚产业中资源买通的主体也会获取对应的价值。

虎嗅:这是岁首OpenClaw出现之后带来的拐点?

夏立雪:在OpenClaw推出之前联系需求就依然出现了,OpenClaw是产业发展到一定阶段生长出的居品之一。核心原因是东说念主工智能的智能性大肆了临界点——当AI的智能性达到不错完成子任务、具备长险峻文操心材干的临界点之后,才具备手脚\"大脑\"指令子任务完成经管责任的基础。后续还会有更多针对不同场景的同类居品出现。

一个token工场的生意飞轮

虎嗅:无问芯穹有一个公式:AI分娩力=智能范畴×Token分娩效率×Token价值迁徙,从无问芯穹的角度,这几个变量里不错若何赚到钱?无问在这个公式里,飞轮若何转起来?

夏立雪:Token业务在交易化能闭环的产业里,是颠倒好的模式。当自身优化材干鼓胀强的时候,就能为市集提供更充沛、更建壮、更高性价比的优质Token,进而在产业内获取口碑,眩惑更多用户使用。

拿到更多需求之后,也能索取出更好的优化空间,一方面是斗争到更多真实场景,不错明确不同优化技能在场景中的价值;另一方面是需求鼓胀多的情况下,资源分派的疗养空间更大,需求种类越丰富,和非同质化资源的适配可能性就越多,M种模子乘N种芯片的优化空间也会越来越大。

这两点会使得接到的需求越多、可使用的资源能维持的需求越多,优化材干就越强,优化材干越强又能反过来提供更建壮、更便宜、更充沛的工作,眩惑更多需求,飞轮就此动弹。

虎嗅:这种算力讲究化需求下催生的模式,无问芯穹的交易模式是按完了收费照旧case by case?

夏立雪:咫尺Token工场的模式依然比此前熏陶好多,有更偏向完了的订价形势,便是按照Token计费,Token本人也有各别化,类似告白行业的CPM计费。咫尺Token依然是颠倒逼近业务的订价方针,用户不错直不雅感知到token对应的价值,无须饶恕底层用了什么芯片。

以Token手脚结算维度有好多平正:一方面能让通盘赛说念更关注AI产生的价值,而不是单纯的资源,咱们总共技能优化检朴的成本,王人会莳植公司的毛利率水平,不错再干与到新的技能研发里,造成正向的轮回;另一方面Token手脚结算方针也能很好地兼容跨行业的各别化,无须每个行业王人作念一套零丁的计价形势,更利于产业结构的扩展。

虎嗅:推理大年里,国产芯片的契机大吗?

夏立雪:2026年行业内环球王人很看好,国产芯片的契机颠倒大。市集是健康的,种种需求王人有缺口。咫尺的任务便是先把能填上的缺口填上。

虎嗅:推理需求进一步分化,分为Prefill(预填充)和Decode(解码),国产芯片的上风在这个细分需求里有各别吗?

夏立雪:国产芯片依然超越了“能弗成用”的非黑即白,进入了“好不好用”的性能较量阶段。

其完毕在的算力需求颠倒种种化。比如,运用端有对延时很是敏锐的,也有相对包容的;模子端有万亿参数级别的极限挑战,也有千亿参数就能高效处治的场景。

回到Prefill和Decode的细分。相对来说,Prefill更契合当下国产芯片的材干情状。因为它是谋略密集型任务;而Decode阶段不仅是访存密集型,还对卡间通讯带宽、以及芯片底层的合座软硬件生态建议了尖酸得多的条件。

虎嗅:要是抛建国产化叙事,无问芯穹的业务依然能增长这样好吗?

夏立雪:到了2026年这个时候点,中国市集和国际市集莫得根蒂的区别,合座王人是健康的产业分派情状,也同期面对着资源不够用的近况,况兼在畴昔相配长的时候,仍会供不应求。咱们公司所处的赛说念核心,刚巧是如何处治供不应求的问题。

Token进入5G阶段,可能出现真实的AI型组织

虎嗅:你之前把Token的增长比成手机流量从3G到4G的阶段。移动互联网期间的流量爆发带来了微信或电商这样的模式,进入Token 4G致使5G阶段,最有可能爆发的AI运用会是什么?

夏立雪:我以为对应的不是单一的业务,而是AI型的组织。OPC是最近比较火的极致宗旨,一东说念主公司大范畴出现难度比较大,但十东说念主、二十东说念主或者几个东说念主的小公司,这类充分使用AI、东说念主和AI充分合作的组织会多数爆发,这才是Token流量进入4G阶段真实产生的核心“运用”。

4G、5G期间的移动运用特色是多数使用流量,是基于流量充足的前提出身的和以往不同的居品。对应到AI领域,不是某类运用会多数使用AI,而是某类组织会多数使用AI并创造出好的新作品。依然完成数字化的赛说念,会更早出身这类原生AI化的机构和组织。

虎嗅:这类AI智能组织咫尺依然出现了吗?

夏立雪:依然有好多了,有好多很道理的组织产生,环球会把AI用在责任的方方面面,而且这些组织里使用的不同AI之间还会交互,造成东说念主与AI共生的组织形态,这些组织创造的居品便是AI 4G期间最道理的新兴居品。

虎嗅:跟着AI快速发展,对无问芯穹来说最大的挑战是什么?要是畴昔出现竞争敌手,有可能是哪一类公司?

夏立雪:从东说念主工智能合座发展来看,核心问题照旧资源按捺。名义看有两个按捺,一个是模子能弗成大肆到下一个范式,咫尺距离真实的AGI还有大致一到两个范式的差距,而范式大肆需要多数的老师资源和东说念主员干与,最终照旧回到资源问题。

咱们认为短期内AI范式不会有根人道的大肆,但咫尺AI依然大肆了可用的临界点,正在不停拓展新的运用场景,核心问题变成咱们能弗成接得住这样多需求。这取决于资源是否够用、资源效率是否鼓胀高。

对于竞争敌手,我认为咫尺是需求大于供给的市集,远远没到零和博弈阶段。产业链有险峻游分派,不同主体有不同的资源天禀,横向纵向王人不错找到我方的市集空间,惟有创造价值就能获取收益,核心产业层面的竞争其实很轻淡,企业自身的发展才是最蹙迫的。

虎嗅:要是AI进入了下一个范式,现时的交易模式依然竖立吗?

夏立雪:AI范式不会出现跳变,就像5G出来之后4G技能依然有运用场景,会有一个过渡的节律。要是范式大肆带来新的基础设施变化,反而会产生新的契机和发展空间,咱们不怕事情难——无问芯穹的技能团队从一运行便是奔着处治最难的技能问题去的,况兼找到了很好的TMF(技能-市集适配)。

虎嗅:Token联系产业什么时候能迎来类似通讯领域5G的拐点?

夏立雪:用通讯领域4G、5G的永别来类比AI产业不是出奇合适,下一个期间的跳变有两种可能性。一种是模子果然发生范式变化,但这种变化是什么咫尺莫得东说念主能够预测。第二种是模子的成本降到鼓胀低,咫尺计费形势依然从千Token若干钱降到百万Token若干钱,要是成本再着落一到两个数目级,就会出现类似流量包、包月的宗旨,届时通盘产业的付费模式会发生质变。

成本着落1-2个数目级是有可行旅途的,核心是更深眉目的软硬件团结,对模子结构、模子组合和硬件结构王人进行疗养,莳植两者的匹配度,还有1-2个量级的优化空间。咱们一方面会在成本着落1-2个数目级的过程中创造价值,另一方面也在提前作念布局,推出匹配畴昔新的分娩关系和交易模式的新址品和新材干。

AI 行业运行慎重算账了。不是只看模子材干,而是看 AI 是否真实进入业务、产生完了、跑出呈文。

这亦然虎嗅想追问的:钱烧哪了?干成啥了?赚照旧亏了?能复用吗?

围绕这四问,咱们将深度对话AI产业链条上的蹙迫公司,千里淀AI账本样本库;还将在7月WAIC期间推出系列直播、闭门会,与企业关键决策者共探AI生意。

确定请戳,沿途见证AI期间交易落地的真实变化。

本文来自虎嗅,原文聚合:https://www.huxiu.com/article/4867715.html?f=wyxwapp



Powered by 创序服务有限公司 @2013-2022 RSS地图 HTML地图