开云棋牌

开云(中国)2026世界杯IOS/Android手机通用版app 视频模子浩大的「隐变资本」, 没东谈主告诉你

发布日期:2026-06-12 21:27 点击次数:192

开云(中国)2026世界杯IOS/Android手机通用版app 视频模子浩大的「隐变资本」, 没东谈主告诉你

对于 AI 烧钱,业内流传着各式令东谈主办屈词穷的数字。xAI 花了跳跃 10 亿好意思元建起 Colossus 超算集群;OpenAI 的月度算力账单子称高达数亿好意思元;Anthropic 最近几轮融资拿到的钱,在公众眼里果然还是和「GPU 时数」告成画上了等号。

全球谈的,果然都是算力。GPU 成了预计一家 AI 公司实力的通用货币,亦然每一篇融资报谈里最显眼的阿谁数字。

但最近,我听了一期 Latent Space 播客,采访对象是 xAI 前接洽员 Ethan He——Ethan 在 2025 年中加入 xAI 时,面对的是一个莫得基础轮番、没稀零据、莫得现成模子的白纸状况,然后用三个月时候和一支小团队,从零搭建出了 Grok Imagine 视频生成系统,作念到了其时业内的一活水准。

在聊到大鸿沟视频模子的考试资本时,他说了一组数字,让我倏得雄伟到,这个行业可能一直在算错了账。

「光是存储这些视频和特征数据,每个月就要几百万好意思元——这还没算算力资本。」

01

账单上的隐敝资本

从零到一,运转考试一个视频大模子,需要花若干钱?先假定你的团队有矿,GPU 算力纵容用。即便如斯,你可能依然低估了这件事的巨量资本。

假定你要考试一个宇宙级的视频生成模子,去网上爬取了 10 亿条视频,每条平均 5MB——这还是是额外保守的算计了。光这一项,你就需要 5PB(拍字节)的存储空间。按照 AWS S3 的订价,5PB 尺度存储,每个月大致 10 万好意思元。

但这还仅仅原始视频。

在考试视频模子之前,业界通行的作念法是先用 VAE(变分自编码器)把视频压缩成「潜在空间」的特征向量——因为一段视频伸开成像素,可能有几十亿个 token,任何 Transformer 都贬责不了,必须先压缩成模子能融会的说明向量。

问题是,这份压缩后的特征数据,体积和原始视频额外,同样需要永恒存储,随时备用。

两项重复,数十 PB,每月存储费就跳跃 20 万好意思元。

然后是最出其不意的那一项:数据收支费(egress/ingress)。

Ethan 说,从互联网下载 10 亿条视频的带宽用度,在 AWS 上比存储这些视频还贵。每次考试,数据都要从存储层拉到计议层跑一遍。视频模子的考试不像话语模子那样训完就结束——要迭代,要调参,要测试不同的数据配比,Kaiyun中国大陆官方网站入口每一次实验都意味着把全量数据再过一遍。实验跑得越多,这笔钱就乘以相应的倍数。

综划算下来,Ethan 的估算是,光是数据这一块,每个月就要几百万好意思元。GPU 的用度,还没运转计入。

这笔账开云(中国)2026世界杯IOS/Android手机通用版app,我从来没见哪篇 AI 行业报谈细算过。

02

扛不住的带宽费

那像 xAI 这么自建 Colossus 数据中心的公司,是不是在存储和带宽上省了一大笔钱?

Ethan 的恢复很告成:「虽然,省了好多。」

这句话背后,藏着视频 AI 行业一个不太被接头的结构性微妙。

妄言语模子的考试数据是文本,体积相对轻量,况且考试完成之后,原始数据基本就完成了责任——你不需要反复拉取全量语料来作念推理或微调。但视频数据十足不同:体积是文本的几个数目级,况且每一次考试实验都要把全量数据圆善过一遍。

迭代速率越快,数据搬运的资本就越高;而 Ethan 反复强调,迭代速率,恰正是视频模子研发中最枢纽的变量。

这就变成了一个相互咬合的困局:你需要快速迭代来莳植模子质料,但快速迭代意味着频频搬运数据,而频频搬运数据在公有云上的账单会把你压垮。

Ethan 本东谈主的轨迹便是一个注脚。他在 NVIDIA 参与构建了 Cosmos 宇宙模子,作念着作念着雄伟到,开云app中国2026世界杯官方下载视频模子存在和话语模子雷同的「鸿沟定律」,还有很大的莳植空间。他其时靠近的遴荐,名义看是「我需要更多 GPU」,但同样枢纽的一句话他没明说——他需要一个无谓按 AWS 账单算钱的场所,来存放和搬运数据。这亦然他去 xAI 的根底原因之一,而 Colossus 给了他阿谁环境。

对于莫得自建基础轮番的团队来说,这笔账是怎样算的?每个月几百万好意思元的数据资本,重复在 GPU 算力之上,意味着哪怕你有一流的算法团队,哪怕你募到了弥散的资金,只消你还在用公有云,你便是在用一个无底洞的账单跟敌手的自建机房竞走。

这谈门槛,不是一家有优秀算法的创业公司能靠「本事取胜」跨曩昔的。

03

视频模子的护城河不是模子

这让我念念起一个意旨的对比。

在妄言语模子鸿沟,「开源 vs 闭源」的竞争打得额外利害,Llama 系列的出现让好多小团队也能在话语模子上打出有竞争力的居品,致使逼着 OpenAI 和 Anthropic 不停压低 API 价钱。但在视频生成鸿沟,咱们看到的形态人大不同:能连续作念出顶尖视频模子的,基本只消 Sora、Veo、可灵这些背靠巨量资源的团队,莫得一家是靠开源社区在车库里跑出来的。

好多东谈主把这归结为「数据和算力的差距」。这虽然没错,但 Ethan 揭示的这组数字告诉咱们,问题比这更深:视频 AI 的基础轮番资本,从一运转就把竞争的门槛,锁死在了一丝数玩家的高度上。

这和半导体行业的逻辑有几分相似。台积电之是以难以撼动,不单因为它们有更好的假想,更因为一座新晶圆厂需要几百亿好意思元的前期干涉,这谈门槛自身便是最佳的护城河。视频 AI 的护城河,便是那数十 PB 的数据基础轮番和每月篡改产生的带宽账单。

Ethan 在播客里还补充了一个更深的实践:视频模子的「智能」,大部分其实来自背后的话语模子,而不是视频扩散模子自身。

视频扩散模子相对「愚钝」,它只会按照笔墨描画照单全收地生成画面,描画写「一只猫」,它就生成一只猫,站在纯白配景前,陈陈相因——因为你莫得告诉它配景是什么、猫在作念什么。

真确融会用户意图、把「一只猫」扩写成一段精采的镜头话语描画的,是背后阿谁作念「提醒词重写」的大型话语模子。Ethan 说,在 Cosmos 时间,他也曾用一个「欢快的羊」作念测试:不外程提醒词重写,生成出来的画面极其 CGI、毫无质感;加上重写之后,遵循判若云泥——而整个这个词视频扩散模子自身,并莫得发生任何改变。

这意味着,决定一家公司在视频 AI 鸿沟能走多远的,不仅仅视频模子的参数鸿沟,而是能否同期撑起话语模子和视频模子这两套基础轮番,并让它们有用协同。

这是一场拼玄虚膂力的竞赛。

04

下一个战场,早就被划好了

虽然,行业也在摸索出息。

提醒词重写的 Agent 化、让话语模子像「相似官」一样挽救多个视频生成器用、用 FFmpeg 这类传统软件贬责中间门径——这些观点的共同逻辑是,把「话语模子的推理资本」和「视频扩散模子的生成资本」分层计议,让每一次视频生成的调用愈加精确,减少无效的计议和数据搬运。

Ethan 对「视频 Agent」的走向额外详情。他预计本年年底将出现一个拐点——当 Agent 生成的视频质料大约踏实达到「可投放交易告白」的水准,企业才会真确欢快为之买单,合座的资本结构也会随之演变。

2026FIFA世界杯赛事官网入口

但有一丝不会变:谁掌捏了数据的存储和流转,谁就掌捏了这场游戏的最先。

在 AI 这个赛谈上,「真确的壁垒」每隔一段时候就会交替一次。先是参数目,然后是考试数据鸿沟,然后是对皆本事,然后是推理遵循。当今,视频 AI 正在揭示下一起壁垒——不是某种私密的算法冲突,而是一份冷飕飕的基础轮番账单。

这笔账,从一运转就没蓄意让整个东谈主都算得起。

开云首页 关于开云 开云体育 开云电竞 开云棋牌 开云世界杯 开云app下载
电话:
邮箱:
地址:
开云app中国2026世界杯官方下载

Copyright © 1998-2026 开云app中国2026世界杯官方下载™版权所有

技术支持:®开云 RSS地图 HTML地图

技术支持:®开云 RSS地图 HTML地图