为了ChatGPT，大厂一把手睡在了公司

没有犹豫的时间，共识很快达成。

目前用于训练大模型的主力芯片是英伟达云端训练 GPU A100。据《财经》了解，字节跳动朱文佳团队目前可使用的 A100 约有数千张。为支持大模型开发，字节今年早些时候还将原本计划给商业化团队新增的一批 A100 调给了朱文佳团队。A100 目前的市价约 10 万元人民币 / 块，数千张 A100 的价值达数亿元人民币。

阿里 2021 年时曾披露，在训练十万亿参数的多模态大模型 M6 时，它们使用了 512 张英伟达 V100 GPU。它是 A100 的前序产品，A100 有大约 3 倍的性能提升。

华为在 2021 年曾披露，训练盘古大模型时，团队调用了超过 2000 块华为昇腾 910，进行了超 2 个月的训练。不过昇腾 910 最初设计为 7nm 制程，2020 年 9 月后，台积电等芯片代工厂不再能为华为生产高制程芯片。

一位关注大模型领域的投资人称，阿里、腾讯、百度、华为等国内主要云厂商过去都积累了大量 GPU。去年大模型热潮未起时，公有云上的 GPU 算力不是紧缺，而是 “愁卖”，云厂商甚至得亏钱卖资源，并与部分公司签订了长期锁价合同，这让热潮前就已入场的一些大模型创业公司 “花更少钱办了更多事”；也侧面说明大厂有一定算力储备。

但再往下，所有中国公司在获得更多算力上都面临不确定性。更多人训练大模型也会进一步加剧算力紧缺。

去年 8 月底，美国政府宣布禁止美国公司向中国大陆、香港和俄罗斯出口高端 GPU，设定的红线是：算力超过 4800 TOPS，且带宽传输速率超过 600 GB/ 秒，受限产品就包括英伟达 A100 和后续产品 H100。

为绕过这一限制，英伟达推出了 A800，算力与 A100 一致，但传输速率降为 400 GB/ 秒，不在被禁范围。不过这条路仍有变数。美国政府的系列禁令明确指向人工智能，不排除后续有超出预期的更严厉措施。

大模型的训练还需要海量数据。一种观点是，中文数据在数量和深度上均不及英文，所以中文大模型相比国外大模型 “先天不足”。

英语是强势语言，除文本量最大外，大量学术论文、专业文献也以英语撰写，高质量的公开英语数据库也更多。英语数据的广度与深度确实强于其它语言。

但数据对模型效果的影响是一个更复杂的问题。包括 GPT 系列大模型在内，主流大模型都基于最早由 Google 研究人员提出的 Transformer 架构，它会对不同人类语言，包括编程语言做高度抽象和压缩，这些语言在底层逻辑上有相似性，中文数据的不足可以部分由其它语言数据弥补。

大模型创业公司澜舟创始人、微软亚研院原副院长周明说：“现在的中文大模型都是在用多语言训练，语言结构有共通性，一件事如果英语表达得更好，中文也可以借鉴，形成生成结果。”

大公司的数据相比创业公司还有额外优势，他们能获得一些非公开的高质量中文文本数据。部分数据还带有真实的场景属性，如电商平台中的客服沟通数据。

如果把这一波浪潮比喻为大航海，OpenAI 是第一个到达新大陆的人，它已完成了最危险、最不确定的部分，即证明了超大参数模型的可行性和惊人效果。其它公司都是在沿着这个相对确定的方向做复现和优化。李彦宏在发布文心一言后曾说百度有信心在综合能力上，迅速追上甚至超过 ChatGPT。“很快” 可能很难实现，但把时间拉长，学习与模仿将拉平一批公司间的差距。

变数在于：中国公司未来可能无法通畅地获得更多算力，技术与人才的跨国流动也在变慢，招募更多大模型高端人才变得更难了。

成为中国第一的吸引和被颠覆的危险

宏观环境变化的另一面是，在中美市场更加分隔的当下，中国需要自己的大模型。中国市场又尚未出现明显的领先者，这使各大公司加速入场。

一位字节人士称，在去年底 ChatGPT 出现前，字节对大模型投入还比较少。表现之一是，约有 100 人的字节 AI Lab NLP（自然语言处理）组，只有不到 10 人在研究语言大模型，其它人主要在做翻译和抖音小安（内置于抖音的安全助手，有预防网曝、网络诈骗的功能）的优化。但今年 1 月后，大模型迅速成为 NLP 组重点工作。字节 AI Lab 可能会基于人工智能创业公司 HuggingFace 去年 7 月开源的大模型 BLOOM 做开发，它的参数达到 1760 亿，是目前最大的多语言开源语言模型。

这是低迷两年的互联网市场一个难得的增量空间，如果能在中国市场做到第一，就可能开辟巨大的新市场，或给已有业务，如云计算、游戏、社交等加上 “放大器”。

紧迫也来自，如果大公司自己不做，就有被颠覆的风险。

以利益分配结果看，技术创新有两种，一种果实多归属成熟公司，一种则会激发一批新巨头。

由 AlphaGO 战胜李世乭引燃的上一轮 AI 热潮更靠近第一种。当时的人工智能技术虽然在识别图片、人脸等一些特定任务上有高效率和准确率，但应用场景有限，且当时的产品不够强大和通用，没有好到足以动摇成熟企业已建立的市场格局。一个例子是，商汤、旷视等人工智能新锐公司在它们最主要的市场安防领域，难以撼动海康、大华的优势地位。

大模型则有可能是第二种创新。ChatGPT 和其它生成式 AI 产品及背后的大模型技术，迅速展现出了冲击现有商业模式的力量。

文生图应用 Midjourney 去年已获得超 1 亿美元收入，这家公司到去年 10 月只有 10 余名员工。在微软搜索引擎接入 GPT 推出 New Bing 后，Bing 访问量上升了 15.8%，Google 搜索引擎的美国市占率则下降了 1%。上周微软宣布 Bing 日活跃用户首次突破 1 亿，其中 1/3 是新用户。

当技术杠杆足够强时，大公司面对新机会时的包袱和协调难题就变得更为明显：

这包括与主营业务的冲突，Google 在搜索引擎上引入大模型时的犹疑是一个前例，各公司需要在以新技术打造全新产品，和用新技术提升现有业务间做综合安排与取舍。再往下是如何建立相应组织结构和多部门协作机制。相比没有退路的创业公司，当大模型商业进展遇挫时，业务颇多的大公司的热情能持续多久也是问题。大公司还面临更强的监管与伦理风险，大模型可能带来虚假信息和 “不正确” 的言论，亦有隐私问题，各国监管已在更早、更多地干预。部分国家已禁用 ChatGPT。

中国大公司发布的基于大模型的文本生成类应用，目前均未直接向普通民众大规模开放。文心一言需要内测码才能使用，阿里、腾讯和字节，近期可能都不会发布基于大模型的 to C 对话类产品。

巨头有更多的钱和资源，但当机会足够大，改变足够剧烈时，资源往往不是最难的部分。