为了ChatGPT,大厂一把手睡在了公司
没有犹豫的时间,共识很快达成。
目前用于训练大模型的主力芯片是英伟达云端训练 GPU A100。据《财经》了解,字节跳动朱文佳团队目前可使用的 A100 约有数千张。为支持大模型开发,字节今年早些时候还将原本计划给商业化团队新增的一批 A100 调给了朱文佳团队。A100 目前的市价约 10 万元人民币 / 块,数千张 A100 的价值达数亿元人民币。
阿里 2021 年时曾披露,在训练十万亿参数的多模态大模型 M6 时,它们使用了 512 张英伟达 V100 GPU。它是 A100 的前序产品,A100 有大约 3 倍的性能提升。
华为在 2021 年曾披露,训练盘古大模型时,团队调用了超过 2000 块华为昇腾 910,进行了超 2 个月的训练。不过昇腾 910 最初设计为 7nm 制程,2020 年 9 月后,台积电等芯片代工厂不再能为华为生产高制程芯片。
一位关注大模型领域的投资人称,阿里、腾讯、百度、华为等国内主要云厂商过去都积累了大量 GPU。去年大模型热潮未起时,公有云上的 GPU 算力不是紧缺,而是 “愁卖”,云厂商甚至得亏钱卖资源,并与部分公司签订了长期锁价合同,这让热潮前就已入场的一些大模型创业公司 “花更少钱办了更多事”;也侧面说明大厂有一定算力储备。
但再往下,所有中国公司在获得更多算力上都面临不确定性。更多人训练大模型也会进一步加剧算力紧缺。
去年 8 月底,美国政府宣布禁止美国公司向中国大陆、香港和俄罗斯出口高端 GPU,设定的红线是:算力超过 4800 TOPS,且带宽传输速率超过 600 GB/ 秒,受限产品就包括英伟达 A100 和后续产品 H100。
为绕过这一限制,英伟达推出了 A800,算力与 A100 一致,但传输速率降为 400 GB/ 秒,不在被禁范围。不过这条路仍有变数。美国政府的系列禁令明确指向人工智能,不排除后续有超出预期的更严厉措施。
大模型的训练还需要海量数据。一种观点是,中文数据在数量和深度上均不及英文,所以中文大模型相比国外大模型 “先天不足”。
英语是强势语言,除文本量最大外,大量学术论文、专业文献也以英语撰写,高质量的公开英语数据库也更多。英语数据的广度与深度确实强于其它语言。
但数据对模型效果的影响是一个更复杂的问题。包括 GPT 系列大模型在内,主流大模型都基于最早由 Google 研究人员提出的 Transformer 架构,它会对不同人类语言,包括编程语言做高度抽象和压缩,这些语言在底层逻辑上有相似性,中文数据的不足可以部分由其它语言数据弥补。
大模型创业公司澜舟创始人、微软亚研院原副院长周明说:“现在的中文大模型都是在用多语言训练,语言结构有共通性,一件事如果英语表达得更好,中文也可以借鉴,形成生成结果。”
大公司的数据相比创业公司还有额外优势,他们能获得一些非公开的高质量中文文本数据。部分数据还带有真实的场景属性,如电商平台中的客服沟通数据。
如果把这一波浪潮比喻为大航海,OpenAI 是第一个到达新大陆的人,它已完成了最危险、最不确定的部分,即证明了超大参数模型的可行性和惊人效果。其它公司都是在沿着这个相对确定的方向做复现和优化。李彦宏在发布文心一言后曾说百度有信心在综合能力上,迅速追上甚至超过 ChatGPT。“很快” 可能很难实现,但把时间拉长,学习与模仿将拉平一批公司间的差距。
变数在于:中国公司未来可能无法通畅地获得更多算力,技术与人才的跨国流动也在变慢,招募更多大模型高端人才变得更难了。
成为中国第一的吸引和被颠覆的危险
宏观环境变化的另一面是,在中美市场更加分隔的当下,中国需要自己的大模型。中国市场又尚未出现明显的领先者,这使各大公司加速入场。
一位字节人士称,在去年底 ChatGPT 出现前,字节对大模型投入还比较少。表现之一是,约有 100 人的字节 AI Lab NLP(自然语言处理)组,只有不到 10 人在研究语言大模型,其它人主要在做翻译和抖音小安(内置于抖音的安全助手,有预防网曝、网络诈骗的功能)的优化。但今年 1 月后,大模型迅速成为 NLP 组重点工作。字节 AI Lab 可能会基于人工智能创业公司 HuggingFace 去年 7 月开源的大模型 BLOOM 做开发,它的参数达到 1760 亿,是目前最大的多语言开源语言模型。
这是低迷两年的互联网市场一个难得的增量空间,如果能在中国市场做到第一,就可能开辟巨大的新市场,或给已有业务,如云计算、游戏、社交等加上 “放大器”。
紧迫也来自,如果大公司自己不做,就有被颠覆的风险。
以利益分配结果看,技术创新有两种,一种果实多归属成熟公司,一种则会激发一批新巨头。
由 AlphaGO 战胜李世乭引燃的上一轮 AI 热潮更靠近第一种。当时的人工智能技术虽然在识别图片、人脸等一些特定任务上有高效率和准确率,但应用场景有限,且当时的产品不够强大和通用,没有好到足以动摇成熟企业已建立的市场格局。一个例子是,商汤、旷视等人工智能新锐公司在它们最主要的市场安防领域,难以撼动海康、大华的优势地位。
大模型则有可能是第二种创新。ChatGPT 和其它生成式 AI 产品及背后的大模型技术,迅速展现出了冲击现有商业模式的力量。
文生图应用 Midjourney 去年已获得超 1 亿美元收入,这家公司到去年 10 月只有 10 余名员工。在微软搜索引擎接入 GPT 推出 New Bing 后,Bing 访问量上升了 15.8%,Google 搜索引擎的美国市占率则下降了 1%。上周微软宣布 Bing 日活跃用户首次突破 1 亿,其中 1/3 是新用户。
当技术杠杆足够强时,大公司面对新机会时的包袱和协调难题就变得更为明显:
这包括与主营业务的冲突,Google 在搜索引擎上引入大模型时的犹疑是一个前例,各公司需要在以新技术打造全新产品,和用新技术提升现有业务间做综合安排与取舍。再往下是如何建立相应组织结构和多部门协作机制。相比没有退路的创业公司,当大模型商业进展遇挫时,业务颇多的大公司的热情能持续多久也是问题。大公司还面临更强的监管与伦理风险,大模型可能带来虚假信息和 “不正确” 的言论,亦有隐私问题,各国监管已在更早、更多地干预。部分国家已禁用 ChatGPT。
中国大公司发布的基于大模型的文本生成类应用,目前均未直接向普通民众大规模开放。文心一言需要内测码才能使用,阿里、腾讯和字节,近期可能都不会发布基于大模型的 to C 对话类产品。
巨头有更多的钱和资源,但当机会足够大 ,改变足够剧烈时,资源往往不是最难的部分。