贾扬清是最受关注的全球AI科学家之一,博士期间就创立并开源了著名的深度学习框架Caffe,被微软、雅虎、英伟达等公司采用。
2023年3月,他从阿里离职创业,并在随后录制的播客中说,自己并非是因为ChatGPT 火爆而创业,后来创业项目浮出水面,也确实证实,他没有直接入局大模型。硅谷著名风投a16z在去年发表的一篇关于AIGC的文章中就曾经提到过:“目前来看,基础设施提供商是这个市场上最大的赢家。”
贾扬清在去年的文章中也提到,“不过要做这个赢家,就要更聪明地设计Infra才行”。在他创办的公司Lepton.AI的官网上,有一句醒目的Slogan“Build AI The Simple Way(以简单的方式构建AI)”。
最近,贾扬清在高山书院硅谷站“高山夜话”活动中,给到访的中国企业家做了一次深度的闭门分享,分享的内容直击行业痛点,首先从他最专业的AI Infra开始,详细分析了AI时代的Infra,到底有什么新的特点;然后,基于AI大模型的特点,帮助企业算了一笔比较详细的经济账——在不可能三角成本、效率、效果中,如何选才能达到比较好的平衡点。
“每次训练一个基础大模型,都要从零开始。形象一点来描述,这次训练‘投进去10个亿,下次还要再追加投10个亿’,而模型迭代速度快,可以赚钱的窗口也许只有大概一年。所以每个人都在思考这个终极问题,‘大模型的商业模式到底怎样才能真正有效?’”
贾扬清的过往经验大部分是TOB的。他也多次在分享中很坦诚地表示,“TOC我看不太清楚,TOB看得更清晰一些。”
“AI从实验室或者说从象牙塔出来到应用的过程中,该蹚过的雷,都会经历一遍。”无论大语言模型给人们多少惊艳,它的发展都不是空中楼阁,既往的经验和范式有变也有不变。
一个通用的大模型的效果固然非常好,但是在企业实际应用当中,中小型模型加上自己的数据,可能反而能够达到一个更好的性价比。
至于成本问题,我们也算了一笔经济账:一台GPU服务器就可以提供支撑的7B、13B模型通过微调,性价比可能比直接使用闭源大模型高10倍以上。
我个人认为,英伟达在接下来的3~5年当中,还会是整个AI硬件提供商中绝对的领头羊,我认为它的市场发展占有率不会低于80%。但是今天AI模型逐渐标准化,我们也看到了硬件层面另外一个机会。
目前我们看到AI应用中,有两大类应用,已经跨越死亡谷,开始有比较持续的流量:一个是提效,另外一个是娱乐。
我个人关于Supper App的观点可能稍微保守一些,也有可能是因为我自己的经历很多都在做TOB的服务,我认为Super APP会有,但是会很少。
随着大型语言模型的兴起,出现了一个新概念——Scaling Law(规模定律)。根据Scaling Law,大语言模型的性能与其参数量、训练数据的大小和计算量呈幂律关系。简单来说,用通用的方法给模型巨大的数据,让模型能够拥有输出我们想要的结果的能力。
这就使得AI计算与“云计算”有很大的不同,云计算主要服务于互联网时代的需求,关注资源的池化和虚拟化:
用比较通俗的语言来解释,互联网的主要需求是处理各种网页、图片、视频等,分发给用户,让“数据流转(Moving Data Around)起来。云服务关注数据处理的弹性,和便捷性。
● 并不要求特别强的虚拟化。一般训练会“独占”物理机,除了简单的例如建立虚拟网络并且转发包之外,并没有太强的虚拟化需求。
● 需要很高性能和带宽的存储和网络。例如,网络经常需要几百 G 以上的 RDMA 带宽连接,而不是常见的云服务器几 G 到几十 G 的带宽。
● 没有过度复杂的调度和机器级别的容灾。因为机器本身的故障率并不很高(否则 GPU 运维团队就该去看了),同时训练本身经常以分钟级别来做 checkpointing,在有故障的时候可以重启整个任务从前一个 checkpoint 恢复。
这其实很像传统高性能计算领域的需求,在七八十年代我们就已经拥有超级计算机,他们体积庞大,能够提供大量的计算能力,可以完成气象模拟等服务。
我们曾做过一个简单的估算:过去,训练一个典型的图像识别模型大约需要1 ExaFlop的计算能力。为了形象地描述这一计算量,可以想象全北京的所有人每秒钟进行一次加减乘除运算,即便如此,也需要几千年的时间才能完成一个模型的训练。
那么,如果单台GPU不足以满足需求,我们应该如何应对呢?答案是可以将多台GPU连接起来,构建一个类似于英伟达的Super POD。这种架构与最早的高性能计算机非常相似。
这时候,如果一台GPU不够怎么办?可以把一堆GPU连起来,做成一个类似于英伟达的Super POD,它和最早的高性能计算机长得很像。
这就意味着,我们又从“数据流转”的需求,回归到了“巨量运算”的需求,只是现在的“巨量运算”有两个进步,一是用于计算的GPU性能更高,另外就是软件更易用。伴随着AI的发展,这将是一个逐渐加速的过程。今年NVIDIA推出的新的DGX机柜,一个就是几乎1Exaflops per second,也就是说理论上一秒的算力就可以结束训练。
去年我和几位同事一起创办了Lepton AI。Lepton在物理中是“轻子”的意思。我们都有云计算行业的经验,认为目前AI的发展给“云”带来一个完全转型的机会。所以今天我想重点分享一下,在AI的时代,我们应该如何重新思考云的Infrastructure。
随着模型规模的不断扩大,我们面临着一个核心问题:大模型所需的计算资源成本高昂,从实际应用的角度出发,我们需要思考如何高效地利用这些模型。
以一个应用场景为例,我们可以比较形象地看出一个通用的大型语言模型与针对特定领域经过微调的模型之间的差异。
使用通用模型,我们直接提问:“苹果公司最近的财报怎么样?你怎么看苹果公司在AI领域的投入。”通用大模型的回答是:“抱歉,我无法回答这个问题。”
针对特定领域微调,我们使用了一个7B的开源模型,让它针对性地“学习”北美所有上市公司的财报,然后问它同样的问题。它的回答是:“没问题,感谢您的提问。(Sure,thanks for the question)”口吻十分像一家上市公司的CFO。
这个例子其实可以比较明显地看出,通用大模型性能固然很出色,但是在实际应用中,使用中小型开源模型,并用特定数据微调,最终达到的效果可能更好。
至于成本问题,我们也算了一笔经济账:一台GPU服务器就可以提供支撑的7B、13B模型通过微调,性价比可能比直接使用闭源大模型高10倍以上。
如上图所示,以Llama2 7B开源模型为例,100万token的成本大约为0.1美元-0.3美元。使用一台英伟达A10GPU服务器就能支持训练,以峰值速度2500token每秒来计算,一小时的成本大约为0.6美元。自有这台服务器,一年的成本大约为5256美元,并不算高。
不过成本消耗也要考虑应用的种类和模型的输出速度,模型输出速度越快,成本也会越高。如果可以有mini-batch(小批量数据集)等,同时来跑,它的整体性能就会更好,但是单个的输出性能可能就会稍微差一点。
以Chatbot举例,人说线词每分钟,阅读的速度大概为350词左右,反向计算token,每秒钟20个token左右,就能达到比较好的体验。如果这样计算的话,如果应用的流量够大,跑起来成本是不高的。
但是,究竟流量能不能达到“够大”,这就变成了“鸡生蛋、蛋生鸡”的问题。我们发现了一个很实用的模式可以解决这个问题。
在北美,很多企业都是先用闭源大模型来做实验(比如OpenAI的模型)。实验规模大概在几百个million(百万token),成本大概为几千美元。一旦数据飞轮运转起来,再把已有数据存下来,用较小的开源模型微调自己的模型。现在这已经变成了相对比较标准的模式。
在考虑AI模型的时候,各家企业其实都在各种取舍中找平衡。在北美经常讲一个不可能三角,当你买一辆车的时候跑得快、便宜和质量好,这三者是不可兼得的。
上文提到的标准模式,其实就是首先追求质量,然后再考虑成本,如果想同时满足这三方面,基本是不可能的。
半年之前我非常强烈地相信开源模型能非常迅速追赶上闭源模型,然而半年之后,我认为开源模型和闭源模型之间会继续保持一个非常合理的差距,这个差距用比较形象的具体模型举例来说,闭源模型到GPT-4水平的时候,开源模型可能在GPT3.5左右。
早在2000年初,英伟达就看到了高性能计算的潜力,于是2004年他们做了CUDA,到今天为止已经20年。今天CUDA已经成为AI框架和AI软件最底层的标准语言。
早期,行业内都认为高性能计算写起来很不方便,英伟达介绍了CUDA,并说服大家它简单易用,让大家尝试来写。试用之后,大家发现确实易用且写出来的高性能计算速度很快,后来几乎各大公司的研究员们都把自己的AI框架基于CUDA写了一遍。
CUDA很早就和AI社区建立了很好的关系,公司也看到了这个市场的巨大机会,但是从用户侧来看,大家用产品的动机不强。
所以市场上还会有一个关注焦点,那就是是否有人能够撼动英伟达的地位,除了英伟达,新的硬件提供商还有谁可能有机会?
首先我的观点不构成投资建议,我个人认为英伟达在接下来的3~5年当中,依然还会是AI硬件提供商中绝对的领头羊,它的市场占有率不会低于80%。
但是今天AI模型逐渐标准化,我们也看到了硬件层面另外一个机会。前十年中,在AI领域大家都在纠结的一个问题,虽然很多公司能够提供兼容CUDA的适配,但是这一层“很脆”。“很脆”的意思是模型多种多样,所以适配层容易出问题,整个工作链就会断。
今天越来越少的人需要写最底层的模型,越来越多的需求是微调开源模型。能够跑Llama、能够跑 Mistral,就能满足大概80%的需求,每一个Corner Case(特殊情况)都需要适配的需求逐渐变少,覆盖几个大的用例就可以了。
硬件提供商的软件层在努力兼容CUDA,虽然还是很难,但是今天抢占一定市场占有率,不再是一件不可能的事情;另外云服务商也想分散一下投资。所以这是我们看到的一个很有意思的机会点,也是cloud infra在不断变化的过程。
我们再看一下AI应用的情况。今天我们可以看到AI应用的供给在不断增加。从Hugging Face来看,2022年8月模型数量大概只有6万,到2023年9月,数量就已经涨了5倍,增速是非常快的。
第一大类是提效(productivity)。例如在电商行业,用AIGC的方式更快生成商品展示图片。例如Flair AI,应用场景举例来说,我希望能给瓶装水拍摄一个广告图片,仅仅需要把水放在方便的地方,拍一张照片。然后把这张照片发送给大模型,告诉它,我希望它被放在有皑皑白雪的高山上,背景是蓝天白云。它就能生成一个直接可以上传电商平。