学习理财博客空间

理财鱼

您现在的位置是:理财鱼 > 理财方法 >

理财方法

大模型们背后的“小算盘”(2)

发布时间:2023-05-07 09:34理财方法 评论

在资深机器学习与应用开发者杨军看来,市场上的“百模大战”与投资圈的狂热是在巨量资源投入后,广谱性质的压强效应所致,但是在这之中不可避免泡沫的存在。“我不太认可在介绍ChatGPT相关技术时引入的春秋笔法或过于PR的味道,总觉得这会把一个原本正常该由技术驱动的事物的演进节奏变得混乱了。关键的技术需要回归到客观层面理解,才更有利于这个方向的健康发展。”

春秋笔法对新生事物的揠苗助长在AIGC前一轮Web3风口中随处可见,尤其是结合了VR、AR后诞生的元宇宙赛道。科技互联网从业者必须铭记的案例是Facebook更名Meta,梭哈元宇宙后的窘境。反观国内,一直以来商业化都是我们的强项,反之也遭到不少缺乏研发耐心、忽略底层技术的诟病。

杨军透露:“我知道的一些这个行业里比较资深的模型从业人士,似乎很多都因为背负了投资方的压力,更多考虑的是商业变现,而不是底层技术的创新和突破。”

在商业化变现前,大模型需要填满的洞有多深?

由英伟达给出的GPT3训练数据,参数规模为1750亿,训练语料为30亿 tokens,那么训练一个周期需要26天,采用租赁方式以8卡A100训练的成本超256万美元/月,即使忽略人力成本,硬件成本最低也需要大约2亿人民币一年。杨军称,这已经是很保守的估计,系统故障、策略调整等因素也未曾考虑,人力成本更是在技术创新领域的大头,如果希望提高效率,以并行方式实验探索,那么硬件成本还需追加一倍。

5年时间,25~30亿不计回报的总投入,这是客观技术视角下做好一个GPT4前两代的大模型所需要的准备。这笔研发投入已经接近于半导体了。

杨军对此忧虑颇多,尤其是在风投方面。“在我有限的阅历里,看到了不少风投一开始说支持情怀,随着时间推移,会对变现和寻求接盘退出越来越饥渴,最终以各种方式干预到项目执行层面。不确定性较强的技术攻关遭遇的问题,需要行业层面来克服”。

在技术革命后的第一次格局重构中,狂热者往往被浪潮无情裹挟,重重拍在浅滩上。好比去年吸收了数千亿美元的Web3,其大本营新加坡如今已有不少从业者租不起房,吃不起饭。

我们对大模型的畅想究竟是像APUS李涛所言“争夺下一代操作系统的话语权”,还是针对某个具体场景和领域的赋能,亦或是在浪潮之中寻求资金、博取热度,无论哪种都需要让大模型褪去克里斯玛,客观地看待与探求。

大模型也可以小而美

在众人一拥而上的时候,相对冷清的路径反而更有可能成功。

比如在星火上被验证的“送水人”路径,除华为外,字节旗下火山引擎、腾讯云等玩家已在4月这个节点对外明确了自身“送水人”的角色,通过提供算法优化、算力、数据飞轮等技术栈服务来做淘金热中的服务商。路径明晰竞对少的同时还可以一定程度上“分摊”大模型的训练成本。

这条商业路径早在淘金运动中便已验证,但成功故事的背后是淘金运动的“内卷”特性,才会诞生服务的需求空间,同时“送水人”还需要在这种上游配套式或衍生周边式服务中占据垄断地位。“送水人”亚默尔原本只是平平无奇的淘金者之一,直到他第一时间抓住了淘金者对水的需求并通过开挖水渠的方式打造了一个专属于他自己的饮用水生产线。

在如今的大模型中局,时间问题无需考虑,也不存在有谁能在某项服务中能占据垄断地位。那么讨论的重点便在于其提供的服务。

大模型的服务需求则可以用AI三要素来概括,分别是算力、算法与数据,其中算力是相对最缺乏竞争力的领域。因为算力在淘金者的视角下仅仅只是成本,而在送水人的视角下却是商品,单纯提供算力难免会陷入价格战的怪圈,反过来掣肘自己的大模型训练。

算法与数据则与此相反,两者均可以提高大模型的训练效率,甚至直接影响训练成果。只是长远看来,这两项服务的前景也不甚乐观。

算法方面,OpenAI就是最好的例子,被开发者戏称为“CloseAI”的原因之一便是其坚持闭源。大模型训练中的策略、算法是可以作为企业护城河的核心资产,“送水人”开放给外界使用的程度将直接关联自家大模型的竞争强度,数据方面也是如此。反之,购买大模型服务的企业也会要求算法与数据的安全,争取在“安全线”之下有限的互帮互助。

目前看来,“送水人”们除非退出通用大模型的竞争,否则送水的动作也很可能只是在成本控制上的锦上添花,真正的“送水人”还得是英伟达。这也意味着,我们需要另寻更切实的路径。

日前,OpenAI关闭付费渠道已在业内引起不小的讨论,最有可能的原因是GPT4在接入微软全栈应用后算力吃紧,只能暂时放弃C端增长来稳住大金主。而OpenAI联合创始人兼CEO Sam Altman更是公开表示OpenAI已接近LLM的极限,认为LLM的规模不再是衡量模型质量的重要指标,未来将有更多的方式来提升模型的能力和效用。

换句话说,大模型中场之际,OpenAI在否决了一昧追求规模的路径同时为行业指出了大模型的迭代新路,即通过优化训练策略、全局调度以减少投入成本,同时将笨重的大模型转向小而美的方向发展。

杨军对此颇有研究,并对此介绍了部分海外已经开始的创新案例。

关注系统优化并结合模型训练策略进行全链路训练优化的公司MosaicML提出,通过将参数降低至300亿同时将Token数提升至61亿,以256张40GB的A100为资源训练一个周期,只需要36天即可得到与GPT3相同质量的训练结果,而成本仅需要88万美元,几乎是GPT3原始训练成本的三分之一。除了训练策略的优化外,通过对CPU主存+磁盘外存+GPU显存的使用进行全局调度优化,让低端显卡serve大模型成为可能。

“一款AI框架解决的其实是上层的业务模型需求到底层计算硬件执行的映射问题,在性能足够的情况下,仅拼性能就可能陷入了‘技术有深度但竞争呈红海’的战场。”

为了避免这样的竞争,不少大模型在推出时便在宣传上做了一定的区分,关键在于是否存在“通用”二字。这其中有源自NPL基底并在数个领域直接落地的星火、根植办公场景的金山“WPS AI”、立足于问答社区生态的知乎“知海图AI”等,其共同点在于针对具体场景,以对行业的纵深理解与数据支撑为基础,以大模型的“涌现”能力为跳板,实际上却是披着通用大模型外衣的中小模型。

送水人也可以参考这样的“技术商人“的思维。在杨军看来,与其参与无谓的hardcore“内卷”,不如去思考自己的技术点在可以在完整商业链中发挥什么功能,完成什么闭环,通过能力与方向的差异化发掘更多价值。

共3页: 上一页下一页

>相关《大模型们背后的“小算盘”(2)》内容:


1、 首批将应用于教育、汽车等领域,科大讯飞发布讯飞星火认知大模型 | 科技前线

钛媒体App 5月6日消息 ,科大讯飞发布讯飞星火认知大模型。现场,科大讯飞演示了大模型的七项核心能力,包括:语音输入,实时互动、文本生成、语言理解、知识问答、逻辑推理和数学能力,并展示了其在教育、办公、汽车、数字员工四大行业应用成果。 科大讯...【继续阅读】


2、 讯飞星火认知大模型发布 年内还有这些AI大事件

智通财经APP获悉,讯飞星火认知大模型成果发布会于5月6日下午召开,讯飞AI学习机、讯飞听见、讯飞智能办公本、讯飞智慧驾舱、讯飞开放平台等应用成果也同步发布。 国联证券发布研究报告称,大模型技术可以在数据和应用层面形成良好协同,对相对成熟下游领...【继续阅读】


3、 大模型之战,科大讯飞姗姗来迟?

自ChatGPT火爆,科大讯飞的存在感就水涨船高,连发布大模型都预告了一遍又一遍,5月6日,科大讯飞终于有了干货,正式发布讯飞星火认知大模型,以及在教育、办公、汽车、数字员工四个行业的应用成果。 或许是因为已有了百度的文心一言、阿里的通义千问等先...【继续阅读】