学习理财博客空间

理财鱼

您现在的位置是:理财鱼 > 理财方法 >

理财方法

AI大模型,AI赛道一场不能输的“钞”能力军备竞赛?

发布时间:2022-03-02 15:48理财方法 评论

AI大模型,AI赛道一场不能输的“钞”能力军备竞赛?


偲睿洞察,作者丨蔡凡

从2020年开始,国际最顶尖的AI技术发展,愈来愈像一场比拼资金与人才的军备竞赛。

2020年,OpenAI发布NLP预训练模型GPT-3,光论文就有72页,作者多达31人,该模型参数1750亿,耗资1200万美元;

2021年1月,谷歌发布首个万亿级模型Switch Transformer,宣布突破了GPT-3参数记录;

4月,华为盘古大模型参数规模达到千亿级别,定位于中文语言预训练模型;

11月,微软和英伟达在烧坏了4480块CPU后,完成了5300亿参数的自然语言生成模型(MT-NLG),一举拿下单体Transformer语言模型界「最大」和「最强」两个称号;

今年1月,Meta宣布要与英伟达打造AI超级计算机RSC,RSC每秒运算可达50亿次,算力可以排到全球前四的水平。

除此之外,阿里、浪潮、北京智源研究院等,均发布了最新产品,平均参数过百亿。

看起来,这些预训练模型的参数规模没有最大,只有更大,且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现,一次次刷新人们的认知。

本文,我们试图回答三个问题:

1. AI大模型,越大越好吗?

2. 大模型的技术瓶颈在哪里?

3. 它是实现强人工智能的希望吗?

01、大力出奇迹

AI大模型,AI赛道一场不能输的“钞”能力军备竞赛?


(图片来源:theverge)

人工智能的上一个里程碑出现在2020年。

这一年,由OpenAI公司开发的GPT-3横空出世,获得了“互联网原子弹”,“人工智能界的卡丽熙”,“算力吞噬者”,“下岗工人制造机”,“幼年期的天网”等一系列外号。它的惊艳表现包括但不限于:

有开发者给GPT-3 做了图灵测试,发现GPT-3对答如流,正常得不像个机器。“如果在十年前用同样的问题做测试,我会认为答题者一定是人。现在,我们不能再以为AI回答不了常识性的问题了。”

AI大模型,AI赛道一场不能输的“钞”能力军备竞赛?


艺术家和程序员 Mario Klingemann,想让 GPT-3写一篇论述“上Twitter重要性”的短文。他的输入条件是 1)题目:“上 Twitter 的重要性”;2)作者姓名:"Jerome K. Jerome" 3)文章开头的第一个字 "It"。

GPT-3不仅行文流畅,更是在字里行间暗讽,Twitter是一种所有人都在使用的、充斥着人身攻击的社交软件。

更高级的玩法是,开发者在GPT-3上快速开发出了许多应用,例如设计软件、会计软件、翻译软件等。

从诗词剧本,到说明书、新闻稿,再到开发应用程序,GPT-3似乎都能胜任。

为什么相较于以往的AI模型,GPT-3表现得如此脱俗?答案无他,“大力出奇迹”。

1750亿参数、训练成本超过1200万美元、论文长达 72 页,作者多达 31 人,就连使用的计算也是算力排名全球前五的“超级计算机”,拥有超过 285000个CPU,10000个GPU和每秒400G网络。

“壕无人性”的结果,创造出两个里程碑意义:

首先,它本身的存在,验证了参数增长、训练数据量增大,对AI模型的重要意义,“炼大模型”,的确能让AI取得突破性效果;

其次,它使用了小样本学习(Few-shot Learning)方法,令预训练模型在不必使用大量标记的训练数据,并持续微调的情况下,仅仅只要给出任务描述,并给出几个从输入到输出示例,便能自动执行人物。这意味着,它将突破AI碎片化难题,让后续开发者得以在巨人肩膀上发展,而不用针对一个个场景“平地起高楼”。

GPT-3之后,AI大模型军备赛才真正加速打响。一年之内,有头有脸的巨头争相拿出了成绩,秀组足肌肉。国外有谷歌、微软、Meta等巨头,国外如华为、阿里、浪潮等企业均下场参战,模型平均参数上百亿。

从规模上看,巨头的模型一个比一个厉害,突破竞速赛好不热闹。不过“内里”有差别,不同模型参数无法简单对比。

例如,谷歌Switch Transformer,采用了“Mixture of experts”(多专家模型),把数据并行、模型并行、expert并行三者结合在一起,实现了某种意义上的“偷工减料”——增大模型参数量,但不增大计算量。不过,降低计算量后的效果有无损失,谷歌论文中没有过多正面提及。

再例如,浪潮发布的“源1.0”,参数规模2457亿,采用了5000GB中文数据集,是一个创作能力、学习能力兼优的中文AI大模型。据开发者介绍,由于中文特殊的语言特点,会为开发者带来英文训练中不会遇到的困难。这意味着,想要做出和GPT-3同样效果的中文语言模型,无论是大模型本身,还是开发者,都需要付出更大的力气。

不同模型各有侧重点,但秀肌肉的意图是通用的——做大模型,大力出奇迹

02、瓶颈在哪里?

在斯坦福大学众多学者联合撰写的文章《On the Opportunities and Risks of Foundation Models》中,作者们一针见血地指出了以GPT-3、Switch Transformer、源1.0代表的AI基础模型的两大意义,也是风险所在:同质化与涌现

所谓同质化,是指目前几乎所有最先进的NLP模型,都源自少数基础模型之一,例如GPT、BERT、RoBERTa、BART等,它们成了NLP的“底座”。

论文指出,虽然基础模型的任何改进可以为所有NLP任务带来直接改善,但其缺陷也会为所有任务继承。所有人工智能系统都可能继承一些基础模型相同的错误偏误。

所谓“涌现”,指的是在巨量化的AI模型中,只需给模型提供提示,就可以让其自动执行任务。这种提示既没有经过专门训练,也不被期望在数据中出现,其属性即为“涌现”。

涌现意味着系统的行为是隐式归纳而不是显式构造的,故令基础模型显得更难以理解,并具有难以预料的错误模式。

总而言之,体现在效果上,以GPT-3为例,“同质化”与“涌现”的风险已经显现

例如,一位来自Kevin Lacker的网友在与GPT-3对话中,发现其在对比事物的重量、计数方面缺乏基本常识和逻辑。

难以预料的错误还包括严重的“系统偏见”。Facebook人工智能主管Jerome Pesenti在要求GPT-3讨论犹太人、黑人、妇女等话题时,系统产生了许多涉及性别歧视、种族歧视的“危险”言论。

有病人对GPT-3表示自己感觉很糟糕,“我应该自杀吗”,GPT-3回答:“我认为你应该这么做。”

类似的案例还有很多,也许正如波特兰州立大学计算机科学教授 Melanie Mitchell所认为的,GPT-3具有“令人印象深刻、看似智能的性能和非人类的错误。”

共2页: 上一页下一页

>相关《AI大模型,AI赛道一场不能输的“钞”能力军备竞赛?》内容:


1、 一轮融资36亿,投资人直言:这个赛道有些项目太贵了

理财鱼小提示:一轮融资36亿,投资人直言:这个赛道有些项目太贵了 近半年时间,提到消费赛道,一个最常出现的修饰词叫“遇冷”。就在几天前,一消费投资人还在感慨,“难搞,2022年可能消费不会火了”。 不过,对于投资人来说,赛道热不热倒是其次,持续发掘机...【继续阅读】


2、 新经济风云录|拟百亿元“抢入”硅料赛道,上机数控有望“弯道超车”?

理财鱼小提示:新经济风云录|拟百亿元“抢入”硅料赛道,上机数控有望“弯道超车”? 港股解码,香港财华社王牌专栏,金融名家齐聚。看完记得订阅、评论、点赞哦。 2021年,在硅料供应紧缺的背景下,光伏硅料环节投资热潮再起,不仅是大全能源等硅料巨头相继...【继续阅读】


3、 春季攻势徐徐展开?机构提前锁定多条赛道

2月以来,A股市场在月初反弹后宽幅震荡, 地缘局势的不确定性也成为影响A股走势的重要因素。 但外部短暂的变量并未改变A股长期的趋势,且从机构对上市公司的调研数据看,对工业、信息技术、材料、消费等多条赛道依旧看好。 // 工业、信息技术、材料关注高...【继续阅读】