学习理财博客空间

理财鱼

您现在的位置是:理财鱼 > 理财方法 >

理财方法

淘金AI时代的“卖水人”,数据标注为何没站上风口?

发布时间:2021-07-26 16:13理财方法 评论

人工智能领域专家李飞飞曾分享过一个故事:在开启备受关注的ImageNet项目后,为了让机器理解图片内容,他们需要对10亿张图片进行标注,这项工作难度不大,但浩如烟海的数据量却不是一个小团队能够完成的,即便她和博士生不吃不喝不睡,也需要20年时间才能做完。

最终,图片的标注被作为众包项目分配给了全球167个国家的5万名参与者,所有人耗时三年时间才将项目完成,而据李飞飞描述,这些互联网上参与标注的人中,很多人并不知道自己亲身参与了如此重要的科研项目。

这个故事至少说明了两个重要事实:其一,在人工智能领域,有多少人工就有多少智能,数据标注是让机器理解世界的前提;其二,数据标注的工作并不复杂,但耗费大量的人力和时间,因此众包成为一种有效手段加速算法进化。

数据有多重要?前百度首席科学家,人工智能领域专家吴恩达曾说:“AI系统就是代码+数据,绝大多数学术型竞争对手都不会去碰数据,只是让团队在代码上忙活,但却很少有团队不动代码,去在数据上下功夫。”

但当资本不断涌入人工智能领域,这两个重要事实便催生出一个由人工智能和外包相结合的基础行业——数据标注,并在过去几年时间飞速发展,成为人工智能领域绕不开的重要一环。

今年4月,以数据标注起家的硅谷创业公司Scale AI宣布获得3.25亿美元E轮融资,随后估值迅速攀升至70亿美元,在短短四个月时间里便完成了估值翻倍的“奇迹”,而从0到70亿美元,这家公司只用了短短5年时间,成为成长最快的SaaS公司之一。

但在大洋对岸的中国,同样的数据标注产业,既没有公司能做到Scale AI如此快速的成长,也没有出现任何高估值的超级独角兽,相关行业投融资事件更是逐年降低。

这种对比之下一个问题几乎脱口而出:为何明明存在优势,但中国却没出现数据标注巨型独角兽?是什么造成中美两国间数据标注行业差异?这一领域前景究竟如何?

淘金时代的“卖水人”

作为一条既不性感也不独特的赛道,数据标注曾让很多人工智能公司不屑一顾。因为在淘金般火热的人工智能领域,大多数公司目光都聚焦于追求更先进的算法、平台框架建设、商业化,而这些以技术为核心的公司往往也能很快脱颖而出并受到投资者青睐。

但数据标注却是一项吃力不讨好的体力活。其主要任务便是针对语音、图像、文本等进行标注,主要通过做标记、框对象、做注释等方式对数据集作出标注,再将这些数据集给机器训练和学习,往往工作量大,但工作难度较低,通常一个大学生经过一上午的培训就可以完成。

ImageNet项目以亲身实践告诉世人,只要寻找到足够人手,数据标注(还有数据采集)就不是问题,甚至外包人员不了解全貌也并没有影响最后的实验结果。从某种角度来看,这更像是劳动密集型产业而非高科技产业,门槛低、费时费力、回报率不高是很多公司不愿意做数据标注的原因所在。

但就在这些AI公司纷纷冲进赛场准备大力掘金之时,以Appen、Scale AI、Labelbox为代表的公司却敏锐洞察到这场淘金热背后稳赚不赔的买卖——数据标注,它们如同淘金时代的卖水人一般,揽下了“脏活累活”,却真正在人工智能领域做到“闷声发大财”,让人惊讶不已。

对这一领域的头部企业进行梳理便能看出行业现状:Appen通过提供或改进用于机器学习和人工智能产品开发的数据,在2015年上市,目前已经成为市值15.73亿澳元(约合11.59亿美元)的企业;Scale AI则在短短5年融资6轮,融资总额6亿美元,估值70亿美元;Labelbox则更为年轻,成立3年融资4轮,融资总额7900万美元,不过官方拒绝公布其估值。

这只是行业的一个缩影,但也足以证明数据标注的价值并不低。实际上,无论是从产业结构还是时间分配占比来看,数据标注都并非可有可无的存在,正是因为有优质数据存在,才会训练出优质的算法,而“垃圾数据只会制造垃圾算法”,正如Scale AI创始人Alexandr Wang曾提过的:

“机器学习绝对是一种垃圾输入、垃圾输出的框架——你真的需要高质量的数据来支持这些算法,这就是我们今天用这些数据集从开源角度推动行业发展的原因。”

知名深度学习项目DeOldify联合创始人Jason Antic也认可这一观点,在他看来“机器学习是一个‘黑盒’,AI从数据中抽取任何可能的规则。”所以数据标注不仅是人工智能技术的基础,更重要的是一旦它不能达到要求,结果可能非常糟糕。所以大公司不但有数据标注需求,更对高质量的数据有强烈需求。

淘金AI时代的“卖水人”,数据标注为何没站上风口?


正因如此,当我们再去思考海外数据标注公司为何估值如此之高时,不难发现他们在做的不仅仅是数据标注工作,更是将目光瞄准到如何生产优质数据、不断提高效率这件事上。比如Scale AI编写了Nucleus这套软件 ,帮助客户快速搜索数据并找到标记错误的例子,从而让客户提高人工智能算法的性能。

再比如新兴的Labelbox,其软件可以通过分析AI模型,指导数据科学家找到他们应该使用的标签,并预先标记数据以加快流程。Labelbox表示,其技术可以减少80%的人力。这很重要,因为从许多角度来看,仅标记过程就会消耗大量时间。

淘金AI时代的“卖水人”,数据标注为何没站上风口?


监督学习仍然是当前人工智能算法训练的主要方式,因此大规模、高质量的人工标注数据集是产业发展的刚需。但除了扩大人员规模这条简单的扩张之路外,硅谷公司在发明更好用工具这件事上有了更进一步的努力,这些努力也是为了适应数据标注新趋势:

第一,数据标注流程日益智能化。通过与标注技术和半自动化校验的方式辅助人工标注已经成为当前发展重点,业内涌现出一批标注工具,可对标记图像直接生成分割轮廓,并借助人工进行微调;

第二,标注数据的质量要求正不断提升。自动驾驶、工业制造等智能场景愈发复杂,高质量、精细化的标注数据直接影响算法鲁棒性(控制系統的稳定性)和准确性,标注准确率需求从90%提升至99%;

第三,医疗、工业等差异化垂直应用驱动数据标注服务进一步贴合个性化、多元化的场景需求。如Scale AI为自动驾驶场景提供标注服务,对车道、烟尘、尾气、雨水等更为个性化的目标物体进行标注。

共3页: 上一页下一页

>相关《淘金AI时代的“卖水人”,数据标注为何没站上风口?》内容:


1、 恒天财富2.0时代下的新使命:通过转型创新 创造长期财富价值

理财鱼小提示:恒天财富2.0时代下的新使命:通过转型创新 创造长期财富价值 2018年资管新规的出台重新规范了财富管理行业秩序,在打破刚兑的政策导向下,整个财富管理产品供给端迎来调整,与此同时,居民的财富管理观念也随之发生变化,配置需求从原先单一的比价...【继续阅读】


2、 研发还投不投?甘李药业谈后集采时代的胰岛素规划

《科创板日报》(上海,记者 金小莫)讯,胰岛素国采后,有投资人士认为,虽然国产胰岛素得以放量,但总体来看,该品类已“看点不足”。日前,甘李药业副总经理孙程则在第十四届中国医药战略大会上称,不因外在的政策变化而影响到自己的坚持,“胰岛素市场...【继续阅读】


3、 宁德时代市值一日蒸发千亿背后:万亿电池帝国裂缝究竟有多大?

《科创板日报》(上海,记者 曾乐)讯,近日,有媒体报道称,小鹏汽车决定削减宁德时代(300750)的供货份额,引入新的主力电池供应商中航锂电。对此,小鹏汽车相关负责人回应财联社记者表示,“车辆生产的零部件供应链需要不断完善,才能更好地保供保产,更加...【继续阅读】