学习理财博客空间

理财鱼

您现在的位置是:理财鱼 > 理财方法 >

理财方法

淘金AI时代的“卖水人”,数据标注为何没站上风口?(2)

发布时间:2021-07-26 16:13理财方法 评论

但在趋势之外,这些硅谷公司依然在全球采用大量廉价劳动力从事数据标注服务,就这一点来看,中国公司和这些海外公司相比,差异似乎就小了很多。可无论在产业规模还是发展速度上,如今中国数据标注该企业都还和Scale AI有很大差距,要弄清楚这种情况出现的原因,我们就不得不去分析国内人工智能公司的创业以及生存环境。

创业者不能“大力出奇迹”

在中国,数据标注独角兽没有出现的首要原因,在于创业公司缺乏人工智能领域人才和数据。

根据2018年脉脉发布的《中国人工智能人才数据报告》中显示,人工智能相关人才几乎都聚集于百度、阿里、腾讯、京东等互联网科技巨头手中,而这些企业,更倾向于将数据掌握在自己手中。

淘金AI时代的“卖水人”,数据标注为何没站上风口?


不过,数据标注这样的体力活,巨头也需要通过自己平台的外包服务来解决。因此就出现了百度众测、京东微工、阿里众包、腾讯搜活帮等众多数据标注平台。

与初创公司相比,这些大平台无疑在外包服务领域具有较强的品牌竞争优势,并且更进一步,还吸收了国内廉价但更好用的数据标注劳动力,这意味着海外创业公司外包廉价劳动力到发展中国家的“大力出奇迹”方法在国内没有用了,所有这些都加剧了创业者从众包平台起步的难度。

不过,由于网络数据规模过于庞大,大公司们也意识到,即便自己拥有数据标注平台以及众多相关人才,但数据标注的成本也在不断增加。

一位业内人士举了个例子,比如市场人工翻译每单词平均价格约7.5美分,假设单个句子平均长度为30个单词,1000万个句子人工翻译标注的成本约为2200万美元;若需支持上百种语言的互译,人工标注训练集的成本将达到上千亿美元。

这样的开销并不少,因此一些不太核心的数据标注业务便被派给第三方公司以降低成本。比如腾讯参投的标贝科技,小米参投的海天瑞声等,这些公司承接了一些大公司的相关数据标注,逐渐在市场上存活下来。

不过,出于数据安全和市场竞争的原因,一些公司依然把重要的核心数据标注拿在自己手中。曾在英伟达自动驾驶组实习的研究员张航就表示“比如自动驾驶人命关天,通常是技术人员自己标注,而且雇佣培训了几位专门的标注人员。”

如此种种,便在国内造成一种现象:科技互联网公司扎堆人工智能,但数据标注行业却少有人踏足,一边是激烈的巨头竞争,一边是人才资源的缺乏。

相关数据也证明了这一点。数据标注公司从2014年开始不断增加,并在2017年达到高峰,根据前瞻产业研究院统计,2017年数据标注相关融资事件达到9起,但在此后便有所减少,到2021年4月,共有18家公司获得融资,投融资事件39起。

淘金AI时代的“卖水人”,数据标注为何没站上风口?


从融资规模来看,千万级人民币规模算是常态。即便是已经新三板上市的数据堂,如今市值也只有1亿元人民币左右。

至于“准上市公司”海天瑞声拟IPO融资7.66亿元人民币,这笔融资如果成功将是中国数据标注行业最大的一笔单额融资。但是,海天瑞声的上市之路也比较波折,在2019年因外界对其“人工智能(AI)”表述存在问题冲击IPO失败,尽管2020年再次传出IPO过会的消息,但在今年7月13日才刚刚获得证监会的“同意科创板注册”。

淘金AI时代的“卖水人”,数据标注为何没站上风口?


能够看出,这些融资较多的公司都已经不在“劳动密集型”的第一阶段,而是进入到了技术更迭以及垂直整合数据服务的下一阶段,可即便如此,在盈利方面依然无法和海外独角兽相比。

以海天瑞声为例,这是一家提供AI算法训练数据产品及解决方案的服务商,主攻方向是自然语义识别,语音合成。从2005年成立到2020年11月IPO过会,海天瑞声共经历了漫长的20年时间,如今其主要客户包含微软、阿里巴巴、百度、腾讯等巨头企业,但2020年总收入为2.33亿元,净利润仅0.82亿元。

Scale AI呢?这家公司自2016年成立至今,便吸引了包括Waymo、OpenAI、Airbnb、Nuro 和 Lyft 等公司,提供数据标注、解读数据、数据可视化、清洗数据等服务。更是在2020年9月首次和美国军方达成合作,拿下美国国防部9100万美元大单,协助美国军方试验、开发以及更新用于机器学习和AI的标注数据集,创始人曾在此前提到,其2020年营收将达到1亿美元。

还有一些国内公司,则在尝试新的赛道,比如把目光放在自动驾驶领域。以龙猫数据为例,经历4轮融资,可承担千万人以上样本量的数据采集和标注优势,自称是可调动数据处理人员最多的数据服务平台。

能够看出,即便是国内已经发展十五年的企业,在数据标注领域依然和海外公司存在一定差距,只有那些正确判断出人工智能产业变化趋势的公司,才能借风口获得扩张。但除了我们前面分析的市场竞争激烈以及人才缺乏问题外,还有什么是国内没有产生独角兽的原因呢?

中国独角兽何时能出现

关于中国之所以没能出现独角兽,赢识科技创始人兼首席执行官楚汝峰表示,竞争激烈和市场不集中是主要原因:“国内做标注的小作坊太多了,市场不集中。大公司或一定规模的公司的都或多或少有自己的外包团队,同时和外部标注团队合作。”

但同时他也认为,经历多年发展,一些有资历,有专业领域人才的数据标注公司能够具备一定的竞争壁垒,他们有机会继续成长起来。“例如当巨头寻求外部合作时,他们往往缺少某个领域的数据,这对数据标注公司来说就是一个绝佳的机会。”

腾讯优图实验室总监郑冶枫也有类似看法,他以医疗领域举例:“难点一方面体在顶尖的医疗数据标注人才缺乏,另一方面在于临床、科研任务重,很多医疗专家没有时间和精力做数据标注。”

共3页: 上一页下一页

>相关《淘金AI时代的“卖水人”,数据标注为何没站上风口?(2)》内容:


1、 恒天财富2.0时代下的新使命:通过转型创新 创造长期财富价值

理财鱼小提示:恒天财富2.0时代下的新使命:通过转型创新 创造长期财富价值 2018年资管新规的出台重新规范了财富管理行业秩序,在打破刚兑的政策导向下,整个财富管理产品供给端迎来调整,与此同时,居民的财富管理观念也随之发生变化,配置需求从原先单一的比价...【继续阅读】


2、 研发还投不投?甘李药业谈后集采时代的胰岛素规划

《科创板日报》(上海,记者 金小莫)讯,胰岛素国采后,有投资人士认为,虽然国产胰岛素得以放量,但总体来看,该品类已“看点不足”。日前,甘李药业副总经理孙程则在第十四届中国医药战略大会上称,不因外在的政策变化而影响到自己的坚持,“胰岛素市场...【继续阅读】


3、 宁德时代市值一日蒸发千亿背后:万亿电池帝国裂缝究竟有多大?

《科创板日报》(上海,记者 曾乐)讯,近日,有媒体报道称,小鹏汽车决定削减宁德时代(300750)的供货份额,引入新的主力电池供应商中航锂电。对此,小鹏汽车相关负责人回应财联社记者表示,“车辆生产的零部件供应链需要不断完善,才能更好地保供保产,更加...【继续阅读】