使用小样本学习可以在人工智能项目落地过程中彻底解决对大量训练数据的依赖。

带着观点看商业。超级观点,来自新商业践行者的前沿观察。

文 | 顾夏辉,子长科技(1STEP.AI)CTO、创始人

编辑 | 吕方

AI应用的心病:数据缺失

人工智能(AI)一直是被热议的话题,但围绕着人工智能的讨论往往是“人工智能产业是否存在泡沫?”,“人工智能的估值是否过高?”。

人工智能不同于传统软件或系统开发项目,在各个领域的落地都存在很多问题,比如技术难度大、研发成本高、项目周期长。即使是行业里的头部公司,短期内也很难实现技术落地和商业化。

以行业头部计算机视觉公司旷视科技为例,据其港招股书显示,2016年、2017年和2018年,公司营业收入分别达到人民币6780万元、3.13亿元和14.27亿元,但亏损分别达3.43亿元、7.58亿元和33.52亿元。类似的还有寒武纪,即使已经成为人工智能芯片领域的头部公司,其在2017-2019年的三年亏损总额也超过了16亿元。

其中一个原因是当前人工智能的成果很大程度上还是人工堆砌,成本非常的高。

大部分人工智能项目需要机器学习的训练过程,而这个过程需要大量标注了答案的训练数据,即监督学习。据统计,在整个人工智能项目开发过程中80%的工作量都是准备训练数据,就算对于简单的数字图像识别,也需要五六千张数据图像作为训练数据。而这些数据都需要人工标注,比如目前国内某知名直播品牌就有4万名数据标注员工。

除了模型训练的高成本,找到大量可用于标注的训练数据的成本也非常高。由于信息安全、工作量等原因,很多为甲方开发定制的人工智能项目,往往很难获得大量有效的专项标注数据,而没有大量的数据就无法进行有效的机器学习。但数据是一个企业的核心,无法获得企业提供的数据进行训练是人工智能应用的心病。这就需要人工智能公司自行标注或准备大量训练数据,这个过程又增加了项目成本。因此降低数据准备的成本对人工智能落地至关重要。

数据准备的解药:预标注、数据增强、迁移学习

目前比较流行的降低数据准备成本的方法有预标注、数据增强、迁移学习等方法。

预标注是利用已有模型或者规则对训练数据进行自动标注,再把预标注后的训练数据交给数据标注人员进行标注。这个方法可以有效的降低人工标注的工作量。但预标注要求质量较好的预标注模型,并且标注人员需要对预标注错误的结果进行纠正。也就是说即使进行了预标注,还是需要大量的检查工作量,这种方法获得准确的标注训练数据的成本依然较高。此外,预标注方法还依赖于海量的训练数据为基础,实质上并没有解决需要大量可标注数据的问题。

数据增强是一种基于已有训练数据的基础,对数据进行自动扩充,从而获得更多的训练数据的方法。例如对图片进行标注,通过对图像旋转、截取等方式获得更多的图片数据,使用这种方法可以在少量的训练数据上进行标注,然后通过增强的方式获得大量已标注训练数据,同时解决了数据标注的工作量和对训练数据数量的依赖。但数据增强的过程需要开发模型生成或者是用规则生成,这又产生了数据增强的工作量。而如果通过数据增强的训练数据结果不够多样化,容易出现过拟合的情况,也就是在训练数据集中的结果很好,但在实际生产中的效果较差,模型过度拟合到训练数据。

迁移学习是将其他相似领域中已经充分训练过的模型作为预训练模型,以这个预训练模型为基础,使用目标领域的训练数据进行微调训练,从而获得适应于目标领域的模型。这种方法经常用于不同语言的翻译过程,但不管是预训练模型的训练过程还是微调的过程,依然需要大量的训练数据,否则还是存在过拟合的问题。

以上的三种方法都是希望通过降低训练数据数量,降低人工标注的成本和模型数据的准备成本,但仍然都存在着各种各样的问题。

数据救心丸:小样本学习

我们人类可以从很少的样本中获得某个新领域的知识,这个过程比起机器学习需要依赖成千上万的数据作为训练数据来说快捷很多。这是因为人类有举一反三、融会贯通的能力,可以将其他领域所积累的知识应用到对新领域理解的过程中,但如果完全从零开始学习一个新的知识,学习速度也是很缓慢的。

小样本学习(Few shot learning)与人类学习新领域的方式非常接近。它细分了很多种方法,但都是通过对其他各个领域知识的积累,在新的领域中寻找与所积累的知识的共性,从而快速的对新领域知识进行学习。只需要在新领域只提供几十个甚至几个样本数据,小样本学习就可以对新领域的知识进行学习理解。

小样本学习其实也是一种迁移学习。与其他迁移学习不同的是,小样本学习最大程度的利用了模型在各个领域数据训练的积累,大大降低了训练数据的数量,相比数据增强和迁移学习也有着更好的抗过拟合的效果。更重要的是,小样本训练可以将各个领域的学习过程积累下来,从而在不增加新领域训练数据的同时,获得更好的学习效果。

使用小样本学习可以在人工智能项目落地过程中彻底解决对大量训练数据的依赖,而由于减少了数据标注的工作量,模型训练的成本和周期也降低了。目前越来越多的主流人工智能公司开始对小样本学习方向发力,比如1STEP.AI已经可以在SMP小样本学习的比赛中,对小于十个样本的情况下,做到文本意图识别83.4%的准确率。通过可商用的小样本学习能力,可以解决项目冷启动、项目学习、实施成本等问题。

目前衡量一家人工智能公司是否具有落地能力,主要看这家公司是否找到了用户痛点、是否有算法、算力和数据能不能解决用户痛点。而使用小样本学习不仅能解决数据问题,同时可以降低训练所需要的算力,人工智能公司就可以把全部精力放在研究算法来解决用户痛点上,这样也简化了人工智能落地的复杂度。当然小样本学习不是变魔术,积累越多学习越快,作为一个新的研究方向它需要更为复杂的预训练过程。

不过由于小样本学习可以大大降低人工智能项目的落地成本,解决企业数据泄露的后顾之忧,所以未来很可能变成人工智能落地的一个重要方向。

“超级观点”栏目现发起“特约观察员入驻”计划,邀请各赛道的创业者、大公司业务线带头人等一线的商业践行者,在这里分享你的创业体悟、干货、方法论,你的行业洞察、趋势判断,期待能听到来自最前沿的你的声音。

欢迎与我们联系,微信:cuiyandong66;邮箱:guanchayuan@36kr.com