工业和信息化部主管 中国电子报社主办
收藏本站投稿

云计算

《小数据人工智能的巨大潜力》摘译

2021年9月,美国安全与新兴技术研究中心(CSET)发布《小数据人工智能的巨大潜力》报告。赛迪智库信息化与软件产业研究所对报告进行了编译,期望对我国有关部门有所帮助。

“ 报告认为,人工智能不完全依赖大数据,“小数据”方法可以针对标记数据不足的情况提供替代性解决方案,拥有巨大人工智能潜力。报告介绍了迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习五类小数据方法,分析了各类方法在人工智能应用方面的优势,并通过对论文研究集群的统计分析探究了小数据方法研究进展、领先国家相关领域竞争力分析及研究资金投入情况。”

传统观点认为,尖端人工智能依赖于大量数据,一个国家(或企业)能够获取的数据量是其人工智能进展的关键指标。当前很多人工智能系统确实使用了大量数据,然而,并非所有人工智能系统都需要海量数据作为支撑,小数据也拥有巨大人工智能潜力。为此,本文介绍并概述了“小数据”人工智能方法,该方法有助于解决标记数据不足的问题,进而挖掘数据潜能,并鼓励政府部门、行业企业突破大数据基础设施局限,实现人工智能创新。

一、“小数据”方法的分类

本研究将“小数据”方法分为了五大类:迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习。在没有大型预标记数据集的情况下,可以利用这些方法训练人工智能系统。

迁移学习(Transfer learning)是一种机器学习方法,可以在数据丰富的环境中学习执行任务,而后将所学知识“迁移”到可用数据少的任务中。这一方法对于解决关联问题标记数据丰富但所研究问题数据不足的情况有很大价值。

数据标记(Data labeling)方法,即从有限的标记数据和大量无标记数据开始,使用一系列方法来理解可用的未标记数据。例如自动生成标记(自动标记)或识别标记重要数据点(主动学习)。

人工数据生成(Artificial data generation)方法,旨在通过创建新数据点或其他相关技术,最大限度地从少量数据中提取更多信息。该方法可以通过对现有数据的小幅更改(如图像分类数据集中裁剪或旋转图像)或其他更复杂的方法,推断可用数据的基础结构并从中进行推测。

贝叶斯方法(Bayesian methods)是机器学习和统计学的一种大类方法,有两个共同特点。首先,该方法明确地将问题先验信息纳入其解决问题的方法中,而其他方法则更倾向于对研究问题做出最少的假设。贝叶斯方法会在数据进一步改进之前合并这些“先验”信息,因此更适合某些数据较为缺乏,但可以采取实用数学形式写出问题相关信息的环境。其次,贝叶斯方法侧重于对其预测的不确定性进行良好校准后的估计。该方法可以更容易地识别数据点,从而极大减少不确定性,在可用数据有限的情况下能发挥很大作用。

强化学习(Reinforcement learning)是一个关于机器学习方法的广义术语,在强化学习中,计算机系统通过反复试验来学习如何与环境进行交互。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车。

微信截图_20220609101736.png

▲图1:小数据研究集群网络图

二、“小数据”方法的意义

与数据密集型方法相比,不依赖预先收集和标记的大型数据集的人工智能方法具有很多优势。

(一)减少大小实体之间的能力差异

很多人工智能应用的大型数据集价值不断增长,同时不同机构收集、存储和处理所需数据的能力存在差异,这有可能在人工智能“拥有者”(如大型科技企业)与人工智能“匮乏者”(如小型机构)之间形成差距。对此,迁移学习、自动标记、贝叶斯方法等小数据方法能够以较少的数据应用人工智能,将有助于减少小型机构进入数据领域的壁垒,缩小大小实体之间的能力差异。

(二)减少收集大量个人数据的动机

多项调查表明,人们认为大型科技企业会持续收集越来越多与个人身份相关的消费者数据,用于训练其人工智能算法,并由此引发人们对人工智能威胁个人隐私的担忧。对此,某些小数据方法通过人工生成新数据(如合成数据生成),或对算法进行模拟训练,将有效去除敏感的个人可识别属性,从而减少为训练机器学习模型而收集真实世界数据的需要,减轻人们对大规模收集、使用或泄露消费者数据的担忧。

(三)推动在可获得数据点较少的领域取得进展

小数据方法可以为人们提供一种处理数据匮乏或缺失情况的可靠途径,解决面对重要问题时,输入人工智能系统的数据很少或不存在的情况。例如,为一组没有电子健康记录的人构建一个疾病风险预测算法,或者预测有很长喷发周期的火山再次喷发的可能性。小数据方法可以利用标记和无标记数据从相关问题中迁移知识,利用人们手头的少量数据点创建更多数据点,利用与研究领域相关的先验知识,或通过构建模拟场景或编码结构化假设来进入一个全新领域。

(四)规避脏数据问题

在数据利用过程中,要获得干净、结构整齐、方便研究的数据常常需要付出大量努力。对此,迁移学习、贝叶斯方法或人工数据生成方法可以通过分别依赖相关数据集、结构化模型和合成数据,减少需要清理的数据量,从而显著降低脏数据问题的规模。例如,美国国防部由于数据基础设施和遗留系统分散孤立的原因拥有大量“脏数据”,需要耗费大量人力和时间对数据进行清理、标记和组织,而数据标记类别中的方法可以自动生成标记,从而更轻松地处理大量无标记数据。

三、研究发现

本节介绍了从相关论文研究集群中的发现,涉及“小数据”方法研究进展、领先国家状况及支持研究的主要资金来源。共为5个类别确定了150个研究集群,包含约80324篇论文,这些论文来自安全与新兴技术中心的学术文献合并语料库(截至2021年2月12日),包含全球90%以上的学术成果。下表为所用研究集群的基本信息。

微信截图_20220609101805.png

(一)各类别“小数据”方法研究进展

在研究数量方面,五类“小数据”方法在过去十年中存在发展程度不同步的问题。如图 2 所示,强化学习和贝叶斯方法相关研究论文最多,其中,贝叶斯集群中的论文数在过去十年内持续稳步增长,但强化学习集群从2015年才开始增长,在2017-2019年间增长尤为迅速。这可能与深度强化学习在近年来取得的革命性进展有关,在2015年之前,该领域一直遭受技术挑战。相比之下,人工数据生成和数据标记研究集群中的每年论文发表数量在十年间一直保持在相当低的水平。迁移学习在2010年规模很小,到2020年已有大幅度增长。

微信截图_20220609101831.png

▲图2:2010—2020年小数据出版物趋势

(二)“小数据”方法领域各国竞争力分析

本节查看了全球前十的国家在每种方法中取得的研究进展,并据此探究各国在小数据方法领域的竞争力。本研究使用简单的衡量标准,如发表的论文数量和调整年龄后的引用数量,以初步获得各国在各个类别中的相对地位情况。

表2显示了小数据出版物数量排名前十的国家各类别论文总量。与人工智能整体研究的结果一致,中国和美国是本研究集群中所含论文的前两大发表国,英国紧随其后。中国在数据标记和迁移学习方法领域的学术出版物总量最多,而美国在贝叶斯方法、强化学习和人工数据生成方面领先。

微信截图_20220609101854.png

(三)“小数据”方法研究的资金投入情况

本研究分析了可用于小数据方法的投资数据,以获得为本研究集群中所含论文提供投资的实体类型的估计。需要注意的是,本研究只有大约20—30%涉及论文的投资信息,但有无投资数据支撑的论文应该不存在系统性差异。下表列出了按实体类型划分的5种小数据类别和人工智能整体研究领域的受投资论文百分比。

微信截图_20220609101917.png

四、研究结论

本文介绍并概述了一系列用于人工智能的“小数据”方法,本研究基于发现,提出了以下要点:

1、人工智能不等同于大数据,尤其是不等同于预先标记的大型数据集。虽然在过去十年中,大数据在人工智能热潮中发挥了不可磨灭的作用,但将大规模数据收集和标记作为人工智能发展的先决条件是错误的。小数据替代方法多种多样,可在不同的环境中以不同方式使用,例如,如果手头问题的数据稀缺,但相关问题的数据丰富,那么迁移学习可能会发挥作用;如果问题可通过进入模拟或真实环境加以解决,计算机系统可以通过试错而不是预先收集的数据进行学习,则可能需要强化学习方法。

2、迁移学习相关研究的增长尤其迅速,甚至比范围更广、更为人熟知的强化学习领域增长更快。也就是说,这种方法在未来可能比现在更有成效,并得到更广泛的应用。因此,如果政策制定者缺乏与重点问题相关的数据,那么通过寻求相关数据集,实施迁移学习方法,或许能够解决这一困难。

3、美国和中国正在小数据方法领域竞争激烈,美国在强化学习和贝叶斯方法这两个最大类别中居于领先地位,中国则在增长最快的迁移学习类别中保持微小但不断增长的领先优势。

4、美国政府可能会在迁移学习领域进行更多投资。相对于在整个人工智能领域的投资模式,美国政府在小数据方法领域的投资份额较小。这可能是因为美国政府没有优先考虑这些领域的研究,或因为美国的私营部门倾向于在这些方法的研究领域投入更高比例的资金。无论哪种原因,鉴于迁移学习是一个快速发展的新兴领域,美国政府可能会增加对该领域的资金投入。


译自:

Small Data's Big AI Potential September 2021 by the Center for Security and Emerging Technology

以上是部分内容,完整版译丛,点击“https://docs.qq.com/pdf/DVXVsWmdQd1hkcmhC”查看


来源丨赛迪智库

责任编辑:赵强


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

聚焦2022年全国两会

北京3月5日电 第十三届全国人民代表大会第五次会议5日上午在北京人民大会堂开幕。近3000名全国人大代表肩负人民重托出席大会,认真履行宪法和法律赋予的神圣职责。人民大会堂万人大礼堂气氛隆重热烈,主席台帷幕正中的国徽在鲜艳的红旗映衬下熠熠生辉。

2021年中国家电市场报告

3月3日,中国电子信息产业发展研究院(又称赛迪研究院) 发布了《2021年中国家电市场报告》(以下简称《报告》)。《报告》显示,2021年,我国家电市场全面复苏,零售规模达到8811亿元,同比增长5.7%,整体基本恢复至疫情前2019年的水平。

落实工作会精神 推动高质量发展

2022年要聚焦制造强国和网络强国建设目标,把工业稳增长摆在最重要的位置,统筹推进强链补链、技术攻关、数字化转型和绿色低碳发展,加大对中小企业支持,提升信息通信服务供给能力。工业和信息化部政务新媒体“工信微报”推出“落实工作会精神 推动高质量发展”栏目,刊发工信系统2022年工作新思路,敬请关注。

2022年全国工业和信息化工作会议

12月20日,全国工业和信息化工作会议在北京以视频形式召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届历次全会精神及中央经济工作会议精神,认真贯彻落实党中央、国务院决策部署,总结2021年工作,分析当前形势,部署2022年重点任务。

新思想引领新征程·红色足迹

党的十八大以来,习近平总书记在地方考察调研时多次到访革命纪念地,强调要从中国革命历史、优良传统和精神中汲取养分。追寻红色足迹,感悟初心使命。即日起,本报推出“新思想引领新征程·红色足迹”专栏,跟随习近平总书记的红色足迹,访当事人、忆当年事,重温总书记的重要论述和重要指示精神,生动回顾红色圣地光荣的革命历史、优秀的革命传统...

世界超高清视频(4K/8K)产业发展大会

会议

2021世界VR产业大会云峰会

10月19日—20日,由工业和信息化部和江西省人民政府共同主办的2021世界VR产业大会云峰会在南昌举办。国务委员王勇出席大会开幕式并发表讲话,江西省委书记易炼红,工业和信息化部副部长王志军,江西省委常委、南昌市委书记李红军出席开幕式并致辞。

2021世界显示产业大会

6月17日,由工业和信息化部、安徽省人民政府共同主办的2021世界显示产业大会在合肥市开幕。安徽省委书记李锦斌出席开幕式并宣布大会开幕,安徽省省长王清宪、上海合作组织秘书长弗拉基米尔·诺罗夫、工业和信息化部副部长王志军出席开幕式并先后致辞。

2021世界超高清视频(4K/8K)产业发展大会

5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2021世界超高清视频(4K/8K)产业发展大会在广州召开。5月9日,广东省委书记李希出席开幕式,工业和信息化部部长肖亚庆、广东省省长马兴瑞、国家广播电视总局副局长孟冬、中央广播电视总台编务会议成员姜文波出席开幕式并致辞。

CITE2021第九届中国电子信息博览会开幕论坛

4月9日,第九届中国电子信息博览会(简称CITE2021)在深圳举办。深圳市人民政府市长陈如桂、广东省人民政府副秘书长陈岸明、工业和信息化部电子信息司司长乔跃山出席开幕式并先后致辞。

2020世界显示产业大会

11月20日,由工业和信息化部、安徽省人民政府共同主办的2020世界显示产业大会在合肥市举行。在开幕式上,工业和信息化部部长肖亚庆、韩国驻华大使张夏成发表视频致辞。安徽省委副书记、省长李国英,工业和信息化部副部长王志军出席开幕式并致辞。

世界显示产业大会

本周排行