工业和信息化部主管 中国电子报社主办
收藏本站投稿

软件服务

阿里达摩院发布“万能写作神器” 人工智能技术走向“建模时代”

诗词歌赋不在话下,还能陪你聊天、为你答疑解惑……这样一款“万能写作神器”你想要吗?4月19日,阿里巴巴达摩院发布中文社区最大规模预训练语言模型PLUG(全称:Pre-training for Language Understanding and Generation)。该模型参数规模达270亿,集语言理解与生成能力于一身,在小说创作、诗歌生成、智能问答等长文本生成领域表现突出。

让机器“听懂”人类语言

“万能写作神器”背后的操作原理是什么?自然语言处理。这是人工智能的核心技术,同时也是人工智能中最为困难的问题之一。它无缝弥合了复杂的人类语言和编码机器之间的通信鸿沟,是让机器“听得懂”人话,并能进行人机互动的关键。而预训练语言模型正是目前自然语言处理的一种主流技术。它可以基于大规模文本预训练,得出通用的语言知识,然后经过微调,有针对性地将学习到的知识传递给不同的下游任务。

从产业发展的角度来看,基于人工智能的语言模型提供了一种基于海量非监督数据自学习(self-learning)的范式,减少人工干预成本,加快AI技术的商业化落地。近年来,AI 领域兴起了预训练语言模型浪潮。2020年5月,OpenAI发布的1750 亿参数超大规模预训练模型GPT-3“一炮而红”。微软巨额投资跟进,获得 GPT-3 语言模型的独家许可。2021年1月,谷歌推出1.6万亿参数的超级语言模型 Switch Transformer,也受到了高度关注。

“通常情况下,越多训练数据,越大参数规模,一般能够获得更好的性能。当然,到了一定程度也有一定的上限。” 达摩院深度语言模型团队负责人黄松芳在接受《中国电子报》记者采访时表示。大规模AI语言模型竞争的背后,实际上是数据量、算力和模型结构设计之间的较量。

PLUG到底强在哪儿

据黄松芳介绍,PLUG的亮点主要体现在两个方面:首先,不同于GPT-3单向生成模型,PLUG是一个双向的自然语言理解和生成统一模型,集成了达摩院自研的语言理解StructBERT和语言生成PALM双模型,通过构建输入文本双向理解能力,显著提升了输出文本的相关性。其次,得益于阿里云EFLOPS 高性能AI计算集群和高效的并行训练优化算法,PLUG基于1TB的文本数据训练,参数规模达到270亿,在语言理解任务上,PLUG以80.614分刷新了CLUE分类榜单纪录;在语言生成任务上,PLUG多项应用数据较业内最优水平提升了8%以上。              

然而,黄松芳也坦言,“目前PLUG是全球中文领域最大的纯文本预训练语言模型,但相比国外以英文为核心的GPT-3模型 1750亿的参数规模,还只有其1/6不到。”据介绍,达摩院计划将PLUG参数规模扩大至2000亿级,并进一步提升文本生成质量。

“接下来,我们在尽力继续扩大模型参数规模的同时,也会关注超大模型的落地应用实践,努力探索低碳、高效、业务可用的预训练语言模型。另外,关于大规模训练语言模型的发展趋势,我们将从数据驱动(Data-driven)逐步发展到知识驱动(Knowledge-driven),探索数据和知识深度融合的预训练语言模型。”黄松芳说。

基于模型的AI时代来了

未来,PLUG有望广泛运用于日常生产及生活的场景中。例如,在医疗领域中,PLUG可用于电子病历的质量控制、临床医学的辅助诊疗等;在电力领域,可用于各种电力设备文档的解析,打造为电力企业员工提供设备故障诊断的AI助手,还可以帮助理解电力故障报案需求,提供高效的电力调度支持;在客服领域,可用于人机交互的意图识别等。

分析人士认为,以中文为核心的超大规模测试语言模型的出现,标志着中国自然语言处理技术迈上了一个新的台阶。它将被应用于行业赋能,进一步推进AI技术在医疗、电力、金融等行业的商业落地,为人们带来更为智能化的人机交互体验。

“超大规模预训练模型将作为一种 AI 基础设施,推动相关理论研究和技术应用更上一层,从而改变整个产业格局。”智源学术副院长、清华大学教授唐杰表示,“继基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于模型的 AI 时代。”

责任编辑:宋婧


声明

1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。

相关链接

视频

专题

聚焦2021年全国两会

3月5日,第十三届全国人民代表大会第四次会议在北京人民大会堂开幕。党和国家领导人习近平、李克强、汪洋、王沪宁、赵乐际、韩正、王岐山等出席,栗战书主持大会。初春的北京,处处生机盎然。第十三届全国人民代表大会第四次会议5日上午在人民大会堂开幕。近3000名全国人大代表肩负人民重托出席大会,认真履行宪法和法律赋予的神圣职责。

2021年全国工业和信息化工作会议

12月28-29日,全国工业和信息化工作会议在京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的十九大和十九届二中、三中、四中、五中全会精神,认真落实习近平总书记重要指示批示精神和中央经济工作会议部署,总结2020年工业和信息化工作,分析形势,部署2021年重点工作。工业和信息化部党组书记、部长肖亚庆作工作报告。

2020年中国家电市场报告

3月22日,中国电子信息产业发展研究院发布了《2020年中国家电市场报告》(以下简称《报告》)。《报告》显示,2020年,我国家电市场零售额规模达到8333亿元,在疫情冲击之下显示出较强的韧性;电商渠道对家电零售的贡献率首次超过50%,网络零售对家电消费的促进作用进一步提升;高端产品、生活家电大幅增长,有效促进了消费升级和产业转型。

世界超高清视频(4K/8K)产业发展大会

会议

CITE2021第九届中国电子信息博览会开幕论坛

4月9日,第九届中国电子信息博览会(简称CITE2021)在深圳举办。深圳市人民政府市长陈如桂、广东省人民政府副秘书长陈岸明、工业和信息化部电子信息司司长乔跃山出席开幕式并先后致辞。

2020世界显示产业大会

11月20日,由工业和信息化部、安徽省人民政府共同主办的2020世界显示产业大会在合肥市举行。在开幕式上,工业和信息化部部长肖亚庆、韩国驻华大使张夏成发表视频致辞。安徽省委副书记、省长李国英,工业和信息化部副部长王志军出席开幕式并致辞。

2020世界超高清视频(4K/8K)产业发展大会

11月2日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2020世界超高清视频(4K/8K)产业发展大会在广州市召开。广东省委书记李希出席开幕式,省长马兴瑞出席并致辞。国家广播电视总局局长聂辰席、工业和信息化部副部长王志军、中央广播电视总台副台长蒋希伟出席开幕式并致辞。

2020世界VR产业大会云峰会

10月19日—20日,由工业和信息化部、江西省人民政府主办的2020世界VR产业大会云峰会在南昌举行。在10月19日的开幕式上,中共中央政治局委员、国务院副总理刘鹤发来书面致辞。江西省委常委、南昌市委书记吴晓军,工业和信息化部副部长王志军,江西省委书记、省人大常委会主任刘奇先后致辞。开幕式由江西省委副书记、省长易炼红主持。

世界显示产业大会

本周排行