近日,信息社会50人论坛执行主席段永朝撰文指出,ChatGPT是人工智能传统领域自然语言处理(NLP)的创新模式,基于GPT3.5语言模型、Transformer机器学习模型和无监督、半监督-微调预训练技术,通过巨量参数、海量文本数据的训练和学习,具备强大的文本生成能力。值得注意的是,ChatGPT的技术路线,有着鲜明的计算语言学演进的特征。
他认为,ChatGPT无论取得了何种成就,其语言模型的基本思想,依然是乔姆斯基的形式语法、瑞士语言学家索绪尔的“能指-所指”两分法。也就是说,以英语(屈折语言)为主要研究对象的主流自然语言处理技术,不可避免地带有乔姆斯基“存在先天语法结构假设”,以及索绪尔“符号、语音、对象可分离假设”这两个重要的假设。对中文语境的研究者、开发者和使用者来说,这两个假设在汉语环境下是否依然成立,是一个基础性问题。
他认为,汉藏语系与印欧语系在语音、词汇、语形、语义、语法等层面有诸多不同。汉语的自然语言处理固然可以借鉴当代西方主流的语言模型、处理技术,但从根本上来说,汉语具备的音形义统一的特征需要给予特别的关注。这一点是呼唤中文自然语言处理技术创新发展的关键。
以下是段永朝撰稿全文:
美国OpenAI公司的ChatGPT甫一推出,即掀起全球浪潮。一时间各种惊艳测试令人目不暇接。ChatGPT在文档摘要、内容撰写、机器翻译、问题解答等领域的非凡表现,成为2023年度智能科技领域的抢眼新闻。
ChatGPT是人工智能传统领域自然语言处理(NLP)的创新模式,基于GPT3.5语言模型、Transformer机器学习模型和无监督、半监督-微调预训练技术,通过巨量参数、海量文本数据的训练和学习,具备强大的文本生成能力。
值得注意的是,ChatGPT的技术路线,有着鲜明的计算语言学演进的特征。理论计算语言学以语法解析和语义的形式理论研究为核心,通常以形式逻辑和符号方法为基础,包括自然语言的计算复杂性、应用上下文相关语法和线性有界图灵机模型等。
1990年以来,计算语言学一直以统计方法为主,如神经网络和机器学习。神经网络方法因为缺乏统计可解释性受到一定程度的排斥。直到2015年前后,深度学习方法NLP的主要框架。这里重大的突破在于Transformer机器学习模型中使用的自注意力机制,即对输入数据的每一部分的重要性进行差异性加权。
注意力模型的思想,缘于心理学家William James在130年前提出的“认知注意力”概念。James提出注意力的“聚光灯模型”将注意力分为两个阶段:一个阶段是注意力在视场中的均匀分布,这时候信息获得并行处理;另一个阶段是注意力的聚焦过程,这时候信息是串行处理的。
1986年,Charles W. Eriksen & James D. St. James提出了变焦镜头模型,为注意力模型增加了环境变量的调节参数。
ChatGPT所使用的自注意力机制,实际上就是这种变焦注意力处理过程在数据编码-解码过程中的延伸应用。传统自然语言处理过程中的编码-解码过程,采用通用计算框架,实质上是“注意力散光”过程。ChatGPT所采用的自注意力机制,在每个编码-解码过程中,都加入了自我注意机制,从而大大加强了预训练的效果。
但是,需要看到的是,ChatGPT无论取得了何种成就,其语言模型的基本思想,依然是乔姆斯基的形式语法、瑞士语言学家索绪尔的“能指-所指”两分法。也就是说,以英语(屈折语言)为主要研究对象的主流自然语言处理技术,不可避免地带有乔姆斯基“存在先天语法结构假设”,以及索绪尔“符号、语音、对象可分离假设”这两个重要的假设。
对中文语境的研究者、开发者和使用者来说,这两个假设在汉语环境下是否依然成立,是一个基础性问题。
ChatGPT的火爆,其实更应该引发深层次的思考。著名语言学家萨丕尔、沃尔夫,在100多年前曾经指出“语言决定人的认知”;认知语言学的创始人莱考夫也说,在语言认知过程中,需要特别重视“隐喻”的认知价值(1980)。
汉藏语系与印欧语系在语音、词汇、语形、语义、语法等层面有诸多不同。汉语的自然语言处理固然可以借鉴当代西方主流的语言模型、处理技术,但从根本上来说,汉语具备的音形义统一的特征需要给予特别的关注。这一点是呼唤中文自然语言处理技术创新发展的关键。
最近百度的一则新闻引人关注。百度在多年潜心耕耘的基础上推出的“文心一言”大模型,一方面依靠计算技术、人工智能技术的大量积累,另一方面更立足海量中文文本、图形、数据的丰富环境,在中文环境的自然语言处理中独具特色,前景可期。百度核心战略业务之一的智能云未来势必也要接入文心一言,文心一言带来的庞大AI算力和数据需求将为百度智能云提供巨大的营收增量。ChatGPT和文心一言等将使云市场游戏规则发生根本改变,彻底改变云计算厂商的核心竞争力,适合跑AI的云将成为云计算市场领导者,云服务将从数字时代到智能时代。
当然,这一领域的长足发展,还有赖于语言学家、心理学家、人类学家和计算机科学家的深度合作与创新。
1、本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2、本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3、作者投稿可能会经我们编辑修改或补充;4、如本站的文章或图片存在版权,请拨打电话010-88558835进行联系,我们将第一时间处理。
1月11日,全国工业和信息化工作会议在北京召开。会议以习近平新时代中国特色社会主义思想为指导,全面贯彻党的二十大精神,认真贯彻落实中央经济工作会议精神和党中央、国务院决策部署,总结2022年工作,部署2023年重点任务。
2022年9月16日,由国家互联网信息办公室、国家发展和改革委员会、工业和信息化部、广西壮族自治区人民政府联合主办的第五届中国—东盟信息港论坛将在广西南宁开幕。该论坛主要围绕数字经济发展和智能互联、数据互通、合作互利等开展交流研讨、建言献策,进一步推进互联网经贸服务、人文交流和技术合作。
为贯彻落实《国务院关于印发扎实稳住经济一揽子政策措施的通知》要求,加快推进数字化助力消费品工业“三品”战略实施,进一步提振消费信心、挖掘消费潜力,巩固增强消费对经济发展的基础性作用,工业和信息化部近期组织开展2022“三品”全国行活动。中国电子报特开辟2022“三品”全国行专栏,报道活动进展、专家观点、政策解读,敬请关注。
北京3月5日电 第十三届全国人民代表大会第五次会议5日上午在北京人民大会堂开幕。近3000名全国人大代表肩负人民重托出席大会,认真履行宪法和法律赋予的神圣职责。人民大会堂万人大礼堂气氛隆重热烈,主席台帷幕正中的国徽在鲜艳的红旗映衬下熠熠生辉。
3月3日,中国电子信息产业发展研究院(又称赛迪研究院) 发布了《2021年中国家电市场报告》(以下简称《报告》)。《报告》显示,2021年,我国家电市场全面复苏,零售规模达到8811亿元,同比增长5.7%,整体基本恢复至疫情前2019年的水平。
11月30日,由四川省人民政府、工业和信息化部主办的2022世界显示产业大会在四川省成都市开幕。全国政协副主席、民革中央常务副主席郑建邦以视频方式出席开幕式并致辞。四川省委书记王晓晖出席开幕式并宣布大会开幕。
11月17日,由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会在安徽省合肥市召开。安徽省委书记、省人大常委会主任郑栅洁出席会议。安徽省委副书记、省长王清宪,工业和信息化部党组成员、副部长王江平出席开幕式并致辞。
11月12日,由工业和信息化部、江西省人民政府共同主办的2022世界VR产业大会在江西南昌召开。国务委员王勇出席大会开幕式并发表重要讲话。江西省委书记、省人大常委会主任易炼红,工业和信息化部党组成员、副部长王江平,江西省委常委、南昌市委书记李红军出席开幕式并致辞。
8月16日,第十届中国电子信息博览会(CITE 2022)在深圳举办。深圳市人民政府副市长张华,广东省工业和信息化厅党组成员、副厅长曲晓杰,工业和信息化部电子信息司副司长史惠康出席开幕式并先后致辞。
10月19日—20日,由工业和信息化部和江西省人民政府共同主办的2021世界VR产业大会云峰会在南昌举办。国务委员王勇出席大会开幕式并发表讲话,江西省委书记易炼红,工业和信息化部副部长王志军,江西省委常委、南昌市委书记李红军出席开幕式并致辞。
5月8日-10日,由工业和信息化部、国家广播电视总局、中央广播电视总台、广东省人民政府共同主办的2021世界超高清视频(4K/8K)产业发展大会在广州召开。5月9日,广东省委书记李希出席开幕式,广东省省长马兴瑞、国家广播电视总局副局长孟冬、中央广播电视总台编务会议成员姜文波出席开幕式并致辞。