第七章(2):深度学习在自然语言处理NLP中的应用

2023-07-13 22:08:34

第七章(2):深度学习在自然语言处理NLP中的应用


作者:安静到无声 个人主页

作者简介:人工智能和硬件设计博士生、CSDN与阿里云开发者博客专家,多项比赛获奖者,发表SCI论文多篇。

Thanks♪(・ω・)ノ 如果觉得文章不错或能帮助到你学习,可以点赞👍收藏📁评论📒+关注哦! o( ̄▽ ̄)d

欢迎大家来到安静到无声的 《基于pytorch的自然语言处理入门与实践》,如果对所写内容感兴趣请看《基于pytorch的自然语言处理入门与实践》系列讲解 - 总目录,同时这也可以作为大家学习的参考。欢迎订阅,请多多支持!

1. 深度学习概述

深度学习是2006年提出的基于机器学习的概念,其框架在于通过模拟人脑的神经网络,在进行分析、学习、解释,属于一种含有多层、隐层的学习结构。其跟浅层学习不同,因为其所建立的模型结构足够的深,一般都有3层以上的隐层节点,最高可达10层以上,可以完成非常复杂的函数分析,详见表1。并且其强调了特征学习,因为深度学习属于无监督的一种,通过非监督预训练算法,将原始的样本通过输入的方式来映射到一个新的特征空间,从而更好的实现预测、分类等。此外,其有效性跟浅层学习相比也比较强,一些在浅层结构无法表达的函数,可能在深层结构中解释的更好,因此深度学习被广泛的应用在我国的各个行业中。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6oWqFLaN-1689257034482)(/imgs/2023-07-13/GLo0OVMqgbgKliiW.png)]

2. 自然语言处理概述

自然语言处理(英语:Natural Language Processing,缩写NLP)是人工智慧语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系,然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IzdTk787-1689257034482)(/imgs/2023-04-15/9ls3tVbU3EFVHxKB.png)]

2015年Tomas Mikolov提出了Word2vec的算法,这是种新的构建词向量的方法,属于以深度学习为基础的自然语言处理技术的发端。该方法有两种模型,一种是Skip-gram模型,一种是CBOW模型,其中Skip-gram模型是通过输入某个单词来预测周围的上下文语境,而CBOW模型是通过输入某个词语上下文的语境来预测这个词语的本身,所产生的词向量就是神经网络模型的输入向量。由此可以看出,Word2ve已经具备了一定的理解能力,也具备了以往IT-IDF无法实现的一些功能,也意味着自然语言处理技术有了无需人工处理干预就可以直接解释和理解文本语境的能力。紧接着,我国掀起了研究自然语言处理算法的热潮,一些模拟word2vec词向量的计算模型也相继被提出,深度学习也被应用到其中,有了将词性和命名实体标签与word2vec融合的sense2vec的算法。

随着深度学习等技术的快速发展,尤其是GPT-3等超大模型的出现,NLP进入了一个新纪元。超大模型相对于大模型来说更加复杂,参数数量更高,需要更大的计算资源和训练时间,但同时也可以在处理极其复杂的输入数据和高维度的特征时提高模型的准确性和性能。在这个新纪元中,超大模型如GPT-3已经开始在各个领域产生了广泛的应用,比如文本摘要、对话系统、问答机器人、机器翻译等。NLP的新纪元已经带来了革命性的变化,将进一步推动人工智能技术的进步和应用。

3. 应用

自然语言处理在当今世界中已经被广为应用。

(1) 分词和词性标注。分词主要是根据规范来将连续的字序进行重新组合,并将其组合成新的词序列的过程。而词性标注就是正确的标注该词的词性,如该次属于形容词、动词、名词等。目前应用深度学习法可以同时处理词性标注、语义角色标注、语块切分、以及命名实体识别等典型的自然语言处理任务。

(2) 句法分析。就是对句子的语法、以及语法之间的关系进行分析。应用深度学习法可以自动、快速的识别句子的句法单位、以及句法单位之间的关系,具体的做法就是输入一个给定的句子,利用其语法特征来构建短语结构树以此来进行分析和处理。

(3) 词义学习。在应用深度学习在词义学习上,是应用了其无监督的学习机制。其通过构建深度的神经网络模型,在利用该模型综合的对文本的上下文、以及全局进行分析,以此来找出词义更好的表达方式,并且找出词义隐藏的词汇,来更好对同名歧义的词进行解释。而且如果是多个多义性的词向量还可以通过改进模型的方式,丰富词向量的语义,让其表达的更加的清晰。

(4) 情感分析。应用深度学习来对情感进行分析,就是通过构建情感分析模型,在利用深度神经网络的训练部分来对情感标签的句子进行标注,并结合全局的规律、以及上下文的特征,来预测标注外句子的情感特征,以此来实现文档级、语句级、以及观点级的情感色彩分析。这种分析属于自然语言处理任务中的高级情感分析,由此可以看出,深度学习应用在自然语言处理中可以有效的提高处理效果。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NQYjVp8Y-1689257034483)(/imgs/2023-07-13/0uiQP9uhPjX0UY6R.png)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-44QJ7MOn-1689257034483)(blob:https://stackedit.cn/992ab5db-ba31-4636-8969-f2ce2e3be880)]

4. 总结

总之,深度学习在自然语言处理中的意义在于提供了一种更加有效和灵活的方法来处理自然语言,能够帮助我们更好地理解、分析和生成文本数据。它在多个NLP任务中取得了显著的成果,推动了自然语言处理领域的发展。

--------推荐专栏--------
🔥 手把手实现Image captioning
💯CNN模型压缩
💖模式识别与人工智能(程序与算法)
🔥FPGA—Verilog与Hls学习与实践
💯基于Pytorch的自然语言处理入门与实践

参考

[1]韩志恒.浅析深度学习在自然语言处理NLP中的应用[J].电子元器件与信息技术,2020,4(11):46-47.DOI:10.19772/j.cnki.2096-4455.2020.11.022.
[2]江洋洋,金伯,张宝昌.深度学习在自然语言处理领域的研究进展[J].计算机工程与应用,2021,57(22):1-14.
[3]黎新川,方艺,方涛等.深度学习在自然语言处理中的运用[J].电子技术,2022,51(12):206-207.
第三章(1):自然语言处理概述:应用、历史和未来

更多推荐

设计模式-责任链模式

“单一职责原则”要求一个类仅负责的一个不可分业务逻辑,但这并不意味着能够实现这部分业务逻辑的只能有一个类,业务逻辑可能是会因运行时数据而选择不同类。比如在日常工作中,请假审批可能受请假天数、请假类型等因素影响,而须由不同领导来负责审批。再比如在银行取钱时,取钱业务审批申请可能会受到你所取钱总数、存储类型等因素影响,而须

node 之 express 框架(初级)

一、express热更新1、安装扩展npminstallnode-dev-D2、在根目录下的package.json文件中进行配置3、之后的启动执行下面的命令即可npmrundev二、mvc中的模板引擎1、ejs模板引擎的安装npminstallejs-s2、在根目录下的app.js文件中配置app.set('view

【计算机毕业设计】基于SpringBoot+Vue网络云端日记本系统的设计与实现

博主主页:一季春秋博主简介:专注Java技术领域和毕业设计项目实战、Java、微信小程序、安卓等技术开发,远程调试部署、代码讲解、文档指导、ppt制作等技术指导。主要内容:毕业设计(Java项目、小程序等)、简历模板、学习资料、面试题库、技术咨询。🍅文末获取联系🍅精彩专栏推荐订阅👇🏻👇🏻不然下次找不到哟Sp

C#回调函数学习1

回调函数(CallbackFunction)是一种函数指针,它指向的是由用户自己定义的回调函数。我们将这个回调函数的指针作为参数传递给另外一个函数,在这个函数工作完成后,它将通过这个回调函数的指针来回调通知调用者处理结果。此定义来自网上;看一个例子;这是用委托实现的回调函数;usingSystem;usingSyste

懒人福音!数据显示:剧烈运动5分钟即可预防癌症,风险降低30%

剧烈的间歇性生活方式体育活动,简称VILPA,是由悉尼大学查尔斯·珀金斯中心的研究人员创造的,用来描述我们每天津津有味地进行的非常短暂的活动爆发,每次大约一分钟。这包括剧烈的家务、在杂货店周围大量购物、爆发力量行走或与孩子们玩高能量游戏等活动。早在,2022年12月8日,澳大利亚悉尼大学、英国伦敦大学的研究人员在Nat

ipv6笔记及总结

1、路由器请求消息RouterSolicitation和路由器通告RouterAdvertisement消息主要用于无状态地址的情况下,有状态的情况使用的是dhcpv6server分配(例如:IPv6地址以及其他信息(DNS、域名等))。2、关于IPv6自动配置及M、O比特的小结那么对于自动配置来说,主机在什么情况下,

25 WEB漏洞-XSS跨站之原理分类及攻击手法

目录XSS跨站漏洞产生原理,危害,特点?本质产生层面函数类漏洞操作对应层,危害影响浏览器内核版本等XSS跨站漏洞分类:反射,存储,DOMXSS常规攻击手法:平台,工具,结合其他等演示案例:XSS平台及工具简要演示测试XSS跨站漏洞产生原理,危害,特点?本质跨站跟我们语言上面是没有什么关系,大部分都是前端的一个漏洞在变量

ChatGPT企业版来了,速度翻倍,无使用限制

美国时间8月28日,OpenAI宣布了自ChatGPT推出以来最重大的新闻:将推出ChatGPT企业版,企业版ChatGPT将直接对接GPT-4,提供无限制访问、高级数据分析功能、定制服务等服务,并支持处理更长文本输入的长上下文窗口。OpenAI首席运营官BradLightcap告诉媒体,这个工具已经在“不到一年”的时

logback日志是怎么保证多线程输出日志线程安全的

logback中的单例模式logback日志框架使用了单例设计模式来进行日志输出。在logback中,Logger类是一个关键的组件,它负责记录和输出日志消息。Logger类使用了单例设计模式,确保在一个应用程序中只存在一个Logger实例。这样做的好处是可以确保所有的日志消息都被集中到同一个日志输出器中,避免了多个日

无人机“长坡”上,谁是滚出“厚雪球”的长期主义者?

“股神”巴菲特,曾提出过“长坡厚雪”的理论:人生就像滚雪球,重要的是发现很湿的雪和很长的坡。运用到企业经营上,“长坡”指的是企业所布局的领域发展潜力足、空间大;而“湿雪”,指的是企业竞争力强、有长期主义精神。将湿雪沿着长坡不断滚成厚雪球,就能收获长期主义的复利。就当下来看,在众多领域当中,无人机属于典型的“长坡”。全球

《时代》百大AI人物榜单公布,李彦宏、Sam Altman、黄仁勋等评为全球AI领袖

9月7日晚,《时代》周刊发布了首届全球百大AI人物。这100个人组成的群体在很多方面都是推动人工智能发展的关系和权力中心的地图。他们是竞争对手和监管者、科学家和艺术家、倡导者和高管——既竞争又合作的人类,他们的洞察力、欲望和缺陷将塑造这个影响力日益增强的技术的方向。”“人工智能的独特之处也是最令人恐惧和值得庆祝的地方,

热文推荐