自然语言处理之北大词性标注集

2023-09-13 16:37:57

最近在做人工智能相关技术的学习,在自然语言处理这里发现了词标注标准,顺带分享给小伙伴们

词性是词汇基本的语法属性,通常也称为词类。词性标准是在给定句子中判定每个词的语法范畴,确定其词性并加以标注的过程。例如名词、动词、形容词等。中文领域尚无统一的标注标准,较为主流的为北大的词性标注集和宾州词性标注集两大类。

下面分享北大的词性标注集:

代码    名称             解释

    Ag     形语素     形容词性语素。形容词代码为a,语素代码g前面置以A。
    a       形容词      取英语形容词adjective的第1个字母。
 ad 副形词 直接作状语的形容词。形容词代码a和副词代码d并在一起。
 an 名形词 具有名词功能的形容词。形容词代码a和名词代码n并在一起。
    b       区别词      取汉字“别”的声母。
    c       连词        取英语连词conjunction的第1个字母。
    Dg     副语素     副词性语素。副词代码为d,语素代码g前面置以D。
    d       副词     取adverb的第2个字母,因其第1个字母已用于形容词。
    e       叹词     取英语叹词exclamation的第1个字母。
    f        方位词      取汉字“方” 的声母。
  g  语素    绝大多数语素都能作为合成词的“词根”,取汉字“根”的声母。
    h       前接成分   取英语head的第1个字母。
    i        成语        取英语成语idiom的第1个字母。
    j        简称略语  取汉字“简”的声母。
    k       后接成分
    l        习用语     习用语尚未成为成语,有点“临时性”,取“临”的声母。
    m       数词     取英语numeral的第3个字母,n,u已有他用。
    Ng      名语素     名词性语素。名词代码为n,语素代码g前面置以N。
    n        名词        取英语名词noun的第1个字母。
    nr  人名        名词代码n和“人(ren)”的声母并在一起。
    ns      地名     名词代码n和处所词代码s并在一起。
    nt      机构团体    “团”的声母为t,名词代码n和t并在一起。
    nz     其他专名    “专”的声母的第1个字母为z,名词代码n和z并在一起。 
    o       拟声词     取英语拟声词onomatopoeia的第1个字母。
    p       介词     取英语介词prepositional的第1个字母。
    q       量词        取英语quantity的第1个字母。
    
r       代词        取英语代词pronoun的第2个字母,因p已用于介词。
    s       处所词     取英语space的第1个字母。
    Tg     时语素      时间词性语素。时间词代码为t,在语素的代码g前面置以T。
    t     时间词      取英语time的第1个字母。
    u       助词        取英语助词auxiliary 的第2个字母,因a已用于形容词。
    Vg     动语素      动词性语素。动词代码为v。在语素的代码g前面置以V。
    v       动词        取英语动词verb的第一个字母。
    vd     副动词      直接作状语的动词。动词和副词的代码并在一起。
  vn     名动词      指具有名词功能的动词。动词和名词的代码并在一起。
    w      标点符号   
    x       非语素字    非语素字只是一个符号,字母x通常用于代表未知数、符号。
    y       语气词      取汉字“语”的声母。
    z      状态词      取汉字“状”的声母的前一个字母。

更多推荐

阿里云服务器价格表,轻量和服务器最新活动价格表汇总

租用阿里云服务器怎么收费?阿里云服务器配置不同一年价格也不同,阿里云2核2G3M带宽108元一年、2核4G4M带宽297.98元12个月,云服务器u1公网带宽可选1M到5M,系统盘为ESSD云盘40GB起,CPU内存配置可选2核2G、2核4G、4核8G、8核16G等配置,还有ECS计算型c7、通用型g7和内存型r7多C

【SLAM】前端-视觉里程计之对极几何

文章目录【SLAM】前端-视觉里程计之对极几何1.对极几何2.本质矩阵及其求解3.单应矩阵及其求解3.三角测量4.思考4.1本质矩阵的自由度为多少4.2直接法求本质矩阵的过程涉及求解齐次线性方程,而对于齐次线性方程的解,要么只有零解,要么有无穷多个解,这里取哪一个解呢5.附录5.1相机成像模型【SLAM】前端-视觉里程

接口测试——接口协议抓包分析与mock_L1

目录:接口测试价值与体系常见的接口协议接口测试用例设计postman基础使用postman实战练习1.接口测试价值与体系接口测试概念接口:不同的系统之间相互连接的部分,是一个传递数据的通道接口测试:检查数据的交换、传递和控制管理过程接口测试的价值传统的测试方法成本急剧上升测试效率下降分层测试体系越往上,发现Bug的时间

CSS 布局 (三) 浮动、定位、多列布局

6、浮动最初用于在文本块内浮动图像,float属性成为在网页上创建多列布局最常用的工具之一。随着flexbox和grid的出现,它现在又回到了最初的目的,正如本文所解释的那样。6.1浮动的背景引入float属性是为了允许web开发人员实现包含图像在文本列内浮动的布局,文本在其左侧或右侧环绕。就像你在报纸版面上看到的那样

函数扩展之——内存函数

前言:小伙伴们又见面啦。本篇文章,我们将讲解C语言中比较重要且常用的内存函数,并尝试模拟实现它们的功能。让我们一起来学习叭。目录一.什么是内存函数二.内存函数有哪些1.memcpy(1)库函数memcpy(2)模拟实现memcpy2.memmove(1)库函数memmove(2)模拟实现memmove3.memset4

【大数据】HDFS 的常用命令

HDFS的常用命令1.操作命令1.1创建文件夹1.2列出指定的文件和目录1.3新建文件1.4上传文件1.5将本地文件移动到HDFS1.6下载文件1.7查看文件1.8追写文件1.9删除目录或者文件1.10显示占用的磁盘空间大小1.11HDFS中的文件复制1.12HDFS中的文件移动2.管理命令2.1报告文件系统的基本信息

ElasticSearch(二)

1.DSL查询文档elasticsearch的查询依然是基于JSON风格的DSL来实现的。1.1.DSL查询分类Elasticsearch提供了基于JSON的DSL(DomainSpecificLanguage)来定义查询。常见的查询类型包括:查询所有:查询出所有数据,一般测试用。例如:match_all全文检索(fu

高教杯数学建模A题程序设计要点与思路

2023年是我最后一次参加高教杯大学生数学建模竞赛以后不会再参加了(大四参加意义不太,研究生有研究生的数学建模大赛)很遗憾由于各种原因我们没有能够完成赛题2022年美赛2022年MathorCup2022年国赛2022亚太杯2023年美赛2023年国赛我和我的朋友一共参加了6次比赛6次比赛我交到了很好的朋友然鹅成绩比较

Java 8 新特性解读及应用实践

Java8新特性解读及应用实践一、简介二、Lambda表达式三、流式编程四、日期/时间API1.概述2.LocalDate、LocalTime、LocalDateTime等类的使用3.格式化与解析五、重复注解和类型注解1.概念与作用2.重复注解实例3.类型注解实例六、小结回顾一、简介Java8带来了众多重大改进和新特性

【网络协议】Http-上

Http请求结构:结构图1:实验解析请求报文:1.在Edge浏览器上输入ip地址+端口号+文件资源,也就是下图中的120.XX.139.29:8888/A/B/c.html2.我的程序接收到了一个没有有效载荷的http请求(呼应上面的结构图1),如下GET/1/2/3.htmlHTTP/1.1//请求行(请求方法+请求

关于路由懒加载

路由懒加载是一种优化技术,它是可以延迟加载应用程序的某些模块或者组件,而不是在初始加载时一次性加载所有内容,这样可以减少初始加载的文件体积,提高应用程序的加载速度1.懒加载是在什么时候加载路由懒加载是在用户访问相应的路由时才进行加载。它延迟加载路由组件,使得在初始加载时只加载必要的代码,而将其他路由的代码推迟到需要时再

热文推荐