【帮助】词典词库中中文词性标注集

2019年5月6日    点评:2 | 字体大小 | |繁體|
当前词典库中的词性及词分类
m 数词
dm 地名
x 未分类
i 成语
t 时间
l 
n 名词
mq 数量词
nz 其它专名
d 副词 food 食物 it it law 法律 yx医学 nr name 人名 cj 财经 u 19个词如 一气 一样
j 机构
v 动词
mt 数量词
vn 名动词
b 区别词
r 代词
c 连词
xs 微博会话分隔符
s 空间位置?
q 量词
ns 地名
a 形容词
o 拟声词
nt 机构团体名
z 状态词
f 方位词
bx 保险
ad 副形词
jn
p 介词
y 语气词
an 名形词
vd 副动词
qe “兆位”
vq 
e 叹词
ng 名词性语素
na ‘春哥’
h '超低'
rz '这位'

POS_MAP = {
’n’: (’名词’, ’noun’, {
’nr’: (’人名’, ’personal name’, {
’nr1’: (’汉语姓氏’, ’Chinese surname’),
’nr2’: (’汉语名字’, ’Chinese given name’),
’nrj’: (’日语人名’, ’Japanese personal name’),
’nrf’: (’音译人名’, ’transcribed personal name’) }),
’ns’: (’地名’, ’toponym’, {
’nsf’: (’音译地名’, ’transcribed toponym’), }),
’nt’: (’机构团体名’, ’organization/group name’),
’nz’: (’其它专名’, ’other proper noun’),
’nl’: (’名词性惯用语’, ’noun phrase’),
’ng’: (’名词性语素’, ’noun morpheme’),
}),
’t’: (’时间词’, ’time word’, {
’tg’: (’时间词性语素’, ’time morpheme’),
}),
’s’: (’处所词’, ’locative word’),
’f’: (’方位词’, ’noun of locality’),
’v’: (’动词’, ’verb’, {
’vd’: (’副动词’, ’auxiliary verb’),
’vn’: (’名动词’, ’noun-verb’),
’vshi’: (’动词"是"’, ’verb 是’),
’vyou’: (’动词"有"’, ’verb 有’),
’vf’: (’趋向动词’, ’directional verb’),
’vx’: (’行事动词’, ’performative verb’),
’vi’: (’不及物动词’, ’intransitive verb’),
’vl’: (’动词性惯用语’, ’verb phrase’),
’vg’: (’动词性语素’, ’verb morpheme’),
}),
’a’: (’形容词’, ’adjective’, {
’ad’: (’副形词’, ’auxiliary adjective’),
’an’: (’名形词’, ’noun-adjective’),
’ag’: (’形容词性语素’, ’adjective morpheme’),
’al’: (’形容词性惯用语’, ’adjective phrase’), }),
’b’: (’区别词’, ’distinguishing word’, {
’bl’: (’区别词性惯用语’, ’distinguishing phrase’), }),
’z’: (’状态词’, ’status word’),
’r’: (’代词’, ’pronoun’, {
’rr’: (’人称代词’, ’personal pronoun’),
’rz’: (’指示代词’, ’demonstrative pronoun’, {
’rzt’: (’时间指示代词’, ’temporal demonstrative pronoun’),
’rzs’: (’处所指示代词’, ’locative demonstrative pronoun’),
’rzv’: (’谓词性指示代词’, ’predicate demonstrative pronoun’), }),
’ry’: (’疑问代词’, ’interrogative pronoun’, {
’ryt’: (’时间疑问代词’, ’temporal interrogative pronoun’),
’rys’: (’处所疑问代词’, ’locative interrogative pronoun’),
’ryv’: (’谓词性疑问代词’, ’predicate interrogative pronoun’), }),
’rg’: (’代词性语素’, ’pronoun morpheme’),
}),
’m’: (’数词’, ’numeral’, {
’mq’: (’数量词’, ’numeral-plus-classifier compound’),
}),
’q’: (’量词’, ’classifier’, {
’qv’: (’动量词’, ’verbal classifier’),
’qt’: (’时量词’, ’temporal classifier’),
}),
’d’: (’副词’, ’adverb’),
’p’: (’介词’, ’preposition’, {
’pba’: (’介词“把”’, ’preposition 把’),
’pbei’: (’介词“被”’, ’preposition 被’),
}),
’c’: (’连词’, ’conjunction’, {
’cc’: (’并列连词’, ’coordinating conjunction’),
}),
’u’: (’助词’, ’particle’, {
’uzhe’: (’着’, ’particle 着’),
’ule’: (’了/喽’, ’particle 了/喽’),
’uguo’: (’过’, ’particle 过’),
’ude1’: (’的/底’, ’particle 的/底’),
’ude2’: (’地’, ’particle 地’),
’ude3’: (’得’, ’particle 得’),
’usuo’: (’所’, ’particle 所’),
’udeng’: (’等/等等/云云’, ’particle 等/等等/云云’),
’uyy’: (’一样/一般/似的/般’, ’particle 一样/一般/似的/般’),
’udh’: (’的话’, ’particle 的话’),
’uls’: (’来讲/来说/而言/说来’, ’particle 来讲/来说/而言/说来’), ’uzhi’: (’之’, ’particle 之’),
’ulian’: (’连’, ’particle 连’),
}),
’e’: (’叹词’, ’interjection’),
’y’: (’语气词’, ’modal particle’),
’o’: (’拟声词’, ’onomatopoeia’),
’h’: (’前缀’, ’prefix’),
’k’: (’后缀’, ’suffix’),
’x’: (’字符串’, ’string’, {
’xe’: (’Email字符串’, ’email address’),
’xs’: (’微博会话分隔符’, ’hashtag’),
’xm’: (’表情符合’, ’emoticon’),
’xu’: (’网址URL’, ’URL’),
’xx’: (’非语素字’, ’non-morpheme character’), }),
’w’: (’标点符号’, ’punctuation mark’, {
’wkz’: (’左括号’, ’left parenthesis/bracket’),
’wky’: (’右括号’, ’right parenthesis/bracket’),
’wyz’: (’左引号’, ’left quotation mark’),
’wyy’: (’右引号’, ’right quotation mark’),
’wj’: (’句号’, ’period’),
’ww’: (’问号’, ’question mark’),
’wt’: (’叹号’, ’exclamation mark’),
’wd’: (’逗号’, ’comma’),
’wf’: (’分号’, ’semicolon’),
’wn’: (’顿号’, ’enumeration comma’),
’wm’: (’冒号’, ’colon’),
’ws’: (’省略号’, ’ellipsis’),
’wp’: (’破折号’, ’dash’),
’wb’: (’百分号千分号’, ’percent/per mille sign’),
’wh’: (’单位符号’, ’unit of measure sign’), }),
}

——————————————————————————————————————————
###词性分类
| 标注        | 词性    |  注解  |
| :---:  | :---:  | :--------------- |
|a    |   形容词        |    用来修饰名词或代词,表示人或物的性质、特征,如:鲜艳、伟大        |
|b    |   类别          |     表示非具体类别的名词,如:丙型、一体式、九品      |
|n    |   名词          |      表示具体事物、事件、物质、理论等       |
|nN   |   高频人名 、名人 |       如鲁迅、刘德华      |
|NF   |   复姓/人名前缀   |      如东方、欧阳或外文名字习惯前缀      |
|nb   |   人物类型          |     总理、文员、总经理、学生等         |
|bn   |   实例类型          |     即是b类型的非人物类型实体,如汉族,英语。         |
|nS   |   地名          |       具体或非具体的地名,相当于中国市级以上的,等级值标记s符号      |
|nT   |   团体组织、赛事  |       党中央、人大代表会议、奥运会等      |
|nM   |   媒体  |       报刊、不算很知名的资讯网站     |
|nA   |   协议、法规、事件  |    五四事件、婚姻法     |
|nC   |   知名企业      |     知名企业        |
|nP   |   知名品牌      |     知名企业品牌,如万金油        |
|nz   |   专业名词      |    科学、哲学相关的名词         |
|nB   |   知名作品      |    如金瓶梅、西游记         |
|nj   |   简称         |     组织、事件简称或非知名企业名       |
|nr   |   代名词        |     代指具体的人或事物,如:一家人,广东人,弱者,匹夫   |
|v    |   动词         |      表示动作或状态的词       |
|vn   |   动名词        |    表示名词动态化或可作动词可作名词的词,如:一体化,能量化、         |
|vu   |   助动词        |    表示辅助语法结构的没什么太多意义的动词,如:就是、使得、会把,正规语法上,这些并不是词汇         |
|m    |   数词         |      纯粹表示数量       |
|mQ   |   组合数量词    |       比较常用的数量组合      |
|t    |   时间词       |     清朝,昨天,去年        |
|q    |   量词         |     纯粹适合作为数词后缀的单位        |
|r    |   代词         |      代指某些人物或事件       |
|d    |   副词          |  修饰或限制动词和形容词,表示范围、程度等,如:屡次、很、更、越、也、还、不、竟然、居然   |
|c    |   连词          |   连接词、词组或句子的词,如“和、与、而且、但是、因为、如果”          |
|p    |   介词         | 在名词、代词、或名词性词组的前边合起来表示方向、对象           |
|u    |   助词         |  表示结构、语气等无意义的虚词, 的、地、得、所、了、着、呢、吗、吧、啊等       |
|i    |   成语         |             |
|l    |   谚语、俗词  |             |
|j    |   简称         |     通常为名词 nj 标记        |
|f    |   方位词       |       表示方向位置的词      |
|x    |   未知词、新词   |             |
|s    |   范义虚词/停止词         |     没意义,纯粹作语法辅助的词        |
|e    |   英文        |     英语单词  |
|o    |   拟声词         |     合并到虚词大类/s         |
|F    |   前导词        |      如万分之,通常它和下面的词实际都会和其它词尝试组合        |
|E    |   后缀词        |      所有的量词都可以认为是后缀词,但是这里是排除量词之外的后缀词       |
|   |  |               |
| ... | 非词典词条标 |  即是分词过程智能组合的词   |
|X    |  非语素词(或不在系统范围内的字符)   |             |
|mq   | 组合数量词   |             |
|mt   | 组合时间词   |             |
|na   | 后缀组后地名   |     XX村、XX省        |
|nE   |  后缀组合普通词  |   XX网、XX秀           |
|nZ   |  后缀组合专业词    |     XX癌、XX奖        |
###行业分类 
如果从属于多个“行业/种类”的,把最优先的放前面,如 Zym 表示:植物-中药-健康类型,hr表示:节日-民族风俗
| 标识  | 行业            |  注解         | 标识  | 行业        |  注解         |
| :---:| ----------      | :----------- | ---: | ----------  | :----------- |
|s     |  体育            |              |e     |  娱乐        |             |
|w     |  文学            |              |j     |  教育        |             |
|S     |  社会/生活        |              |b     |  商业、财经   |             |
|T     |  旅游            |              |g     |  游戏、动漫   |             |
|a     |  汽车            |              |A     |  军事        |             |
|r     |  宗教、风俗、历史  |              |h     |  节日        |             |
|p     |  政治            |              |f     |  时尚        |             |
|m     |  医疗、健康       |              |i     |  母婴        |             |
|n     |  女人            |              |t     |  科技        |             |
|tc    |  化工、生物、环境  |              |tp    |  物理数学     |             |
|ti    |  计算机与信息科学  |              |tn    |  互联网       |             |
|F     |  饮食       |              |D     |  动物        |              |
|Z     |  植物            |              |y     |  中医药      |              |
|l    |法律
|mc    |传媒媒体
|art   |艺术美学
###低权重标识
如果词典结尾含有 L 符号,表示这类词通常为语义词,权重都比非语法语要降低
带 s 表示实体

——————————————————————————————————
注:现代汉语词性
现代汉语的词可以分为12类。实词:名词、动词、形容词、数词、量词和代词。虚词:副词、介词、连词、助词、拟声词和叹词。
一.名词
表示人和事物的名称的实词。如:"黄瓜、白菜、拖拉机、计算机"。
1、表示专用名称的叫做"专用名词",如"云南、上海、李白、白居易"。
2、表示抽象事物的名称的叫做"抽象名词",如"范畴、思想、质量、品德、友谊、方法"。
3、表示方位的叫做"方位名词",如"上""下""左""右""前""后""中""东""西""南""北""前面""后边""东边""南面""中间"等。
二.动词
动词表示人或事物的动作、行为、发展、变化。
1、有的动词表示一般的动作,如"来、去、说、走、跑、学习、起飞、审查、认识"等。
2、有的动词表示心理活动,如"想、重视、注重、尊敬、了解、相信、佩服、惦念"等,这样的动词前面往往可以加上"很、十分"。
3、有的动词表示能够、愿意这些意思,叫做"能愿动词",它们是"能、要、应、肯、敢、得(dei)、能够、应该、应当、愿意、可以、可能、必须",这些能愿动词常常用在一般的动词前面,如"得去、能够做、可以考虑、愿意学习、应该说明、可能发展"。
4、还有一些动词表示趋向,叫做"趋向动词",如"来、去、上、下、进、出、上来、上去、下来、下去、过来、过去、起;,它们往往用在一般动词后面表示趋向,如"跳起来、走下去、抬上来、跑过去"。
5、"是""有"也是动词,跟动词的用法一样,“是”也成为判断动词。
三.形容词
形容词表示事物的形状、性质、颜色、状态等,如“多、少、高、矮、胖、瘦、死板、奢侈、胆小、丑恶、美丽、红色……”。
状态形容词 通红、雪白、红通通、黑不溜秋等前面不能加“很”。
四.数词
数词是表示事物数目的词。如"一、二、两、三、七、十、百、千、万、亿、半"。
①基数:一、二、百、千、万、亿
②序数 :第一、第二、第三
③分数 :十分之一、百分之二十
④倍数 :一倍、十倍、百倍
⑤概数 :几(个)、十来(个)、一百上下
五.量词
量词是表示事物或动作单位的词。汉语的量词分为名量词和动量词 。
1、名量词表示事物的数量,又可以分为单位量词和度量量词。
单位量词表示事物的单位,如"个、张、、只、支、本、台、架、辆、颗、株、头、间、把、扇、等; 
度量量词表示事物的度量,如"寸、尺、丈、斤、两、吨、升、斗、加仑、伏特、欧姆、立方米"。
2、动量词表示动作的数量,用在动词前后表示动作的单位,如"次、下、回、趟、场"。
六.代词
代词能代替实词和短语。表示指称时,有定指和不定指的区别。不定指往往是指不确定的人、物或某 种性状、数量、程度、动作等。他不常指某一定的人物,也就不可能有一定意义,介乎虚实之间。
1、人称代词:代替人或事物的名称。我、 你、 您他 、她 、它 、我们、 你们、 他们、 她们 、它们、 咱们、 自己 、别人 、大家、 大伙(自己能和其他代词连用,起强调作用。例如:我自己 你们自己 大家自己) 
2、疑问代词:用来提出问题 。谁 、什么、 哪(问人或事物)、哪儿、 那里 (问处所)、 几、 多 (问 数量)、 多 、多么 (问程度)、 怎么 、怎样、 怎么样 (问性质状态)、什么 怎样什么样 (问方式行动) 
3、指示代词:用来区别人或事物 。这 、那 (指人或事物)、这儿 、这里 、那儿 、那里 (指处所) 、这会儿 、那 会 儿 (指时间)、 这么 、这样 、这么样、 那么 、那样 、那么样(指性质、状态、方式、行动、程度) 、这些、 那些 、这么些 、那么些 (指数量)、 每 各(指所有的或全体中任何一个)、 某 、另 、别(确有所指,未说明哪一个)
代词一般不受别的词类的修饰。代词同它所代替的或指示的实词或短语的用法相当,它所代替的词能充当什么句子成分,它也能充当什么句子成分。
七.副词
副词总是用在动词形容词前面做状语,
如 "很、颇、极、十分、就、都、马上、立 刻、曾经、居然、重新、不断"等。
副词通常用在动词、形容词前面。
如"就来、马上走、十分好、重新开始",只有"很""极"可以用在动词、形容词后面做补语,如"高兴得很、喜欢极了"。
八.介词
介词总是同其他的词组合在一起,构成介词短语,做定语、状语和补语。
如"把、从、向、朝、为、为了、往、于、比、被、在、对、以、通过、随着、作为。
九.连词
连词可以连接词、短语、句子乃至段落。
如"和、及、或者、或、又、既"。关联词语可以看成是连词,如"因为……所以、不但……而且、虽然……但是"。
十.助词
附加在词、短语、句子上起辅助作用的词.助词可以分为三类。
一类是结构助词,它们是"的、地、得、所、似的";
一类是动态助词,它们是"着、了、过";
一类是语气助词,如"啊、吗、呢、吧、呐、呀、了、么、哇"。
十一.叹词
表示感叹、呼唤、应答的词叫做叹词。
如:“喂、哟、嗨、哼、哦、哎呀”。叹词总是独立成句。
十二.拟声词
这是模拟声音的词。如"呜、汪汪、轰隆、咯咯、沙沙沙、呼啦啦"。
20230724 dict\x\Frequency List.xlsx
/*
fw	function word
v	verb
n	noun
r	adverb
j	adjective
u	interjection
m	numerals
K	proper noun
abbr	abbreviation */

    public $word_types = array(
        'a' => '形容词','d' => '副词','c' => '连词','b' => '类别',
        'n' => '名词','nN' => '人名.名人','nS' => '地名 ','nT' => '团体.赛事',
        'nA' => '协议.法规.事件','nC' => '知名企业','nP' => '知名品牌','nz' => '专业名词 ',
        'nB' => '知名作品','nj' => '简称','nr' => '代名词','v' => '动词','vn' => '动名词',
        'm' => '数词 ','mQ' => '数量词','mt' => '时量词','t' => '时间词',
        'p' => '介词 ','q' => '量词','r' => '代词','u' => '助词','i' => '成语',
        'l' => '谚惯语','j' => '简称','f' => '方位词','x' => '未知.新词',
        'o' => '声音词','F' => '前导词','E' => '后缀词','X' => '非语素词', 'sb' => '符号',
        'mq' => '数量词','na' => '地名后缀','nE' => '次要后缀','nZ' => '专用后缀',
        'mu' => '数量合并','e' => '英文', 'es' => '英文加重', 's' => '虚.停止词', 'xs' => '未知.停止',
        'NF' => '复姓', 'N' => '单姓', 'vu' => '助动词', 'nM' => '媒体','fw' => 'function word',
		'K' => 'proper noun'
     );
结巴 jieba
a 形容词
ad 副形词
ag 形容词性语素
an 名形词
b 区别词
c 连词
d 副词
df 副词*
dg 副语素
e 叹词
eng 外语
f 方位词
g 语素
h 前接成分
i 成语
j 简称略语
k 后接成分
l 习用语
m 数词
mg 数语素
mq 数词*
n 名词
ng 名语素
nr 人名
nrfg 名词*
nrt 名词*
ns 地名
nt 机构团体
nz 其他专名
o 拟声词
p 介词
q 量词
r 代词
rg 代词语素
rr 代词*
rz 代词*
s 处所词
t 时间词
tg 时语素
u 助词
ud 助词*
ug 助词*
uj 助词*
ul 助词*
uv 助词*
uz 助词*
v 动词
vd 副动词
vg 动语素
vi 动词*
vn 名动词
vq 动词*
w 标点符号
x 非语素字
y 语气词
z 状态词
zg 状态词* 
以下推文采用自研智能关联、组合专题技术…:

相关文章 延伸阅读

(文章仅为用户好友间自行存档分享,如有违规请在下方评论中留言说明,并点击上方举报钮,同时删除本文。) 本文二维码


评论(2)