命名实体识别
命名实体识别
命名实体识别
命名实体是命名实体识别的研究主体,一般包括3大类
命名实体识别的过程通常分两步:识别实体边界、确定实体类别。英语中的命名实体具有比较明显的形态标志,如人名、地名等实体中的每个词的第一个字母要大写等,所以实体边界识别相对来说比较容易。中文内在的特殊性决定了在文本处理时首先必须进行词法分析,中文命名实体识别的难度要比英文的难度大。
一个完善的命名实体识别系统应该是词典、规则、统计学习的方法相结合。
- 可以对原始文本进行细粒度的分词,多个连续的单字可以作为命名实体的候选结果;识别文本中的“”以及《》等配对的标点符号,当中的文本也可以作为候选结果。
- 挖掘各个领域的专名词典,对候选结果进行前向最大匹配,匹配到的很有可能是各个类别的命名实体。
- 利用隐马尔科夫链
(HMM) 、最大熵(ME) 、条件随机场(CRF) 等统计模型进行识别,命名实体识别调研 有各个模型的效果总结。