知识抽取
-
date_range 23/11/2019 00:00 infosortDefaultlabel
1、知识抽取任务定义
从不同来源、不同结构的数据中进行抽取,形成知识存入到知识图谱。
2、知识抽取的技术与难点
从结构化数据库中获取知识:D2R
- 难点:复杂表数据的处理
从链接数据中获取知识:图映射
- 难点:数据对齐
从半结构化(网站)数据中获取知识:使用包装器
- 难点:方便的包装器定义方法,包装器自动生成、更新与维护
从文本中获取知识:信息抽取
- 难点:结果的准确率与覆盖率
3、知识抽取的子任务
知识抽取:自动化从文本中发现和抽取相关信息。将非结构化转化为结构化数据。
(1)知识抽取 的 子任务
4、相关竞赛与数据集
MUC(Message Understanding Conference):正规文本(新闻报告等)抽取
- 命名实体识别(Named Entity Recognition,NER)
- 共指消解(Co-reference Resolution,CR)
ACE(Automatic Content Extraction):对MUC的任务融合、分类、细化,涵盖英语、阿拉伯语和汉语;
- 实体检测与识别(Entity Detection And Recognition,EDR)
- 细化了实体分类(eg:person,organizations,locations……)
- 数值检测与识别(Value Detection And Recognition,VAL)
- 分类:百分比、钱、邮箱、时间
- **时间表达检测与识别(**Time Detection And Recognition,TERN)
- 关系检测与识别(Relation Detection And Recognition,RDR)
- 事件检测与识别(Event Detection And Recognition,VDR)
KBP(TAC Knowledge Base Population):对ACE的进一步修订,分为四个独立任务和一个整合任务。
- 实体发现与链接(Entity Discovery and Linking,EDL):需要知识库中唯一URI去链接实体
- 槽填充(Slot Filling,SF):事件/多元关系抽取;
- 事件抽取(Event)
- 信念和情感(Belief and Sentiment,BeSt):抽取知识的额外描述
- 整合任务:端到端冷启动知识构建:对数据层进行学习和扩充
SemEval(Semantic Evaluation):国际权威的词义消歧评测
1、实体抽取
实体抽取:抽取文本中的原子信息元素。包括人名、组织/机构名、地理位置、时间/日期、字符值、金额值等(原子根据场景来定义)
示例:
非结构化数据的实体抽取可以认为是一个序列标注问题,则可使用序列标注的方法,通过评价指标 F1值的比较如下:
- 人工特征:IOB标注体系——O(Others)/B-ORG(组织开始字)/I-ORG(组织中间词)….
- 词本身的特征:边界特征、词性、依存关系等
- 前后缀特征:姓氏、地名等
- 字本身的特征:是否是数字、是否是字符等
- HMM
- 有向图模型、生成式模型(找到使 P(X,Y)P(X,Y) P(X,Y)P(X,Y) 最大的参数)、假设特征之间是独立的
- CRF
- 无向图模型、判别式模型(找到使 P(Y∣X)P(Y∣X) P(Y|X)P(Y∣X) 最大的参数)、没有关于特征之间是独立的
- LSTM+CRF(主流)
- 判别式模型、端到端网络、自动提取特征
- 模型:word embeddings->Bi-LSTM encoder->CRF Layer
2、实体识别与链接
示例:聊天机器人
- 如何处理大规模细粒度实体识别?
- 如何应对新兴实体或实体新说法?
实体链接的流程:
- 文本 =》实体指称识别 =》候选实体生成 =》候选实体消歧 =》链接
开源工具:Wikipedia Miner、DBpedia Spotligth、OpenCalais
实体链接示例:
- eg:中国证券网讯(记者 王雪青)中国证券记者今日获悉,万达集团的文明产业版图将再添世界级新军——传奇影业,具体收购情况或于下周二正式发布。