menu

知识抽取

  • date_range 23/11/2019 00:00 info
    sort
    Default
    label


1、知识抽取任务定义

从不同来源、不同结构的数据中进行抽取,形成知识存入到知识图谱。

2、知识抽取的技术与难点

结构化数据库中获取知识:D2R

  • 难点:复杂表数据的处理

链接数据中获取知识:图映射

  • 难点:数据对齐

半结构化(网站)数据中获取知识:使用包装器

  • 难点:方便的包装器定义方法,包装器自动生成、更新与维护

文本中获取知识:信息抽取

  • 难点:结果的准确率与覆盖率

3、知识抽取的子任务

知识抽取:自动化从文本中发现和抽取相关信息。将非结构化转化为结构化数据。

1)知识抽取  子任务

4、相关竞赛与数据集

MUCMessage Understanding Conference):正规文本(新闻报告等)抽取

  • 命名实体识别Named Entity RecognitionNER
  • 共指消解Co-reference ResolutionCR

ACEAutomatic Content Extraction):对MUC的任务融合、分类、细化,涵盖英语、阿拉伯语和汉语;

  • 实体检测与识别Entity Detection And RecognitionEDR
  • 细化了实体分类(egpersonorganizationslocations……)
  • 数值检测与识别Value Detection And RecognitionVAL
  • 分类:百分比、钱、邮箱、时间
  • **时间表达检测与识别(**Time Detection And RecognitionTERN
  • 关系检测与识别Relation Detection And RecognitionRDR
  • 事件检测与识别Event Detection And RecognitionVDR

KBPTAC Knowledge Base Population):对ACE的进一步修订,分为四个独立任务和一个整合任务。

  • 实体发现与链接Entity Discovery and LinkingEDL):需要知识库中唯一URI去链接实体
  • 槽填充Slot FillingSF):事件/多元关系抽取;
  • 事件抽取Event
  • 信念和情感Belief and SentimentBeSt):抽取知识的额外描述
  • 整合任务:端到端冷启动知识构建:对数据层进行学习和扩充

SemEvalSemantic Evaluation:国际权威的词义消歧评测

1、实体抽取

实体抽取:抽取文本中的原子信息元素。包括人名、组织/机构名、地理位置、时间/日期、字符值、金额值等(原子根据场景来定义)

示例

非结构化数据的实体抽取可以认为是一个序列标注问题,则可使用序列标注的方法,通过评价指标 F1的比较如下:

  • 人工特征IOB标注体系——O(Others)/B-ORG(组织开始字)/I-ORG(组织中间词)….
  • 词本身的特征:边界特征、词性、依存关系等
  • 前后缀特征:姓氏、地名等
  • 字本身的特征:是否是数字、是否是字符等
  • HMM
  • 有向图模型、生成式模型(找到使 P(X,Y)P(X,Y) P(X,Y)P(X,Y) 最大的参数)、假设特征之间是独立的
  • CRF
  • 无向图模型、判别式模型(找到使 P(YX)P(YX) P(Y|X)P(YX) 最大的参数)、没有关于特征之间是独立的
  • LSTM+CRF(主流)
  • 判别式模型、端到端网络、自动提取特征
  • 模型:word embeddings->Bi-LSTM encoder->CRF Layer

2、实体识别与链接

示例:聊天机器人

  • 如何处理大规模细粒度实体识别?
  • 如何应对新兴实体或实体新说法?

实体链接的流程

  • 文本 =》实体指称识别 =》候选实体生成 =》候选实体消歧 =》链接

开源工具Wikipedia MinerDBpedia SpotligthOpenCalais

实体链接示例

  • eg:中国证券网讯(记者 王雪青)中国证券记者今日获悉,万达集团的文明产业版图将再添世界级新军——传奇影业,具体收购情况或于下周二正式发布。