menu

基于BERT微调做实体对应的信息抽取 抽取实体描述和属性

这是我在知乎上的一点分享,还有点价值,转过来备份下.
基本上就是提取 实体+关系+描述 这一套。
比如前面的描述这个,点开每一条你就会发现基本都是 实体+是+描述。
至于下面的高度体重什么的也是类似,关系词固定下就是了。
要实现类似的也不是很难,现在模型这么多,随便用个Bert都可以做出类似的效果。
就拿抽取描述来说,先对文章抽取实体,然后 用实体+文章,对文章里对应的描述进行标记用TokenClassification这种类训练(就是做Ner的那个BMES格式就行)。用Bert微调一点就可以提取出不错的效果。
看看下面的效果,这里是提取的“柯基犬”相关的一些结果:
柯基犬提取的描述
罗威纳犬结果
罗威纳犬提取的描述
中华田园犬结果
中华田园犬结果

之后基于出现次数和域名计算下权重,排序聚类啥的就可以做出不错的效果了。
本人精力原因,只标记了几百篇文章,加上之前弄的句子的标记一起训练的结果。
至于详细的身高,体重,基本没有什么差别,只是标记数据或者说训练数据集的差别而已。
还有可以用GPT2这种模型能够训练出,原文不曾有的知识,很脑洞,不过驾驭起来就有些麻烦了。


编辑