menu

尝试使用albert评估标题质量

date_range 15/12/2019 00:00

bert很强大但是训练成本有点过大,所以尝试使用albert_tiny训练,虽然效果会降低不少但是预测速度足够快.而且机器要求也小了很多. 思路
选择视频标题和播放量作为训练资料,毕竟视频标题党的情况比较多.想要直接预测流量估计不是很容易但是预测个区间总共可以吧.
 爬取了20万条数据作为语料,跑了一千多次后仅有55%的正确率.
希望加大数据量和迭代能够有更好的效果.

面对巨大的文件真是力不从心

date_range 10/12/2019 00:00

面对巨大的文件真是力不从心

火狐都不能访问有道云笔记 什么逻辑啊

date_range 07/12/2019 00:00

 有道云笔记
很抱歉,您的浏览器无法使用有道云笔记新功能

刚才ping了下onedrive.live.com发现全部指向fb ip

date_range 07/12/2019 00:00

微软这是投靠facebook了啊,看来我们消息都 太不灵通了.

使用gpt2进行知识提取 效果还不错

date_range 06/12/2019 00:00

gpt2的生成能力让人惊叹,尝试使用gpt2进行知识提取.
把句子和提取的知识喂给gpt2稍加训练就能获取到不错的效国.虽然还有点莫名其妙.

谁再告诉我百度能搜索到东西 我就... December 05, 2019 at 11:31AM

date_range 04/12/2019 00:00

百度的搜索结果真是让人激动啊,一条有用的都没有!! Photo taken on December 05, 2019 at 11:31AM
via https://ift.tt/2DQkRQw

Albert轻量级可以用才是王道

date_range 04/12/2019 00:00

Albert轻量级可以用才是王道

自己搭建服务器稳定性不行还是背靠Google大树好啊。

date_range 23/11/2019 00:00

自己搭建服务器稳定性不行还是背靠Google大树好啊。

知识抽取

date_range 23/11/2019 00:00


1、知识抽取任务定义

从不同来源、不同结构的数据中进行抽取,形成知识存入到知识图谱。

2、知识抽取的技术与难点

结构化数据库中获取知识:D2R

  • 难点:复杂表数据的处理

链接数据中获取知识:图映射

  • 难点:数据对齐

半结构化(网站)数据中获取知识:使用包装器

  • 难点:方便的包装器定义方法,包装器自动生成、更新与维护

文本中获取知识:信息抽取

  • 难点:结果的准确率与覆盖率

3、知识抽取的子任务

知识抽取:自动化从文本中发现和抽取相关信息。将非结构化转化为结构化数据。

1)知识抽取  子任务

4、相关竞赛与数据集

MUCMessage Understanding Conference):正规文本(新闻报告等)抽取

  • 命名实体识别Named Entity RecognitionNER
  • 共指消解Co-reference ResolutionCR

ACEAutomatic Content Extraction):对MUC的任务融合、分类、细化,涵盖英语、阿拉伯语和汉语;

  • 实体检测与识别Entity Detection And RecognitionEDR
  • 细化了实体分类(egpersonorganizationslocations……)
  • 数值检测与识别Value Detection And RecognitionVAL
  • 分类:百分比、钱、邮箱、时间
  • **时间表达检测与识别(**Time Detection And RecognitionTERN
  • 关系检测与识别Relation Detection And RecognitionRDR
  • 事件检测与识别Event Detection And RecognitionVDR

KBPTAC Knowledge Base Population):对ACE的进一步修订,分为四个独立任务和一个整合任务。

  • 实体发现与链接Entity Discovery and LinkingEDL):需要知识库中唯一URI去链接实体
  • 槽填充Slot FillingSF):事件/多元关系抽取;
  • 事件抽取Event
  • 信念和情感Belief and SentimentBeSt):抽取知识的额外描述
  • 整合任务:端到端冷启动知识构建:对数据层进行学习和扩充

SemEvalSemantic Evaluation:国际权威的词义消歧评测

1、实体抽取

实体抽取:抽取文本中的原子信息元素。包括人名、组织/机构名、地理位置、时间/日期、字符值、金额值等(原子根据场景来定义)

示例

非结构化数据的实体抽取可以认为是一个序列标注问题,则可使用序列标注的方法,通过评价指标 F1的比较如下:

  • 人工特征IOB标注体系——O(Others)/B-ORG(组织开始字)/I-ORG(组织中间词)….
  • 词本身的特征:边界特征、词性、依存关系等
  • 前后缀特征:姓氏、地名等
  • 字本身的特征:是否是数字、是否是字符等
  • HMM
  • 有向图模型、生成式模型(找到使 P(X,Y)P(X,Y) P(X,Y)P(X,Y) 最大的参数)、假设特征之间是独立的
  • CRF
  • 无向图模型、判别式模型(找到使 P(YX)P(YX) P(Y|X)P(YX) 最大的参数)、没有关于特征之间是独立的
  • LSTM+CRF(主流)
  • 判别式模型、端到端网络、自动提取特征
  • 模型:word embeddings->Bi-LSTM encoder->CRF Layer

2、实体识别与链接

示例:聊天机器人

  • 如何处理大规模细粒度实体识别?
  • 如何应对新兴实体或实体新说法?

实体链接的流程

  • 文本 =》实体指称识别 =》候选实体生成 =》候选实体消歧 =》链接

开源工具Wikipedia MinerDBpedia SpotligthOpenCalais

实体链接示例

  • eg:中国证券网讯(记者 王雪青)中国证券记者今日获悉,万达集团的文明产业版图将再添世界级新军——传奇影业,具体收购情况或于下周二正式发布。