TerryChan' Blog

文章

标签

喜欢

标签: 自然语言

共找到 16 篇相关文章

第 2 页,共 2 页

文章预览

labelstudio ml_backend simple text classifier文本…
2023年08月22日 434 字

关于 == labelstudio 分类v1 可以作为后端的预训练服务,可以方便文本分类任务使用。 虽然使用了performer这种局部注意力作为核心方案,不过速度上还是很难达到很理想,后期会尝试再做一个机器学习版本,速度应该会快很多。 获取labelstudio 一键启动后端服务: ======…

阅读全文
浏览 评论

文章预览

SentencePiece一个google开源的自然语言处理工具包
2023年08月22日 222 字

SentencePiece是一个google开源的自然语言处理工具包。数据驱动、跨语言、高性能、轻量级——面向神经网络文本生成系统的无监督文本词条化工具 SentencePiece的用途不限于自然语言处理,,蛋白质的一级结构是氨基酸序列,需要研究氨基酸序列片断,片断的长度又是不固定的,就可以用SentencePiece进行切分。 官方网站

阅读全文
浏览 评论

文章预览

如何解决自然语言模型训练中数据不足?进行文本数据增强方法分享
2023年08月22日 1388 字

句自然语言任务中数据标注的成本一般都比较高,所以获取高质量数据集便成了最大的难题. 虽然最近几年各种预训练模型大行其道,但是如果能够有足够好的数据集也是能够解决问题的关键。 Mask ---- 如果使用bert作为模型一部分微调数据,mask方案没准是最廉价的创造数据的方法。之前看到有人说用mlm做内容替换生成训练,为什么不直接搞个动态mask呢?…

阅读全文
浏览 评论