Default

September 1, 2021

小内存使用gensim 的 tfidf

gensim 的 tfidf 实现,它更有效,并且不需要像这篇文章解释的那样将整个语料库保存在内存中。 https://radimrehurek.com/gensim/models/tfidfmodel.html “`python res = es.search(index=ES_INDEX, body={“query”: { “bool”: { “should”: [ #...

Read More
September 1, 2021

2021-06-08 记事

2021-06-08 记事 lm-scorer lm-scorer 语言评分包。 pip install lm-scorer https://pypi.org/project/lm-scorer/ AutoGluon中输出分类和概率 参考地址 https://auto.gluon.ai/tutorials/tabular_prediction/tabular-indepth.html 输出分类 “` print(predictor.predict(datapoint)) “`...

Read More
September 1, 2021

2021-06-15 记事replit

Replit是一个学习程序语言的在线交互式环境,它支持16种程序语言,包括了QBasic、Forth、Ruby、Scheme、Python、Lua等。用户可以直接在浏览器上学习和体验这些语言。 Code, create, and learn together Use our free, collaborative, in-browser IDE to code in 50+...

Read More
September 1, 2021

Anaconda– conda 创建、激活、退出、删除虚拟环境

在Anaconda中conda可以理解为一个工具,也是一个可执行命令,其核心功能是包管理与环境管理。所以对虚拟环境进行创建、删除等操作需要使用conda命令。 Managing environments — conda 4.9.2.post34+dc0c8d48 documentation conda 本地环境常用操作 <h1>获取版本号</h1> conda –version 或 conda -V <h1>检查更新当前conda</h1>...

Read More
September 1, 2021

文档中段落级别的文本标注任务

文档对段落级别的文本标注任务如果直接上crf显然是不可想像的。 想法: 句子分类借助bert的cls对句子分类。 cls输出向量拼接经过crf。 可以保持序列的连贯,而且训练的压力相对小很多。 如果没有可用的数据集,完全可以用摘要算法生成些样本作为测试。 在经过人工筛选,没准可以提取不错的摘要。

Read More