World Classics Series

基于Bert的同义句训练

by Terry Chan

Contents

中文同义句判断

利用预训练的中文模型实现基于bert的语义匹配模型 数据集为LCQMC官方数据

利用transformers里本身提供的MRPC训练代码 lcqmc数据和转化脚本下载 使用lcqmc数据转为MRPC格式。 lcqmc2MRPC.py

转化为 MRPC data set (GLUE version).

python lcqmc2MRPC.py

使用模型

基于chinese_wwm_ext_pytorch模型训练

中文句子相似模型下载

tkitTextClassification分类包

可以使用分类包快速引用


pip install tkitTextClassification

#测试

import tkitTextClassification as tkitclass
tc=tkitclass.TextClassification()

sentence_1="近期上映的电影"
sentence_2="近期上映的电影有哪些"
tc.load("tkitfiles/bert_sentence_similarity/")
c=tc.pre(sentence_1,sentence_2)
print("相关吗?",c)

#相关吗? 1