menu

Terry Chan的各种资源链接

date_range 22/03/2020 17:30

Sorry不是所有的资源都开放,有些是私人用的也被列出来了。

pytorch版本的reformer库推荐 中文实现也很轻松reformer-pytorch-chinese

date_range 22/03/2020 00:00

Transformer很强大但是消耗资源有点多,还好google又搞出来了reformer在资源消耗上做了很大的优化,这也让我们能够以更小的代价进行尝试,毕竟GPU真的不便宜。

reformer-pytorch可以试用下 https://github.com/lucidrains/reformer-pytorch 配合transformers的BertTokenizer把文字转化成ids后直接交个reformer处理,很轻松的就可以实现一个gpt2效果一样的模型了。

colab上运行示例 

又续费了这个垃圾主机virmach

date_range 14/03/2020 00:00

又续费了这个垃圾主机virmach。毕毕竟1.25美元,真不指望能有多快啊。而且只有256兆的内存。非常时期拿来备用,哈哈哈哈哈。

reformer生成内容确实很强

date_range 07/03/2020 00:00

不得不说谷歌新推出这个模型确实在生成文本方面确实很强。不过也存在的问题,就是感觉在生存速度上会比之前gpt2模型要慢一些。这这速度我估计让人很崩溃,有收获。 我我正在尝试使用这个模型训练下中文生成。确实在生成长文本方面会比模之前的模型要强的很多。

flatpak安装目录ubuntu

date_range 19/02/2020 00:00

目录
/var/lib/flatpak/app

解决scrapyd报错processing failed

date_range 08/02/2020 00:00

只需要降级Twisted即可

kite又一个不错的python代码提示器

date_range 31/01/2020 00:00

之前一只使用TabNine不过这家伙吃内存的能力真的没得说,毕竟gpt2就是个大力出奇迹的东西。

这里是kite发布的对比
https://kite.com/integrations/kite-vs-tabnine/ 先试试下吧,内存少了很多啊!

爬虫常用技术

date_range 01/01/2020 00:00

爬虫常用技术

尝试使用albert评估标题质量

date_range 15/12/2019 00:00

bert很强大但是训练成本有点过大,所以尝试使用albert_tiny训练,虽然效果会降低不少但是预测速度足够快.而且机器要求也小了很多. 思路
选择视频标题和播放量作为训练资料,毕竟视频标题党的情况比较多.想要直接预测流量估计不是很容易但是预测个区间总共可以吧.
 爬取了20万条数据作为语料,跑了一千多次后仅有55%的正确率.
希望加大数据量和迭代能够有更好的效果.

面对巨大的文件真是力不从心

date_range 10/12/2019 00:00

面对巨大的文件真是力不从心

编辑