头条检测文章内容重复率工具

250次

问题描述:

头条检测文章内容重复率工具希望能解答下

推荐答案

2023-12-24 02:24:54

对图文进行重复检测,一般从图文的标题、正文、封面三个维度做重复检测,用到的方法有编辑距离(针对标题)、Simhash(针对标题和正文)、dHash(针对封面)等。

Google去年推出的BERT向量,相比Word2vec,包含更多的上下文,效果会更好一些,比如可以将整个正文输入得到BERT向量,比较两个BERT向量的距离。若存量文章很多的话,还需要借助Facebook开源的Faiss进行向量TopN距离召回。

(c)2008-2025 自学教育网 All Rights Reserved 汕头市灵创科技有限公司
粤ICP备2024240640号-6