如何知道一篇文章是不是原创?百度算法是这样判断的
对于创作者来说,最头疼的莫过于自己辛辛苦苦几个小时完成的一篇文章,刚发布完成就被抄袭走了,甚至别人网站立马被收录和有排名,而自己的文章却既没有收录也没有排名,自己写的文章页完全给别人做了嫁衣,今天我们就以搜索引擎算法角度来谈谈,算法是如何去判断一篇文章是否是原创,我们又该如何规避被别人抄袭采集走呢?
一、算法判断原创度
说到原创,百度算法是这样定义的,用户花费大量精力和时间成本去撰写或整理出的一篇文章,文章内容丰富详实、这样的文章在百度算法才算原创,但是我个人觉得,百度定义的原创并不能让人信服,因为行业内90%以上都是采集或伪原创, 所以我个人理解的原创,也就是我们通过自己经验看法总结出来的一篇文章,文章可以跟其他文章有相似观点或者看法,不完全雷同,这才算原创,但在百度算法中,这个过程又是怎样的呢?我们来还原一下一篇文章从生产出来到后面到后面排名,究竟经历了什么?
我们可以列举工作中最常见的场景,小王写了10篇文章后,通过一系列排版和配图后,发布到官网,隔几天后,他发现这10篇文章中,有6篇被收录了,搜索全标题都有排名。针对这个场景,百度算法是如何运算的?
小王在发布文章后,对应生成的链接是www.abc.com/123.html,假设百度蜘蛛爬取该url后,分析url里的页面内容,同时,对照数据库中未有该页内容,然后收录保存到数据库中,然后进行相关算法进行索引排名,注意的是,该url信息是在百度数据库中不存在才给予抓取,如果123.html存在,则跳过不抓取。
百度蜘蛛把url抓取到库中,有两个算法决定了是否收录,这两个算法是把内容切割,对照数据库中是否有重复内容,如果有,则不收录,如果没有则收录,注意的是,百度抓取的是页面,而并不是文章,所以这也是很多人有疑惑,为什么同样一篇文章,有的站点收录,有的站点不收录,在算法中,百度只考察页面。
在这其中,百度算法会依据抓取时间因子、内容来进行内容判断,来判断该篇文章是否是原创,比如123.html在2022年6月18日14:50被百度抓取后,如果有其他站点采集了该文章,那么百度是可以识别出123.html是原创文章,反过来,如果123.html发布后并没有被百度蜘蛛抓取前,就被人家采集走了,那么采集走的站点恰巧做了推送,那么百度会认可采集走的文章是原创,而真正原创并不是原创,所以,你可能就看明白了百度算法判断文章是否是原创的基本逻辑:
换句话说,如果我们的文章由于一些特定原因并没有被抓取,也就是错失了被算法判断原创内容的机会,我们主要牢记时间因子、抓取、内容这三点就可以了。
二、如何防止被别人采集走?
我们知道了以上三点后,就要防止被别人采集走,我们用的最多的就是防采集代码,还有我们平时忽略的就是,发布文章后一定要记得给资源平台提交数据。目前资源平台的普通提交就可以满足大部分站长的需求。发布提交、利用反爬代码,让站长无法去抄袭采集你的内容。
三、原创内容判定误区
由于很多人对原创内容一直不理解,所以这里总结了部分问题,希望对各位同学有所帮助:
问:别人采集我的内容,为什么别人收录,自己没收录?
答:自己内容没有做提交或者蜘蛛没有爬取到该URL,其他站点优先提交数据。
问:是否可以更改时间因子来突破原创?比如我采集走别人文章,更改一个更早的时间。
答:百度算法判断原创,不仅看时间因子还要看系统时间。
问:检测原创软件有哪些?
答:市面上很多检测伪原创工具,比如纸牌屋检测、5118伪原创检测。
问:正确发布文章的流程是什么
答:发布后记得提交数据、第一时间提交数据。
问:自己手写的原创为什么不收录?采集的反而收录?
答:先排除是否抓取该Url,另外自己写的不代表原创高质量,采集的不代表低质量,注意区分。