百度飓风的推出,对跨领域采集、站群问题、采集痕迹明显、内容拼接、站点存在大量采集内容等5大恶意采集行为进行规范,着力提升网站用户体验。
1.算法简介
飓风算法是百度搜索为打压站点恶劣采集行为与站群,给优质原创内容提供更多展示机会,促进搜索生态良性发展而推出的一种搜索引擎算法。
2.算法更新
飓风算法3.0
2019年8月8日,百度搜索将飓风算法升级到飓风算法3.0,主要打击百度搜索下的PC站点、H5站点、智能小程序存在的跨领域采集及批量构造站群获取搜索流量的行为。飓风算法3.0旨在维护健康的移动生态,保障用户体验,保证优质站点/智能小程序能够获得合理的流量分发。
飓风算法2.0
2018年9月13日,百度对飓风算法进行升级,发布飓风算法2.0,主要打击采集痕迹明显、内容拼接、站点存在大量采集内容、跨领域采集等五类采集行为。飓风算法2.0旨在保障搜索用户的浏览体验,保护搜索生态的健康发展、对于违规网站,百度搜索会依据问题的恶劣程度有相应的限制搜索展现的处理。
对于第一次违规的站点,改好后解除限制展现的周期为1个月;
对于第二次违规的站点,百度搜索将不予释放。
飓风算法1.0
2017年7月4日,百度搜索资源平台发布公告推出飓风算法,旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引库中彻底清除恶劣采集链接,给优质原创内容提供更多展示机会,促进搜索生态良性发展。
飓风算法会例行产出惩罚数据,同时会根据情况随时调整迭代,体现了百度搜索对恶劣采集的零容忍。优质原创站点如发现站点索引量大幅减少且流量大幅下滑现象,可在百度搜索资源平台的反馈中心进行反馈。
3.算法打压问题及整改建议
飓风算法主要包含以下五类恶劣采集行为:
类型一:跨领域采集
跨领域主要分为两类
第一类:主站或主页的内容/标题/关键词/摘要等信息显示该站有明确的领域或行业,但发布内容与该领域不相关,或相关性较低。
第二类:站点/智能小程序没有明确的领域或行业,内容涉及多个领域或行业,领域模糊、领域专注度低。
建议:鼓励站点生产领域内的文章和内容,通过领域专注度获得更多的搜索流量。不要尝试采集跨领域的内容来获得短期收益,这样会造成领域专注度的降低,从而影响站点在搜索中的表现。[2]
类型二:站群问题
指批量构造多个站点/智能小程序,获取搜索流量的行为。站群中的站点/智能小程序大多质量低、资源稀缺性低、内容相似度高、甚至复用相同模板,难以满足搜索用户的需求。
类型三:采集痕迹明显
站点存在大量从其他站点或公众号采集、搬运而来的内容,信息未经整合,排版混乱,部分功能缺失或文章可读性差,有明显采集痕迹,用户阅读感受很差。
建议:对于网站发布的内容,需注意文章的排版和布局,不应出现与文章主旨不相关的信息或不可用的功能,干扰用户的浏览。
类型四:内容拼接
采集多篇不同文章进行拼接,整体内容未形成完整逻辑,存在阅读不通顺、文章不连贯等问题,无法满足用户需求。
建议:严厉反对利用采集编辑器等工具,随意生产拼接采集内容的行为,请网站多多生产对用户有价值的原创内容。
类型五:站点存在大量采集内容
网站内容下多数内容均为采集,网站自身无内容生产力或内容生产能力较差,网站内容质量较低。
建议:鼓励站点生产原创内容,如若转载需标明出处。(如:新闻、政策类等标明出处的转载内容,不会被认为是采集内容)。