百度算法大全详解

一、惊雷算法

1、历史版本
惊雷算法1.0、惊雷算法2.0
2、算法介绍
针对一些网站恶意点刷网站来提高网站排名的行为,包括人为恶意点击和利用VPN软件点刷网站流量等行为,严重为规则会长期封禁网站收录,算法自2017年11月20日上线。
3、打击对象
点击快排、7天上首页、发包、站内查找点击和虚拟外链点击等作弊方式。
4、应对方案
网站期间如有流量大幅度异常,可在反馈中心-流量异常投诉

二、闪电算法
1、历史版本
闪电算法
2、算法介绍
百度搜索推出闪电算法,主要针对的是首屏的加载时间,因此建议将网络带宽留给首屏请求,以满足在不同网络情况下的加载速度和用户体验。百度用户体验部研究表明,用户期望且能够接受的页面加载时间在3秒以内。若页面的加载时间过慢,用户就会失去耐心而选择离开,这对用户和站长来说都是一大损失。“闪电算法”不仅体现了百度移动搜索对于页面加载速度更加重视的决心,也体现了百度移动搜索希望站长能够站在和用户共赢的角度对网站进行优化的期待。算法自2017年10月19日上线。
3、打击对象
移动搜索页面首屏加载非常慢(3秒及以上)的网页将会被打压。
4、应对方案
1、将同类型资源在服务器端压缩合并,减少网络请求次数和资源体积。
2、引用通用资源,充分利用浏览器缓存。
3、使用CDN加速,将用户的请求定向到最合适的缓存服务器上。
4、非首屏图片懒加载,将网络带宽留给首屏请求
5、将CSS样式写在头部样式表中,减少由CSS文件网络请求造成的渲染阻塞。
6、将JavaScript放到文档末尾,或使用async方式加载,避免JS执行阻塞渲染。
7、对非文字元素(如图片,视频)指定宽高,避免浏览器重排重绘。

三、清风算法
1、历史版本
清风算法1.0、清风算法2.0
2、算法介绍
严惩网站通过网页标题作弊,欺骗用户并获得点击的行为;从而保证搜索用户体验,促进搜索生态良性发展。算法自2017年9月14日上线。
3、打击对象
标题作弊:主要指标题内容虚假,或在标题中故意堆砌关键词等行为。
标题内容虚假:指标题表述的内容与网页内容不相符,有欺骗用户嫌疑。
标题故意堆砌:指在标题中多次重复、过度堆砌关键词。
主要针对:下载站和电影站
4、应对方案
1、站点自身能够直接通过搜索提供真实有效的资源,切实满足用户的需求。
2、避免下载资源和下载服务失效。
3、拒绝通过利用下载资源无关的内容,诱导用户下载。
4、title 中明确说明下载的资源是什么,页面中的下载内容应与页面当中的标题、描述相一致,避免出现不一致的情况。
5、如通过网盘、迅雷等形式下载,需要在标题中进行说明。
6、不应出现蹭知名网站行为,诱导用户下载。

四、飓风算法
1、历史版本
飓风算法1.0、飓风算法2.0
2、算法介绍
飓风算法是百度搜索针对恶劣采集为内容主要来源的网站,而推出的一种搜索引擎算法。飓风算法,旨在严厉打击以恶劣采集为内容主要来源的网站,同时百度搜索将从索引库中彻底清除恶劣采集链接,给优质原创内容提供更多展示机会,促进搜索生态良性发展。
飓风算法会例行产出惩罚数据,同时会根据情况随时调整迭代,体现了百度搜索对恶劣采集的零容忍。算法自2017年7月4日上线。
3、打击对象
采集痕迹明显、内容拼接、站点存在大量采集内容、跨领域采集等
4、应对方案
优质原创站点如发现站点索引量大幅减少且流量大幅下滑现象,可在反馈中心进行反馈。

五、蓝天算法
1、历史版本
蓝天算法
2、算法介绍
蓝天算法,是百度搜索引擎针对新闻源站点售卖软文、目录等严重违反新闻源规则,并影响用户搜索体验行为,于2016年11月正式启用的一种搜索引擎算法规则,其目的是严厉打击新闻源售卖软文、目录行为,还用户一片搜索蓝天。
百度反作弊团队发现部分新闻源站点售卖目录,发布大量低质内容现象,此举严重违反新闻源规则,并影响用户搜索体验,针对此情况于2016年11月百度正式推出“蓝天算法”,旨在严厉打击新闻源售卖软文、目录行为,还用户一片搜索蓝天。
触发“蓝天算法”问题的站点将被百度清理出新闻源,同时降低其在百度搜索系统中的评价,并对有损用户体验的行为,百度打击力度将是全力的、绝对不手软的。
算法自2016年11月21日上线。
3、打击对象
新闻源站点售卖软文、目录并发布大量低质量内容站点
4、应对方案
1. 网站自查。新闻源站点自查网站内容是否违规,有则改之无则加勉。
2. 问题站整改。被百度判罚的新闻源站点需要根据新闻源教育文章进行网站检查整改,清理相关内容后可再次向百度申请新闻源。
3. 网民举报。如发现新闻源软文售卖行为,站长可通过百度站长平台新闻源反馈中心进行反馈处理。

六、天网算法
1、历史版本
天网算法
2、算法介绍
天网算法主要是针对网页搜索发现部分站点存在盗取用户隐私的行为进行打击。主要表现为网页嵌恶意代码(多为JS代码),用于盗取网民的QQ号、手机号。
百度网页搜索发现部分站点存在盗取用户隐私的行为,主要表现为网页嵌恶意代码,用于盗取网民的QQ号、手机号。而许多网民却误认为这是百度所为。为此,百度网页搜索和百度安全联合研发天网算法,针对这种恶意行为进行打击。
有过盗取用户隐私行为的站点请尽快整改,待策略复查达到标准可解除惩罚。算法自2016年8月10日上线。
3、打击对象
钓鱼网站、网页嵌恶意代码盗取用户信息类站点
4、应对方案
网站清除掉违规js代码即可

七、冰桶算法
1、历史版本
冰桶算法1.0:相应的必须下载app、必须登录等才可正常使用的资源排序会大幅下降。
冰桶算法2.0:全屏下载、在狭小的手机页面布设大面积广告遮挡主体内容、强制用户登录才可以使用等问题。
冰桶算法3.0:将严厉打击在百度移动搜索中,打断用户完整搜索路径的调起行为。
冰桶算法4.0:针对移动搜索结果页广告过多,影响用户体验的页面,进行策略调整。
冰桶算法4.5:发力打击Landing Page恶劣广告行为。
冰桶算法5.0:百度搜索将在11月下旬对冰桶算法进行升级,上线冰桶算法5.0。本次算法升级以白皮书4.0为标准,覆盖百度APP内存在的落地页广告、APP调起、展开全文功能等问题,对存在问题的搜索结果页进行违规内容过滤或限制搜索展现的处理。
2、算法介绍
百度移动搜索将针对低质站点及页面进行一系列调整,我们称之为冰桶算法。对用户可直接使用的优质资源进行优先展现。相应的必须下载app、必须登录等才可正常使用的资源排序会大幅下降。这是搜索引擎尊重用户的必然选择,也是着眼于净化移动互联网整体环境的必然趋势。算法自2016年9月19日上线
3、打击对象
强行弹窗app下载、用户登录、大面积广告等影响用户正常浏览体验的页面,尤其以必须下载app才能正常使用的站点为代表。从整个移动互联网生态环境看,越来越多的网站进行此类强推,这已经严重影响了正常用户的浏览体验
4、应对方案
网站清除掉违规js代码即可

八、石榴算法
1、历史版本
石榴算法-低质量链接终结者
2、算法介绍
石榴算法是百度针对低质量网站的进一步打击的升级版,与之前百度绿萝算法相对应,这正是百度搜索引擎提高用户体验,提高搜索质量的有力手段。石榴算法第一期针对含有大量低质弹窗广告及大量混淆页面主体内容等垃圾广告的页面算法升级,将会在一周之后正式上线。广大站长需要在一周内尽快检查网站中的广告情况并及时进行处理。
最后希望站长们能够从用户的角度出发往长远考虑,在不影响用户体验的前提下合理放置广告,赢得用户的长期青睐才是一个网站发展壮大的基础。算法自2013年5月17日上线。
3、打击对象
低质广告、广告弹窗、劣质弹窗、混淆页面等无价值内容
4、应对方案
快速处理站内垃圾广告,同时提升站内内容质量

九、绿罗算法
1、历史版本
绿罗算法
2、算法介绍
百度绿萝算法是百度上线的一种搜索引擎反作弊的算法。该算法主要打击超链中介、出卖链接、购买链接等超链作弊行为。该算法的推出有效制止恶意交换链接,发布外链的行为,有效净化互联网生态圈。算法自2013年2月19日上线。
3、打击对象
超链中介:超链本应是互联网上相对优质的推荐,是普通用户及网站之间对页面内容、网站价值的肯定,但种种超链作弊行为使得真实的肯定变成了一些人谋取利益的垫脚石,用户无法根据链接的推荐找到需要的优质资源,并且严重干扰搜索引擎对网站的评价。超链中介便是这畸形的超链市场下形成的恶之花,我们有义务维护超链的纯净维护用户利益,也有责任引导站长朋友们不再支出无谓的花销,所以超链中介将在我们的目标范围内。
出卖链接的网站:一个站点有许多种盈利方式,利用优质的原创内容吸引固定用户,引进优质广告资源,甚至举办线下活动,这些盈利方式都是我们乐于见到的,是一个网站的真正价值所在。但是一些网站内容基本采集自网络,以出卖超链位置为生;一些机构类网站或被链接中介所租用进行链接位置出售,使得超链市场泡沫越吹越多。此次的调整对这类站点同样将有所影响。
购买链接的网站等:一直以来,百度对优质站点都会加以保护和扶植,这是从用户需求以及创业站长的角度出发的必然结果。而部分站长不将精力用在提升网站质量上,而选择钻营取巧,以金钱换取超链,欺骗搜索引擎进而欺骗用户。对于没有太多资源和金钱用于此类开销的创业站长来说,也是一种无形的伤害,如果不进行遏制,劣币驱逐良币,势必导致互联网环境愈加恶劣。此次调整这类站点本身也将受到影响。
4、应对方案
避免站内出现买卖外链等铭感词汇,同时停止无意义的购买外链,与同行交换高质量的优质友情链接才是根本

十、细雨算法
1、历史版本
细雨算法
2、算法介绍
细雨算法,是百度搜索为保证搜索用户体验,促进供求黄页类B2B站点生态健康发展而推出的。算法自2018年7月中旬上线。
3、打击对象
页面标题作弊:包括但不限于冒充官方,title堆砌关键词等情况。
频繁留联系方式:商家为了在页面中频繁保留联系方式而做出的各种低质受益行为,如受益方式变形、穿插受益等。这种低质受益行为严重影响用户体验。
4、应对方案
提高网站用户体验,减少联系方式广告等内容出现

十一、烽火算法
1、历史版本
烽火算法
2、算法介绍
烽火算法是指百度搜索引擎对于危害用户隐私、恶意劫持站点的行为推出的算法规则。算法自2018年5月17日上线。
3、打击对象
1.未经用户允许恶意窃取用户手机号码等隐私数据的行为。
2.恶意劫持百度流量的行为。适用于以下情况:
①搜索用户通过百度移动搜索到达网站后,完成阅读要离开网站页面时,通过浏览器返回上一级页面被劫持到虚假的百度搜索结果页中;
②搜索用户通过百度移动搜索到达网站后,完成阅读要离开网站页面时,通过浏览器始终无法返回上一级百度搜索结果页,搜索用户会一直被困在站点内。
4、应对方案
1、恶意代码植入导致劫持的,通过HTTPS改造提升站点安全性。
2、站长自己排查并清理问题页面。

十二、烽火计划
1、 历史版本
烽火计划
2、算法介绍
主要打击手机端网站域名劫持,当用移动设备访问网站时,再返回搜索结果页时,网页JS会强制跳转至虚假的百度搜索页,展现的都是第一次点击网站展现的信息。算法自2017年2月23日上线。
3、打击对象
返回跳转(js强制劫持)、网站域名劫持站点
4、应对方案
正确的引导用户,拒绝使用黑帽手法

十三、极光算法
1、历史版本
极光算法
2、算法介绍
2018年5月底,百度搜索将上线极光算法,旨在倡导资源方重视网站落地页时间规范。落地页时间因子是百度搜索判断网站收录、展示、排序结果的重要参考依据。
为了让用户获得更满意的搜索浏览体验,我们将给予符合落地页时间因子要求且时效性较高的网页更多的收录、展现机会,同时减少不符合规定的网站的展现机会。
3、打击对象
内容老旧不更新站点(不产出最新内容)、无时间因子展现站点(内容发布时间)
4、应对方案
做好细节处理,每一条内容链接做好发布时间(可将时间代码改为实时更新)

十三、烽火算法3.0
1、历史版本
烽火算法3.0
2、算法介绍
 
目前,烽火算法还在持续升级迭代中,并将于近期扩大算法覆盖。为了能够更好的执行烽火算法,我们针对百度搜索下站点命中烽火算法的执行方法进行补充,规定算法观察期如下:
 
1.站点首次被烽火算法覆盖,百度会通过站内信等方式发出站点问题说明及整改期限要求,未在规定时间内完成整改,将会限制站点在搜索结果中的展现,减少对用户的伤害。站点整改之后,经过算法观察期才可解除搜索展现的限制。
解除限制展现的申请条件:按照要求完成所有劫持问题的整改。
算法观察期:一个月
2.第二次发现站点存在劫持问题,百度将限制搜索结果展现,并同步通知到站点。
解除限制展现的申请条件:按照要求完成所有劫持问题的整改。
算法观察期:三个月
3.第三次及以上发现站点存在劫持问题,永久限制站点展现。
3、打击对象
百度搜索中的网站劫持有以下两种表现形式:
跳转劫持:用户点击目标网页后,页面直接跳转至另一页面;
后退劫持:用户完成对某网页的浏览,点击“后退”按钮时出现以下几种情况
(1)无法后退,点击后退时页面无反应,内容无变化;
(2)后退到“假百度页面”,搜索结果出现霸屏现象;
(3)后退到用户之前没有访问过的垃圾、作弊等低质网页。
4、应对方案
对于主动进行网站劫持的作弊行为,我们一定会严厉打击,请网站自觉迅速清理问题页面。
除了网站主动进行恶意劫持外,也有一些网站存在“被恶意劫持“或站内的”第三方站点链接被劫持“的问题,为了降低网站被劫持的风险,我们建议您:
1、对网站进行HTTPS改造,加强网站安全性,可参考《HTTPS改造全解析》;
2、推动第三方站点改造HTTPS或者自查,跟第三方资源提供者充分沟通,保证网站统计、网站优化、推广广告等使用的第三方资源不存在恶意劫持的情况;
3、搭建百度智能小程序,增强网站安全性和可控性,降低被劫持的风险。

十四、TF-IDF
1、简介
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。
2、计算步骤
计算词频(TF)
词频=某个词在文章中的出现次数文章总次数
计算逆文档频率(IDF)
逆文档频率=log语料库的文档总数包含该词的文档数+1
计算词频-逆文档频率(TF-IDF) 



内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:/zawen145.html