这是第二段,主要说爬虫的抓取,重点是来说网站的可连通性。
大纲:(1)可连通性
1.1 服务器稳定1.2 地区选择
1.3 CDN选择
(2)封禁
2.1 robots.txt2.2 nofollow
2.3 CDN设置
(3)抓取量
3.1 网站安全3.2 向英国读
(4)协议
4.1 https4.2 http
野狼总结的本期重点:
1、如果两天以上网站持续性的打不开肯定会给网站排名造成问题。2、CDN对百度拒绝访问是很可怕的,所以要注意,但是野狼感觉不会有这样的问题,谁的CDN会这样设置呢。但是这里提醒我们就是选择稍微大型的CDN服务公司,比如百度加速、360加速。在百度站长平台的抓取诊断功能可以判断是否可正常抓取。
3、百度蜘蛛大部分是北京电信、网通的线路。