从零基础开始学习好SEO
当前位置: 首页 > 第4节:爬虫的规则及优化方法

第4节:爬虫的规则及优化方法

发布时间:2021年4月25日 20:28:54

视频简介(下面内容为音频转文字)

大家好,我是道一现在呢,我们来讲一下第四节。爬虫的h规则和我们在实际操作中的一些应用,首先你要知道爬虫,它的本质究竟是什么。那么在这里呢,给大家画了一张图,长方形的是百度搜索引擎啊,用百度为例子,这个呢?是爬虫?这个是网页。我们都知道,啊,爬虫,它是不断的去下载网页。会来提供给搜索引擎,搜索引擎,它和网页之间,他们之间是没有关联的。你的网页怎么样,搜索引擎他是不知道的,所以他需要通过爬虫把网页的一些信息。

传达给搜索引擎,他从他的本质呢,他是搜索引擎和网页之间的桥梁,他们之间的沟通桥梁。我们网站上的一些变化,一些日常的操作。都是通过爬虫传达给搜索引擎的,如果爬虫他没有来我们的网站,那么也就是搜索引擎,他和网页断开了联系。那我们的网站,他是没有办法获得很好的评估,很好的关键词排名的。

这个就是爬虫的本质。我们如何要让爬虫来到我们的网站呢,首先,爬虫它的功能的有两个。第一个呢,他是发现新的页面,就是你新建一个站点,你更新新的文章,把它可以发现新的页面。那第二个呢,就是回访老页面,比如说我的网站,他爬去过一次了。那么他还会通过我们网站的情况来计算第二次爬取的时间,那我们先来讲第一个发现新页面。那假如我们现在新建一个网站,那我们应该怎么去做呢?很简单哈,把网址提交给百度就可以了。怎么去进行提交呢?

那么我们的可以用我们自己的网址在百度上搜索一下。他会提示你这个网址呢?他没有找到,还可以提交给我们。那么你就可以把网址呢提交给百度搜索引擎,点击提交就可以了。你提交链接之后呢,受损情,他会在24小时之内啊,他会派爬虫来爬出你的网站。有一些情况呢,他会延迟到2-3天来爬去你的网站都有可能的。

所以呢,一般啊,你需要坚持的提交三天啊,也就是说每天你提交一次就可以了,但是这个过程中呢,你不需要提交太多啊。你就提交一次,每天都要坚持的更新一下文章。然后再把文章的链接呢也提交给搜索引擎啊,一般1-3天之内他都会。派爬虫来爬取你的网页,然后收录你的网页,第二个呢,就是回访老页面。搜索引擎,当他第一次爬取你的网页的时候呢?他会评估你网页的质量状态啊。然后会考核,什么时候呢?再派爬虫来爬去你的网页。

一般来说,他第二天他还是会回访你的这个老页面呢,只要你的页面是优质的。有很多丰富的内容,所以呢,如果他爬从经常的去爬你的老页面。他回访你的老网站,那就说明你网站的质量是很不错的。如果爬虫他不来爬你的老网站啊,那就说明什么你网站的质量是很欠缺的。都没有吸引爬虫来爬去,那这个网站的排名是很有危机的啊,他甚至是很难获得关键词的排名。所以呢,在网站的操作上,首页呢,他应该给予新文章更新的入口,因为呢我们更新的新网页,他需要被爬虫的爬去。

所以呢,我们一般啊,在操作的过程中。我们需要的在网站的里面的给予一个最新文章的这个入口。对,就是你经常看到一些网站,你会发现啊。有这个最新文章的板块,那就是网站,一更新文章呢,它就会显示在这个首页里面。那么包括呢?我们每一个文章。他都会有一些最新发布我们让这些最新文章的网址啊出现在我们网站中的每一个页面。

这样的就能够很好的被爬虫发现这些新的网址,那么我们如何知道爬虫每天来我们的网站爬了几次呢?有一个地方哈,大家都可以打开百度搜索百度站长平台,然后呢找到官网这个。这个呢,它就是百度的官方的站长平台,我们很多爱车的数据呢都是可以从这里面看到的。如果你有网站的话你可以点击用户。

点击站点管理来验证一下自己的网站,比如说这个挖掘机,这个网站就是这个啊。然后我们可以在搜索服务里面能找到这个爬曲的频次。然后点击爬去的频次,那么我们就可以看到哈。百度爬虫他每天来多少次我们的网站啊?那我们都可以看得出来每天有67次左右啊。所以呢,百度占了平台呢?就可以看得清楚爬虫他每天来我们网站的次数,那么从综上所述呢,我们已经知道,爬虫。它的本质,它的功能,它的作用,以及它的数据对我们网站的影响到底有多大?所以操作好爬虫的友好度呢是非常的关键的。那如何去进行操作呢?首先,第一个哈。尽量的不要使用中文路径啊。

就是你的网站排名被收录的页面,尽可能的试用a,b,c,d这种英文的录制。有数字也可以,但是尽量不要用中文。啊。因为中文路径,他有时候会爬去,但是有很多时候呢,他也不会去爬去第二个呢,就是网站的打开速度的要快啊。针对速度的话,他有一个算法的,我们后面的会讲到第三个呢,要做这个优质的页面。因为爬虫他都是喜欢优质的。

百度官方的曾经出了一个文档呢。把专门的告诉大家什么是优质,你们如果想学,怎么去打造这种优质的页面呢?你们可以加下我的微信rds一我可以把这种。很稀有的文档发给你去学习,对你的成长是很很大的帮助的。最后一个呢就是不要让。他从那去识别不到的内容啊?对,就是我们网站的,不应该出现一些他识别不到的内容。而且它还是重要的内容,第一个呢,就是需要登录的页面爬虫,它是爬取不到的。

比如说很多网站的,他的内容需要登录才能够看得到。那这些登录的内容爬虫他是爬不到的,也就是说,他很难被收录和参与关键词的排名。那第二个呢就是我们不要。把这个文字写在图片里面,因为百度,它是无法通过图片来识别文字的,那第三个呢,就是我们的文字图片。视频呢都要在h天美罗中展现啊,这个呢可能有点升高,后面的话大家都会懂啊。那简单教大家一个查询的方法,就是比如说这张图片是不是,那我们右键查看页面元代码。我们能不能在这里面看到这张图片呢?

当然是可以看到是吧?那就说明它是展现在h。tm。l里面是吧?那这个就是正常的。就是我们有些网站啊我们看到有这些内容。但是我查看网页原代码看不到。那这个是有问题的,他从他也爬不到这个的话,大家就按照我的方式去检查一下就可以了。

 
   

教程列表

©2021 本网站创建与2021年。致力打造从零开始SEO学习网,高清seo视频教你轻松学习搜索引擎优化怎么做,教你真正做到独立优化网站。