如果要在互联网上寻找信息一例如事件、 统计数字、描述、商品甚至电话号码,您会怎么做?大部分情况下都会使用某个主流搜索引擎,输入需要查找的单词或短语,然后逐个点击搜索结果,不是吗?不一会儿,需要查找的信息就出现了,非常奇妙!当然,搜索引擎并不一定是唯一的选择。
早期的互联网并不是现在这样的。实际上,当时的互联网并不像现在这样是一个由相互连接的网站构成的网络,也没有成为如此庞大的商业助推器。当时所谓的互联网只是一些用户可以下载站点。
要在这些站点中寻找某个文件,用户只能逐个地浏览每个文件。
当然,也有简便的方法。如果您认识某个知道您所需文件确切地址的人,就可以直接获得这个文件。在搜索框中输入单词或短语,然后单击按钮,稍等片刻,就会看到成千上万的相关网页。接着要做的就是打开这些网页。寻找所需要的内容。但是除了“搜索即可找到”这个这怪的概念外,搜索引擎的准确定义是什么?这有点复杂,在搜索引擎的后台,有此用于搜集网页信息的程序,所收集的信息一股是能表明网站内容(包括网页本身、网页的URL地址、构成网员的代码以及进出网员的链接)的关键词或短语。接着将这些信息的家引存放到数据库中。
而在前端,是供用户输入搜索词(单词或短语)的用户界面。当用户单击“搜索”按钮时,算法就会在后台的数据库中查找信息,将与用户输入的搜索词相匹配的网页链接呈现给用户。
搜集网页信息的程序称为爬虫、蜘蛛或机器人。爬虫会遍历网络中未屏蔽的URL,并收集每个网页中的关键词和短语,然后将这些信息存放到搜索引擎的数据库中。想一下,互联网上的网站数量早已超过1亿个,而且还在以每月超过150万个新网站的速度增长。
这就像是要用大脑将所见到的每一个单词都进行分类, 需要的时候再将所有相关的信息调出来。简单点说,这几乎是不可能完成的任务。
什么是搜索引擎?
理解搜索引擎的工作原理能帮助读者理解搜索引擎是如何对网页进行排名的,但是网页是如何被用户找到的就完全是另外回事了。
这里要考虑到人与人之间的差别, 搜索对不同的人来说可能有着完全不同的意义。例如我的一位同事, 他用平时人与人之间谈话的语句作为搜索词在互联网上进行搜索,甚至将他的问题一字不变地输入搜索引擎,这称为自然语言。而另一位接受过搜索技能培训的同事使用的则是布尔搜索技术:在构造搜索词时,她使用了一种 完全不同于日常说话的语法。两个人得到的搜索结果肯定不会相同,哪怕他们使用的是同一个搜索 擎也是如此。
搜索的特征指的是用户使用互联网的方式,这包括用户创建搜索词时使用的启发式方法,以及用户如何在搜索结果中做出选择。一个有趣的事实是, 超过一半的美国成年人在上网时会用到搜索。而在直找电话号码或当地商铺位置时,人们往往会使用搜索引擎,而不是去查阅电话黄页。投索引擎的成大用户群就是SEO的肥沃士塘。更好地理解用户使用搜索引擎的方式和原因,以及搜索引擎的工作原理,就能更快捷地实现SEO。
在我们了解了什么是搜索引擎之后,我们就要学习鉴别搜索引擎蜘蛛了,这样有助于我们制作仅蜘蛛抓取生成缓存的泛目录。