搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。
现在的搜索引擎已普遍使用超链分析技术,除了分析索引网页本身的内容,还分析索引所有指向该网页的链接的URL、Anchor Text,甚至链接周围的文字。所以,有时候,即使某个网页人中并没有某个词,比如“信息检索”,但如果有网页B用链接“信息检索”指向这个网页A,那么用户搜索“信息检索”时也能找到网页人。而且,如果有越多网页的“信息检索”.
链接指向网页A,那么网页A在用户搜索“信息检索”时也会被认为更相关,排序也会越靠前。
搜索引擎的原理,可以分为4步:从互联网上抓取网页、建立索引数据库、在索引数据库中搜索排序、对搜索结果进行处理和排序。
从互联网上抓取网页利用能够从互联网上自动收集网页的蜘蛛系统程序,自动访问互联网,并沿着任何网页中的所有URL爬到其他网页,重复这过程,并把爬过的所有网页收集回来。
建立索引数据库由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息〔包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。
在索引数据库中搜索排序当用户输人关键词搜索后,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已计算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。最后,由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
对搜索结果进行处理排序所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高,排名越靠前。最后由页面生成搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
以上是网站优化专家对搜索引擎的大概理解,仅供参考学习。
|