搜索引擎的分类搜索引擎的技术基础是全文检索技术,国外从20世纪60年代就开始对全文检索技术进行研究。全文检索通常指文本全文检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索,一般用于企事业单位。随着互联网信息的发展,搜索引擎在全文检索技术上逐渐发展起来,并得到广泛的应用,但搜索引擎还是不同于全文检索。搜索引擎和常规意义上的全文检索主要区别有以下几点。
1.数据量传统全文检索系统面向的是企业本身的数据或者和企业相关的数据一般索引数据库的规模多在GB级,数据虽大的也只有几百万条;但互联网网页搜索需要处理几十亿的网贞,捜索引擎的策略都是采用服务器群集和分布式计箅技术。
2.内容相关性信息太多,查准和排序就特别重要Google等搜索引擎采用网页链接分析技术,根据互联网上网页被链接次数作为甩要性评判的依据;但全文检索的数据源中相互链接的程度并不高,不能作为判别重要性的依据,只能基于内容的相关性排序。
3.安全性互联网捜索引荦的数据来源都是互联网上公开的信息,而且除了文本正文以外,其他信息都不太束要;但企业全文检索的数据源都是企业内部的信息,有等级、权限等限制,对杏洵方式也有史严格的要求.因此其数据一般会安全和集中地存放在数据仓库中以保证数据安全和管理的要求。
4.个性化和智能化搜索引擎面向的是互联网的访问者,由于其数据量和客户数量的限制,自然语言处理技术、知识检索、知识挖掘等计箅密集的智能计算技术很难应用,这也是目前捜索引擎技术努力的方向。而全文检索数据量小检索需求明确,客户量少,在智能化和个性上史具有优势。
除了与全文检索系统有上述区别之外,搜索引擎按其工作方式主要可分为3种,分别是全文搜索引擎、目录索引类搜索引擎和元搜索引擎。
摘自互联网的解释:
搜索引擎的分类
搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(Full Text Search Engine)、目录索引类搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
■ 全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国内着名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。
从搜索结果来源的角度,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序(Indexer),俗称“蜘蛛”(Spider)程序或“机器人”(Robot)程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,如上面提到的7家引擎;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos引擎。
■ 目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他着名的还有Open Directory Project(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。
■ 元搜索引擎 (META Search Engine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。着名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。
网站优化专家温馨提示:除上述三大类引擎外,还有以下几种非主流形式:
1、集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。
2、门户搜索引擎:如AOL Search、MSN Search等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。
3、免费链接列表(Free For All Links,简称FFA):这类网站一般只简单地滚动排列链接条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。
由于上述网站都为用户提供搜索查询服务,为方便起见,我们通常将其统称为搜索引擎。
|