目前比较流行的搜索引擎就是百度、Google、soso、sogou、yahoo等,但是您对搜索引擎的关键技术及原理了解多少?下面就由伟创网站优化顾问为大家解说:
1 信息收集和存储技术网上信息收集和存储一般分为人工和自动两种方式。
人工方式采用传统信息收集、分类、存储、组织和检索的方法。研究人员对网站进行调查、筛选、分类、存储。由专业人员手工建立关键字索引将索引信息存人计算机相应的数据库中。
自动方式通常是由网络机器人来完成的,“网络机器人”是一种自动运行的软件,其功能是搜索因特网上的网站或网页。这种软件定期在因特网上漫游.通过网页间链接顺序地搜索新的地址,当遇到新的网贞时.就给该贞上的某些字或全部字做上索引并把它们加人到搜索引擎的数据库中,由此,捜索引擎的数据库得以定期更新。
一般来说,人工方式收集信息的准确性要远优于“网络机器人”,但其收集信息的效率及全面性低于“网络机器人”。
2.信息预处理技术信息预处理包括信息格式支持与转换以及信息过滤。目前,因特网上的信息发布格式多种多样.这就要求搜索引擎支持多种文件格式,从实际情况看,所有的捜索引擎都支持HTML格式,而对于其他文件格式的支持则不同的搜索引擎有不同的规定.最多的能支持200多种文件格式。一般地说一个企业级的公用识WEB站点起码应该支持40~60种文件格式。同寸捜索引莩还应具备信息格式转换功能,以保证不同格式的数据均能在网络流通。
信息过滤也是搜索引擎的一项重要技术。在因特网中,存在大量的无用信息一个好的捜索引擎应当尽虽减少垃圾站点的数量,这是信息过滤要着甩解决的问题。
3.信息索引技术信息索引就是创建文档信息的特征记录,以使用户能够快速地检索到所需信息。建立索引主要涉及以下几个问题。
解,从而使计算机在某种程度上具有人的语言能力。将自然语言处理应用在信息检索中,可以捉高信息检索的精度和相关性。
检索结果处理技术搜索引擎的检索结果通常包含大量文件,用户不可能一一浏览。搜索引擎一般应按与查询的相关程度对检索结果进行排列,最相关的文件通常排在最前面。捜索引擎确定相关性的方法有概率方法、位置方法、摘要方法、分类或聚类方法等。
①概书方法根据关键同在文中出现的频申.来判定文件的相关性。这种方法对关键词出现的次数进行统计,关键词出现的次数越多,该文件与查询的相关程度就越高。
②位罝方法根据关键同在文中出现的位罝来判定文件的相关性。关键词在文件中出现得越早,文件的相关程度就越高。
③摘要方法是指捜索引擎自动地为每个文件生成一份摘要,让用户自己判断结果的相关性,以使用户进行选择。
④分类或聚类方法是指搜索引擎采用分类或聚类技术,自动把查询结果归人到不同的类别中。
|