电话

17709168119

开云网址·(中国)官方网站网络搜索引擎的发展及使用技巧研究

标签: 2023-11-26 

  开云网址·(中国)官方网站网络搜索引擎的发展及使用技巧研究摘要:搜索引擎是根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。本文就对网络搜索引擎的发展历史及发展趋势进行了详细的介绍,并对搜索引擎的使用技巧进行了分析。

  这个时代也可以称为“导航时代”,Yahoo和国内hao123是这个时代的代表。通过人工收集整理,把属于各个类别的高质量网站或者网页分门别类罗列,用户可以根据分组目录来查找高质量的网站。这种方式是纯人工的方式,并未采取什么高深的技术手段。

  采取分类目录的方式,一般被收录的网站质量都较高,但是这种方式可扩展性不强,绝大部分网站不能被收录。

  文本检索的一代采用经典的信息检索模型,比如布尔模型、向量空间模型或者概率模型,来计算用户查询关键词和网页文本内容的相关程度。网页之间有丰富的链接关系,而这一代搜索引擎并未使用这些信息。早期的很多搜索引擎比如Alta Vista、Excite等大都采取这种模式。

  相比分类目录,这种方式可以收录大部分网页,并能够按照网页内容和用户查询的匹配程度进行排序。但是总体而言,搜索结果质量不是很好。

  这一代的搜索引擎充分利用了网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义。通常而言,网页链接代表了一种推荐关系,所以通过链接分析可以在海量内容中找出重要的网页。这种重要性本质上是对网页流行程度的一种衡量,因为被推荐次数多的网页其实代表了具有流行性。搜索引擎通过结合网页流行性和内容相似性来改善搜索质量。

  Google率先提出并使用PageRank链接分析技术,并大获成功,这同时引进了学术界和其他商业搜索引擎的关注。后来学术界陆续提出了很多改进的链接分析算法。目前几乎所有的商业搜索引擎都采取了链接分析技术。

  采用链接分析能够有效改善搜索结果质量,但是这种搜索引擎并未考虑用户的个性化要求,所以只要输入的查询请求相同,所有用户都会获得相同的搜索结果。另外,很多网站拥有者为了获得更高的搜索排名,针对链接分析算法提出了不少链接作弊方案,这样导致搜索结果质量变差。

  目前的搜索引擎大都可以归入这个时代,即以理解用户需求为核心。不同用户即使输入同一个查询关键词,但其目的也有可能不一样。比如同样输入“苹果”作为查询词,一个追捧不iPhone的时尚青年和一个果农的目的会有相当大的差距。即使是同一个用户,输入相同的查询词,也会因为所在的时间和场合不同,需求有所变化。而目前搜索引擎大都致力于解决如下问题:如何能够理解用户发出的某个很短小的查询词背后包含的真正需求,所以这一代的搜索引擎称之为以用户为中心的一代。

  为了能够获取用户的真实需求,目前搜索引擎大都做了很多技术方面的尝试。比如利用用户发送查询时的时间和地理位置信息,利用用户过去发出的查询词及相应的点击记录等历史信息等技术手段,来试图理解用户此时此地的线 网络搜索引擎的发展趋势

  互联网的发展已经进入了新的阶段,即以用户为中心的阶段。如何通用用户的网上行为建立用户的个人模型,并基于此提供精准的个性化服务成为各种研究的重点。搜索引擎也不例外,个性化搜索即是为了解决这个问题而提出的技术领域。

  对于搜索引擎用户来说,由于其个人兴趣不同,即使是同一个查询词,也可能其搜索意图迥异。如用用户发出查询“Ajax”,如果这个用户是计算机工程人员,那么很有可能希望查找的是技术资料;而如果这个用户是个球迷,那么很可能希望查找的是了阿贾克斯球队的信息。所以即使是相同的查询词,如何为不同的用户提供个性化的搜索结果,成为衡量搜索引擎搜索质量非常重要的标准。

  随着Facebook的逐日流行,社交网络平台和相关应用占据了互联网的主流。社交网络平台强调用户之间的联系和交互,这对传统的搜索技术提出了新的挑战。传统搜索技术强调搜索结果和用户需求的相关性,社会化搜索除了相关性外,还额外增加了一个维度,即搜索结果的可信赖性。对于某个查询,相关的搜索结果可能成千上万,但是如果是处于用户社交网络内其他用户的信息、点评的评论或者验证过的信息则更可依赖,这是与用户的心理密切相关的。社会化搜索即结合了这种相关性和可依赖性,为用户提供更准确、更值得信任的搜过结果。

  社会化搜索的本质是信息过滤与推荐,即对用户的疑问,社会化搜索系统推荐合适的人来回答用户疑问,或者通过社交关系过滤掉不可依赖内容,推荐可依赖内容。根据其他用户和提问者的关系,社会化搜索系统重点关注4类关系:直接有社交联系的成员,比如熟人或者朋友;有相同兴趣的成员;用户所加入网络社区的成员;领域专家。直接具有社交联系的成员对搜索者具有直接影响力,比如购物搜索时对产品品牌的评价;有相同兴趣的成员则形成了有效的信息过滤者或者推荐者;搜索者所在社区的成员从本质讲也是有相同兴趣的成员,对于搜索者的问题能够开有效的信息过滤和推荐;而领域专家则对问题的解答具有权威性。通过结合或者分别使用以上4类社区成员的信息,社会化搜索系统可以给搜索者提供合适的回答者或者值得依赖的信息。

  随着Twittet、微博等微信息的个人媒体平台逐步兴起,对搜索引擎的实时性要求日益提高。微博平台和传统的信息平台比如网页、博客、新闻等相比,有其特殊性。其中一个突出的特点是时效性强,越来越多突发事件的首次出现的微博平台上,比如某地地震或者社会事件,这是有其必然性的。

  实时搜索与传统的网页搜索有很大差异。实时搜索的核心强调“快”,即用户的信息能够第一时间被搜索引擎发现、索引并搜索到。传统搜索引擎在实现机制上很难达到这一点,所以实时搜索在搜索引擎的爬虫、索引系统和搜索结果排序方面都有自己独有的特点。在索引构建方面,实时搜索要求第一时间对新的内容进行索引,即用户则信息可搜。这对传统的索引机制提出了挑战,要求索引系统支持在建立索引的过程中,也能够提供搜索服务。

  在搜索结果排序方面,实时搜索也有其特点,除了内容相关性要求外,时间因素是搜索排序中首要的考虑因素,很多实时搜索系统默认按时间顺序排序,即最新的信息排在前列。对于一个完善的实时搜索排序算法来说,一般重点考虑以下4方面的因子:

  (3)信息重要性:越重要或者越流行的信息排名应该越靠前,作为重要性或者流行性的判断指标有很多,比如信息来源是否可靠(微博中信息者的重要性)、被转发次数多少、被评论次数多少等都可以作为判断指标。

  (4)社交性:一般来说,微博平台同时也是一个社交平台,微博用户的关注人和被关注人体现了这种社交性。排序时,应该将搜索结果的社交性体现出来,即用户关注人的信息排名应该靠前。

  随着智能的快速发展,基于手机等移动设备的搜索日益流行。移动设备对搜索应用的需求与PC等不同,主要源于其与PC相比资源的有限性,比如手机的屏幕较小,可显示区域不多;手机存储和计算资源能力较弱;手机设备打开网页的速度较慢;手机输入较为烦琐等。所以针对移动设备的搜索需要根据手机等移动设备自身的特点,开发适合其资源和设备的搜索应用。

  使用手机搜索与PC搜索一样,由3个步骤组成:用户输入查询,搜索引擎提供搜索结果信息,用户点击打开感兴趣的页面。考虑到移动设备的资源有限,在这3个步骤都要考虑如何增加用户的体验。对于用户输入查询这一环节来说,因为输入难度比桌面设备大,不够便捷,包括移动设备中的中文输入法由于资源所限,智能性不足,所以对于移动搜索来说,如何让用户输入更便捷是最主要的问题。由于移动设备屏幕较小,如何在这么上的展示面积早让用户更快、更直接地找到答案至关重要。所以,移动设备搜索对搜索的精度及搜索结果的展示方式要求更高。如果用户在搜索结果的摘要区域无法获得答案,就必须点击网页,查看页面内容,以搜索引擎目前的搜索精度来看,这步多多少少是难免的。既然如此,目标网页往往内容很多,包含导航栏、广告栏、大量图片等既消耗带宽资源,又与用户搜索内容无关的信息,所以在这上步骤,移动搜索的问题就转化成了如何提供给用户页面中最重要、最相关的部分。搜索系统可以为用户提供加工过的目标页面,通过分析目标网页的结构,自动提取重要内容,只将这部分内容展示给用户,有效增加用户体验。

  21世纪是信息社会,由于Internet的广泛应用和发展,世界范围内的信息交流、信息资源共享成为现实,网络已成为人们进行交流、获取信息的重要途径。但因特网上的信息内容庞杂,缺乏统一的组织和管理,使用者只有掌握一定的搜索技巧,才能准确、及时、有效地获取自己所需的信息,实现网络信息存在价值,提高信息资源使用效率。

  不同的搜索引擎特点不同,优势不一,信息覆盖范围也有所差异,合理的方式应该是依据检索目的和具体要求选择不同的搜索引擎。如果需要查找综合性、概括性的主题概念,或是对检索准确度要求较高的课题,可以使用目录式搜索引擎。如果需要检索特定的信息,或是较为专、深、具体或类属不明确的课题,应该用关键词索引式搜索引擎。

  一个搜索引擎很难收集所有主题的网络信息,很难将各主题都做得精确而又专业。垂直搜索引擎是相对通用搜索引擎的信息量大、查询不准确、深度不够等提出来的新的搜索引擎服务模式,通过针对某一特定领域、某一特定人群或某一特定需求提供的有一定价值的信息和相关服务开云网址。其特点就是“专、精、深”,且具有行业色彩,相比较通用搜索引擎的海量信息无序化,垂直搜索引擎则显得更加专注、具体和深入。比如股票、天气、新闻等类的搜索引擎,具有很高的针对性,用户对查询结果的满意度较高。

  采用不同的搜索引擎,检索效果的不同,在一个搜索引擎上找不到的信息却可能在另一个搜索引擎上找到,每个单一搜索引擎的搜索范围只能达到整个源的30―50%,查准率不到50%。所以开云网址,用户常常要切换多个搜索引擎进行检索开云网址,并要了解多个搜索引擎,这给用户带来了不便。元搜索引擎通过一个统一用户界面帮助用户在多个搜索引擎中选择和利用一个或多个合适的搜索引擎来实现检索操作,并将检索结果集中统一处理,以统一的格式提供给用户,是对分布于网络的多种检索工具的全局控制机制,查全率和查准率都比较高。

  使用搜索引擎进行信息搜索,最重要的是关键词的选择,关键词选择得准确与否直接影响到检索效果的好坏。因此,用户提供的关键词必须能准确表达自己的检索意图。尽量不要选择常用词汇进行搜索,尽量不要使用自然语言,尽量使用多个页不是一个关键词。

  限制指令把检索限制在某些指定的字段内,限制了检索词在数据库中出现的位置,以提高检索效果。如:使用site命令指定在某个特定的网站内查找相关信息,使用inurl命令指定仅在网页的url搜索,使用intitle命令指定仅在网页的title中搜索,使用filetype命令指定搜索文件的特定类型,等等。

  大多数搜索引擎都提供高级搜索功能,其选项在默认值、灵活性、定位精确性等方面都优于普通搜索功能。利用“高级搜索”中的选项限制可以有效且更加方便地控制检索结果的范围,可以省去用户自行设定检索式的麻烦。搜索引擎提供的范围限制类型大体有分类范围、地域范围、时间范围、网站类型范围,以及其他特殊范围。一些搜索引擎提供了许多特殊范围的限定,如域名后缀(com、gov、org等)、文件类型(文本、图形、声音等)。

  结束语:随着科学的进步与技术的发展,Internet上信息数量也越来越庞大,而且含有大量的多媒体信息,如何充分利用这一巨量的信息资源,是用户所渴望和追求的,而通过搜索引擎来查询是查找信息最方便、快捷的途径。但是搜索引擎数量众多、各有所长,使用者应充分利用各个搜索引擎的优势与特点,灵活运用并加以综合利用,以最快捷的方式获得最佳搜索结果。

推荐新闻