在网站建设好上线后,一个主要的任务就是在搜索引擎中参与排名,获取流量。青岛新锐总结了四个搜索引擎通用的算法以及原理,让站长们对如何优化网站有更清晰的思路:
HITS 算法是由康奈尔大学( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的, HITS是英文Hyperlink-Induced Topic Search 的缩写,意译为“超链诱导主题搜索”。
按照HITS算法,用户输入关键词后,算法对返回的匹配页面计算两种值,一种是枢纽值(Hub Scores),另一种是权威值(Authority Scores),这两个值是互相依存、互相影响的。所谓枢纽值,指的是页面上所有导出链接指向页面的权威值之和。权威值指的是所有导入链接所在页面的枢纽值之和。
简单地说,hits算法可以提炼出两种页面:一种页面有许多导出链接指向权威页面,这种叫做枢纽页面。另一种有许多链接指向此页面的,称为权威页面。
枢纽页面的例子就是大型的目录网站,如360导航,hao123等等,自身并没有太多内容,但指向许多权威页面与大型网站。而权威页面是提供内容的页面,比如新闻页面,技术资料页面等等。
HITS算法是针对特定查询词的,所以也称为主题搜索。它的缺点在于计算阶段是查询时,会延长结果反馈的时间与占用太多资源。因此hits算法多用于搜索引擎抓取页面后建立索引的阶段。
该算法是由Krishna Baharat在2000年左右所研究的, 可以简单理解为与主题相关的PR值。与传统的trust rank算法相比,Hilltop算法同样是计算链接关系,不过它更关注来自主题相关页面的链接权重。在Hilltop算法中把这种主题相关页面称为专家文件。显然,针对不同主题或搜索词有不同的专家文件。
但Hilltop算法在保证了高相关性的同时,也有他的缺点与局限性:在Hilltop的原型系统中,专家页面只占到整个页面的1.79%,不能全面反映民意。Hilltop算法在无法得到足够的专家页面子集时(少于两个专家页面),返回为空,即Hilltop适合于对查询排序进行求精,而不能覆盖。这意味着Hilltop可以与某个页面排序算法结合,比如trust rank算法,来提高精度,而不适合作为一个独立的页面排序算法。
针对Hilltop算法,比较实用的建议是:友情链接与外链建设时,要保证相关。同时对方页面的评级越高越好。
TrustRank算法最初来自于2004年斯坦福大学和雅虎的一项联合研究,用来检测垃圾网站,并且于2006年申请专利。TrustRank算法基于一个基本假设:好的网站很少会链接到坏的网站。基于这个假设,如果能挑选出可以百分之百信任的网站,这些网站的TrustRank评为最高,这些TrustRank最高的网站所链接到的网站信任指数稍微降低,但也会很高。与此类似,第二层被信任的网站链接出去的第三层网站,信任度继续下降。
虽然TrustRank算法最初是作为检测垃圾的方法,但在现在的搜索引擎排名算法中,TrustRank概念使用更为广泛,常常影响大部分网站的整体排名。TrustRank算法最初针对的是页面级别,现在在搜索引擎算法中,TrustRank值也通常表现在域名级别,整个域名的信任指数越高,整体排名能力就越强。
TF-IDF是term frequency–inverse document frequency的缩写,是一种用于信息检索与数据挖掘的常用加权技术。
它的作用是用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。主要思路是如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
其中,TF指的是词频,即文章中出现词的次数,如果某个词很重要,它应该在这篇文章中多次出现。IDF指的是逆文档频率,思路是如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。通过TF找到出现次数最多的词,然后通过IDF来对这些词进行加权分析,最后得出的结果就是这篇文章的主题与相关性。
TF-IDF算法的优点是简单快速,结果比较符合实际情况。缺点是,单纯以"词频"衡量一个词的重要性,不够全面,有时重要的词可能出现次数并不多。而且,这种算法无法体现词的位置信息,出现位置靠前的词与出现位置靠后的词,都被视为重要性相同,这是不正确的。而解决办法通常是对第一段话以及标题中出现的词汇,给予额外权重。
针对TF-IDF算法,实用的建议是:优化标题与文章开头,保证想体现的关键词在其中出现。之后在正文中保证该关键词以一定的频率出现,保证密度。
青岛新锐猜测您还可能对以下文章感兴趣: