Oct
22
第一要素:网页的内容
搜索引擎业界如是说:Content is king。网站的内容始终是第一位的。人们总是愿意去浏览那些时常更新的,提供了丰富而有趣味性的内容的网站。同时这样的网站又总是能够轻松赢得搜索引擎的好感。原因很简单:Internet是一个“信息”高速公路,人们往往通过它来找到所需要的信息。而一个站点上的信息就是它的网站内容。
注意:我们所说的内容丰富并不是指内容的繁杂,而是指内容的深度、实用性和趣味性。同时,网页大小最好不要超过50K。体型庞大的网页下载速度慢,不仅会让普通访问者等得心急如焚,有时也会使SPIDERS感到不耐烦。
第二要素:友好的网页设计结构
在设计网页时不单考虑外观漂亮,还要考虑到搜索引擎是否能够很好地支持你的设计结构。下面这些设计风格对搜索引擎是缺乏友好度的:
A) FRAMES(框架结构)
Frames在信息查找,建立网站正规化概念等方面非常有优势。很多使用frames技术的网站开发与设计人员,就是看上了它导航清晰且方便维护的优点。但是,象Excite,iWON,Lycos等一些大型搜索引擎仍然不支持FRAMES。而Google,Altavista等虽然能够支持FRAMES,但检索效果不是很好。
解决方案:
搜索引擎能够跟读Noframes中的内容。所以可利用Noframes标识进行内容的填充和优化,在Noframes区域中应包含使用Frames的网页的链接。参看:FRAMES的优化技巧。
B) FLASH动画
Flash制作的网页视觉效果较好,但它面临和Frames一样的问题:搜索引擎对这类网站的索引仍有一定难度,而且目前为止只有Google和Alltheweb能够跟进检索Flash对象中的内嵌链接。此外,一个纯Flash网页的打开速度也相当的慢。
解决方案:
最好提供Flash和非Flash网页两种选择,这样既增加了网页的观赏性,又照顾到了搜索引擎的“情绪”。
C) SPLASH页
即纯图象网页:页面由图象组成,几乎没有文本内容。搜索引擎一般拒绝收录这样的网站,即使收录也不会给予重要性。它们认为这样的网站没有给用户提供信息内容。
D) DYNAMIC PAGES(动态网页)
动态网页通常由ASP,PHP,Cold Fusion,CGI等程序产生。具有容易维护和更新的优点,尤其适合大规模网站。但因为害怕被数据库套住,所以仍有相当一部分数引擎不支持动态页,而且虽然目前有的大型搜索引擎(如Google)已具备检索动态网页的能力,但为了确保其Spider程序免遭死循环之灾,它们不会对动态页中的链接进行跟踪访问。
解决方案:
可将动态网页改成静态html文件。具体操作程序参看:动态网页的搜索引擎优化。不过最好还是尽量使用静态网页。
E) JAVASCRIPT/JAVA APPLETS
搜索引擎不支持Java Applets。所以不要在网页中大量使用Java Applets。同时尽量不要使用Java设计网站,它会使网页打开速度变慢,妨碍搜索引擎对该网页的检索。
解决方案:
Java技术设计网站时,尽可能把所有Javascript放到一个外部文件中,然后用<Script src="your_javascript_code.js"></Script>来调用这个文件。
第三要素:页面关键字&关键字密度
Google通过页面的关键词密度(keyword density)来决定该页面对关键字的关联度。所以应确保关键字在整个网页中的充分利用和合理分布。即:充分利用所有可以利用的因素,但不要过分重复或简单排列关键字。应遵循必要的语法规则,形成自然流畅的语句,使网页不失吸引力。从页面因素的优化角度出发,可考虑将关键字分布于:
A) 网页标题元(META TITLE)
在搜索关键字进行匹配时,Google会对META TITLE中出现的关键字给予较高的“重要性”。所以应确保网页标题中包含了目标关键词。即应围绕你最重要的关键字来决定网页标题的内容。网页的标题不可过长,一般宜控制在10到20个字符之间。
B) 网页描述/关键字元(META DESCRIPTION/KEYWORDS)
由于这些Meta Tags的内容并不能为实际访问者所见,而且搜引擎认为这些元标识很容易被网站设计者用来误导用户。所以很多搜索引擎如Google,FAST/Alltheweb,Excite,Lycos等一般都会对这些Meta Tags“视而不见”。但你可以发现在它们的搜索结果中,一般都会使用网站自身的描述元标识作为对该网站的描述。而且对一些大型的meta tags搜索引擎来说(如ExactSeek),它们是根据网站的meta tags来决定排名的。
此外我们发现,条件完全相同下,META TAGS的顺序对排名有时候也有一点影响。象
<title>网站优化/国际推广</title>
<meta name="description" content="网站优化及国际推广咨询服务.">
<meta name="keywords" content="网站优化, 网站国际推广">
就不如
<meta name="keywords" content="网站优化, 网站国际推广">
<meta name="description" content="网站优化及国际推广咨询服务.">
<title>网站优化/国际推广</title>
的排名高。
C) 正文标题
在网页的正文标题中涵盖关键字,并使用<H>属性来强调突出。形如:<H(1,2,3…>标题内容</H(1,2,3…)>。
D) 正文内容
在网页的正文中合理穿插关键词,可对正文中出现的关键词进行加粗显示。一般6-10%的关键词密度为最佳。
E) 文本链接(Text Links)
搜索引擎对文本链接中出现的关键词给予比较高的“关注”。在文本链接中包含关键词可有效提高网站相关性得分。
F) ALT标识(ALT Tags)
搜索引擎如Google等都支持ALT属性文字。所以应给网页中的图片都加上ALT属性,并在属性文字中尽量涵盖关键词来增加网站的相关性得分。
结束语
著名的建筑师路易斯·沙利文(Louis Henri Sullivan)在1986年曾经说过:“形式总是跟着功能在走”。他并不是说功能的重要性总是凌驾于形式之上,而是说这两者的关系其实是密不可分的。
他所倡导的这个思想,事实上对于网站的设计和开发也是相当适用。事实上,一个网站的功能性和形式应属于共生的关系。而功能性和形式严重失衡的一个典型证,就是基于Flash的网站和经过过度网页优化的网站。它们变成了一边倒,却不是倒向实际访问者。也就是说倒向了搜索引擎,而顾此失彼。所以在网站开发中,开发者应注意融合网站的形式和功能性,从而达到两者的密不可分。
搜索引擎业界如是说:Content is king。网站的内容始终是第一位的。人们总是愿意去浏览那些时常更新的,提供了丰富而有趣味性的内容的网站。同时这样的网站又总是能够轻松赢得搜索引擎的好感。原因很简单:Internet是一个“信息”高速公路,人们往往通过它来找到所需要的信息。而一个站点上的信息就是它的网站内容。
注意:我们所说的内容丰富并不是指内容的繁杂,而是指内容的深度、实用性和趣味性。同时,网页大小最好不要超过50K。体型庞大的网页下载速度慢,不仅会让普通访问者等得心急如焚,有时也会使SPIDERS感到不耐烦。
第二要素:友好的网页设计结构
在设计网页时不单考虑外观漂亮,还要考虑到搜索引擎是否能够很好地支持你的设计结构。下面这些设计风格对搜索引擎是缺乏友好度的:
A) FRAMES(框架结构)
Frames在信息查找,建立网站正规化概念等方面非常有优势。很多使用frames技术的网站开发与设计人员,就是看上了它导航清晰且方便维护的优点。但是,象Excite,iWON,Lycos等一些大型搜索引擎仍然不支持FRAMES。而Google,Altavista等虽然能够支持FRAMES,但检索效果不是很好。
解决方案:
搜索引擎能够跟读Noframes中的内容。所以可利用Noframes标识进行内容的填充和优化,在Noframes区域中应包含使用Frames的网页的链接。参看:FRAMES的优化技巧。
B) FLASH动画
Flash制作的网页视觉效果较好,但它面临和Frames一样的问题:搜索引擎对这类网站的索引仍有一定难度,而且目前为止只有Google和Alltheweb能够跟进检索Flash对象中的内嵌链接。此外,一个纯Flash网页的打开速度也相当的慢。
解决方案:
最好提供Flash和非Flash网页两种选择,这样既增加了网页的观赏性,又照顾到了搜索引擎的“情绪”。
C) SPLASH页
即纯图象网页:页面由图象组成,几乎没有文本内容。搜索引擎一般拒绝收录这样的网站,即使收录也不会给予重要性。它们认为这样的网站没有给用户提供信息内容。
D) DYNAMIC PAGES(动态网页)
动态网页通常由ASP,PHP,Cold Fusion,CGI等程序产生。具有容易维护和更新的优点,尤其适合大规模网站。但因为害怕被数据库套住,所以仍有相当一部分数引擎不支持动态页,而且虽然目前有的大型搜索引擎(如Google)已具备检索动态网页的能力,但为了确保其Spider程序免遭死循环之灾,它们不会对动态页中的链接进行跟踪访问。
解决方案:
可将动态网页改成静态html文件。具体操作程序参看:动态网页的搜索引擎优化。不过最好还是尽量使用静态网页。
E) JAVASCRIPT/JAVA APPLETS
搜索引擎不支持Java Applets。所以不要在网页中大量使用Java Applets。同时尽量不要使用Java设计网站,它会使网页打开速度变慢,妨碍搜索引擎对该网页的检索。
解决方案:
Java技术设计网站时,尽可能把所有Javascript放到一个外部文件中,然后用<Script src="your_javascript_code.js"></Script>来调用这个文件。
第三要素:页面关键字&关键字密度
Google通过页面的关键词密度(keyword density)来决定该页面对关键字的关联度。所以应确保关键字在整个网页中的充分利用和合理分布。即:充分利用所有可以利用的因素,但不要过分重复或简单排列关键字。应遵循必要的语法规则,形成自然流畅的语句,使网页不失吸引力。从页面因素的优化角度出发,可考虑将关键字分布于:
A) 网页标题元(META TITLE)
在搜索关键字进行匹配时,Google会对META TITLE中出现的关键字给予较高的“重要性”。所以应确保网页标题中包含了目标关键词。即应围绕你最重要的关键字来决定网页标题的内容。网页的标题不可过长,一般宜控制在10到20个字符之间。
B) 网页描述/关键字元(META DESCRIPTION/KEYWORDS)
由于这些Meta Tags的内容并不能为实际访问者所见,而且搜引擎认为这些元标识很容易被网站设计者用来误导用户。所以很多搜索引擎如Google,FAST/Alltheweb,Excite,Lycos等一般都会对这些Meta Tags“视而不见”。但你可以发现在它们的搜索结果中,一般都会使用网站自身的描述元标识作为对该网站的描述。而且对一些大型的meta tags搜索引擎来说(如ExactSeek),它们是根据网站的meta tags来决定排名的。
此外我们发现,条件完全相同下,META TAGS的顺序对排名有时候也有一点影响。象
<title>网站优化/国际推广</title>
<meta name="description" content="网站优化及国际推广咨询服务.">
<meta name="keywords" content="网站优化, 网站国际推广">
就不如
<meta name="keywords" content="网站优化, 网站国际推广">
<meta name="description" content="网站优化及国际推广咨询服务.">
<title>网站优化/国际推广</title>
的排名高。
C) 正文标题
在网页的正文标题中涵盖关键字,并使用<H>属性来强调突出。形如:<H(1,2,3…>标题内容</H(1,2,3…)>。
D) 正文内容
在网页的正文中合理穿插关键词,可对正文中出现的关键词进行加粗显示。一般6-10%的关键词密度为最佳。
E) 文本链接(Text Links)
搜索引擎对文本链接中出现的关键词给予比较高的“关注”。在文本链接中包含关键词可有效提高网站相关性得分。
F) ALT标识(ALT Tags)
搜索引擎如Google等都支持ALT属性文字。所以应给网页中的图片都加上ALT属性,并在属性文字中尽量涵盖关键词来增加网站的相关性得分。
结束语
著名的建筑师路易斯·沙利文(Louis Henri Sullivan)在1986年曾经说过:“形式总是跟着功能在走”。他并不是说功能的重要性总是凌驾于形式之上,而是说这两者的关系其实是密不可分的。
他所倡导的这个思想,事实上对于网站的设计和开发也是相当适用。事实上,一个网站的功能性和形式应属于共生的关系。而功能性和形式严重失衡的一个典型证,就是基于Flash的网站和经过过度网页优化的网站。它们变成了一边倒,却不是倒向实际访问者。也就是说倒向了搜索引擎,而顾此失彼。所以在网站开发中,开发者应注意融合网站的形式和功能性,从而达到两者的密不可分。
Oct
22
信息的飞速增长,使搜索引擎成为人们查找信息的首选工具,Google、百度、中国搜索等大型搜索引擎一直是人们讨论的话题。随着搜索市场价值的不断增加,越来越多的公司开发出自己的搜索引擎,阿里巴巴的商机搜索、8848的购物搜索等也陆续面世,自然,搜索引擎技术也成为技术人员关注的热点。
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。
什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
中文分词和搜索引擎
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com/)、百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)上以“和服”为关键词进行搜索:
在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:
“通信信息报:瑞星以技术和服务开拓网络安全市场”
“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”
“陈慧琳《心口不一》化妆和服装自己包办”
“::外交部:中国境外领事保护和服务指南(2003年版) ...”
“产品和服务”
等等。第一页只有三篇是真正在讲“和服”的结果。
在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:
“福建省晋江市恒和服装有限公司系独资企业”
“关于商品和服务实行明码标价的规定”
“青岛东和服装设备”
在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。
这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com/)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com/)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。
中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
分词中的难题
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。
搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。
什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
中文分词和搜索引擎
中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(http://www.google.com/)、百度(http://www.baidu.com/)、中搜(http://www.zhongsou.com/)上以“和服”为关键词进行搜索:
在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:
“通信信息报:瑞星以技术和服务开拓网络安全市场”
“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”
“陈慧琳《心口不一》化妆和服装自己包办”
“::外交部:中国境外领事保护和服务指南(2003年版) ...”
“产品和服务”
等等。第一页只有三篇是真正在讲“和服”的结果。
在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:
“福建省晋江市恒和服装有限公司系独资企业”
“关于商品和服务实行明码标价的规定”
“青岛东和服装设备”
在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。
这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(http://www.basistech.com/)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com/)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。
中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
1、基于字符串匹配的分词方法
这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:
1)正向最大匹配法(由左到右的方向);
2)逆向最大匹配法(由右到左的方向);
3)最少切分(使每一句中切出的词数最小)。
还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。
一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。
对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。
2、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。
3、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。
分词中的难题
有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。
1、歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。
交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?
如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。
2、新词识别
新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?
新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。
中文分词的应用
目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。
分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。
Oct
22
以下行为都可能被认为是作弊
-在网页源代码中任何位置,故意加入与网页内容不相关的关键词。
-在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重复也被视为作弊行为。
-在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法,都属于作弊行为。
-故意制造大量链接指向某一网址的行为。
-对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为)。
-作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该网站也被认为是有作弊行为。
-有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但是,作弊网站上链接指向的网站,不算作弊)。
-在网页源代码中任何位置,故意加入与网页内容不相关的关键词。
-在网页源代码中任何位置,故意大量重复某些关键词。即使与网页内容相关的关键词,故意重复也被视为作弊行为。
-在网页中加入搜索引擎可识别但用户看不见的隐藏文字。无论是使用同背景色文字、超小字号文字、文字隐藏层、还是滥用图片ALT等方法,都属于作弊行为。
-故意制造大量链接指向某一网址的行为。
-对同一个网址,让搜索引擎与用户访问到不同内容的网页(包括利用重定向等行为)。
-作弊行为的定义是针对网站而不是网页的。一个网站内即使只有一个网页作弊,该网站也被认为是有作弊行为。
-有链接指向作弊网站的网站,负连带责任,也会被认为是作弊(但是,作弊网站上链接指向的网站,不算作弊)。
Oct
22
Internet的变化日新月异,其庞大的容量对搜索引擎的索引更新和服务无疑是一种考验。搜索引擎也一直在努力寻求创新的途径,例如以关联站点的广泛度为基础进行排名,以此抵消对搜索引擎的spam伎俩和对页面因素恶意操纵的不良竞争结果,达到为用户提供最为精准和相关的搜索结果的目的。如今,通过将链接广泛度这个因素整合到其排名算法中,搜索引擎(例如Google)已然能够为冲浪者们提供卓越的搜索经验。
但这并不意味着我们就可以对页面因素和网站内容掉以轻心。正确的理解应该是:对于两个页面优化程度相同,内容具有相同吸引力的站点,在搜索引擎排名中胜出一筹的应当是那个链接广泛度(LP)较高的站点。简言之,象以往那样只要优化了页面就能获得非常好的排名的方法已经行不通了。你若想使自己的网站获得TOP位置,不但需要对页面进行深入优化,同时还需要增强你网站的目标链接广泛度。
链接广泛度VS链接广泛度分析
一个站点的链接广泛度是指该网站上外来链接的总数量。搜索引擎必须对这些外部链接进行跟踪索引。就在不久前,人们还相信一个站点的链接广泛度只决定于该站点外部链接的“数量”。即外部链接数越多排名越靠前。
--这只是故事的前半部分,搜索引擎软件和它们的开发者可不是聋哑人,他们已然意识到有很多网站管理员籍由虚假链接等不正当手段来达到提升其排名的目的。所以搜索引擎摈弃了这种只看数量不看质量的做法,转而将链接广泛度分析作为评判网站排名的参数之一。
所谓链接广泛度分析(以下简称“链接分析”)是指对链接数量和质量的评估及分析。链接分析与链接广泛度的不同点在于:链接广泛度指一个网站上外部导入链接的数量,而链接分析则涵盖了外部导入链接的数量和质量这两个方面。我们可以看出,在对待一个网站的外部链接的态度上,链接分析把链接的数量提到了首位。
在决定哪个页面对特定关键短语更具关联度方面,链接分析是一种极为有用,既简单而又不失安全的方法。这种方法精准地决定了你所在行业的其他人对你的网站的认可态度。
链接数量VS链接质量
最初的链接计算是基于链接数量的,即一个网页外部链接数量越多,在搜索引擎上的得分也就越高。原理如下:
假设A,B两个网页。A有2个外部链接,B有10个外部链接。因为B的外部链接数远远多于A,表明有更多站点指向B,则搜索引擎将认为页面B比页面A更具“重要性”或“权威性”,即B比A具有更高的投票权值(Voting Power)。有趣的是:由于网页具有将其投票权值平均分配给它的所有导出链接的特性,对A和B来说,在相同导出链接数量的前提下,搜索引擎认定B的导出链接比A更具重要性。换言之,PR值高而且导出链接数又少的网站成为理想的链接目标。
后来链接质量分析这一环节被引入了链接分析系统,并且把链接的质量和关联度都提到了首位。因为搜索引擎认为:一个低劣的网站几乎没可能获得高质量的外部链接。对于链接的质量,不同搜索引擎有其不同衡量方法,但要点是相通的-–只有那些与你的目标关键词关联的高质量站点的外部链接才是最理想的链接目标。即使获得上百个质量低劣的或内容毫不相干的站点的链接也抵不上一个高质量且内容高度相关或互补的站点的链接。
内链/导入链接/导出链接
内链(Internal Links)
所谓内链,即内部链接。指的是同一站点内网页之间的相互链接。可别小瞧内链,它在整个网站,尤其是对一些深层页面的浏览和检索扮演着至关重要的角色。内链在GOOGLE中的作用亦不可小觑,如同一个网站会将其PageRank值传递给链至它的站点一样,内部链接也会将其PR值传递给所链页面。所以当你通过创建外部链接而获得了更高的PR值时,如果你的网站导航结构设计合理,那么你的其它内部页面亦能够得到一定的PR值。
此外,大多数搜索引擎比较关注链接文本中出现的关键词。假设有一个摄像摄影公司,其首页的三个内链文字分别为:“婚礼摄像”、“企业专题庆典摄像”、“生日/寿庆摄像”。这些链接文字不但清楚地表明了所链接的内容,即它们究竟是什么网页,同时又充分利用目标关键词进行了优化。然而有很多网站忽略了对链接文字的优化,象返回主页链接只写着“主页”两个字的例子实在是屡见不鲜。
后链(backlink)/导入链接(inbound links)/导出链接(outbound links)
导入链接和后链(也叫逆向链接)的含义相同,指链至你网站的站点,也就是我们一般所说的“外部链接”。而当你链至另外一个站点,那么这个站点就是你的“导出链接”。所以导出链接就是你向别的网站提供的本站链接。
理论上讲搜索引擎的链接分析机制只关心你的“导入链接”,即究竟有多少站点链到了你的网站上。至于你向别的网站提供了多少本站链接,这并不是它们关心的问题。所以导出链接不会对排名造成影响。--实际上我们却发现,对你辛苦得到的“导入链接”,即使它们具有同等重要性(PR值相同),Google也并不是一视同仁,只有那些导出链接较少的“导入链接”才能使它产生好感。而在Inktomi中,一个有导出链接的站点其排名要比没有导出链接的站点稍好一点。为什么呢?--在“决定链接得分的其它因素”一节中,我们再展开讨论。
如何检查Link Popularity
不同的搜索引擎对于链接广泛度(Link Popularity)的计算方法和分析方法都是不同的。这也就是为什么你可能从AltaVista上得到很高的LP值,而在Google上却未必如此。
接下来,我们就以http://www.chinaHTML.com为例,介绍如何通过一些知名搜索引擎检查你的链接广泛度(注:指令中无须http://www前缀):
Altavista & Infoseek
LINK: chinaHTML.com
所有链至该主域的站点都将被列出来。
由于一个站点的不同页面之间是互相链接的,所以上述指令最后得到的结果中也包括了那些链接到你的索引(主)页的内部页面(我们称之为内链)。如果只想看到不包含内链的结果,可输入如下指令:
LINK:homepage.yesky.com-URL:homepage.yesky.com
如欲查看一特定页面的链接广泛度,可在Altavista中输入如下指令:
LINK:homepage.yesky.com/index.HTML
Google
LINK:homepage.yesky.com
结果为链至该主域的所有站点,包括内链。Google未提供消除内链的指令。
Inktomi及其隶属搜索引擎如HotBot, AOL, iWon和MSN
LINKDOMAIN:homepage.yesky.com
结果为链至该主域的所有站点,包括内链。
LINKDOMAIN:homepage.yesky.com-DOMAIN:homepage.yesky.com
结果为链至该主域的所有外部站点。
Fast/Alltheweb
LINK.ALL:homepage.yesky.com或LINK:homepage.yesky.com
结果为链至该主域的所有网页,包括内链。
如何策划你的外部链接
在网站的搜索引擎优化中,链接广泛度可谓最难也是最耗时间一个环节.我们建议大家从下面这几个方面着手,合理而行之有效地策划你的外部链接:
1) 确保网站提供了实用和高质量的内容:
万变不离其宗,无论排名算法再怎么变,网站内容始终是克敌制胜的最大法宝。人们总是乐意去跟那些内容丰富而独特的站点交换链接。所以,如果你的网站内容还不那么充足,那就尽量多加入内容,努力让它变成一个真正的“内容提供者”吧。可撰写一些与你的网站关键词密切相关,而又使访问者感兴趣的文章和指南。如果没时间做而且又舍得花大价钱,那就雇一个专业的撰稿人吧,切忌在这些文章中大肆宣扬你的网站,而是应当遵循真正地为访问者提供实用信息的原则。记住,你的最大资产还是你的网站内容。一旦网站提供了大量实用信息,亦会大大增加获得高质量链接的机会。
2) 向高质量站点提交网站:
搜索引擎如Google,流行网站门户如MSN,目录检索如Yahoo和DMOZ(一旦DMOZ收录了你的网站,那你就等着被Netscape Search,AOL Search,Google,Lycos,HotBot,DirectHit等一些大型搜索引擎和门户网站收录吧。) 热门网站如EBay和Amazon,新闻网站如CNN,博客(Blog)网站以及与你的网站主题相关的网站。提交之前,针对主要关键词对网站的标题和描述元标记进行合理优化是必不可少的。
此外,那些与你站点具有相关性并允许提交的专业搜索引擎和网络分类目录都是你的理想链接对象。用“submit a link”和你最重要的关键词(譬如“Foam Machines”)进行搜索,你会得到一个与你关键词最关联的链接页面的站点列表。
尽可能向更多的主题网络目录、行业目录及普通商务目录、黄页、白页提交你的网站。
要想从直接竞争者那里获得链接不太现实。我们可以另僻蹊径,转而同那些与自己网站具有互补性和相关性,同时又无直接竞争性的站点交换链接。对一家鞋业公司来说,就可以向皮革业方面的有关协会提出链接交换的请求,从而有机会赢得一个来自相关刊物或新闻站点的链接。
3) 友情链接/互惠链接:
提升一个站点链接广泛度的最古老最上乘的方法就是请求与其它站点交换链接(也称互惠链接)。你可以通过电子邮件或其它方式直接与网站主人联系,请求友情换链。可向对方提供一些免费资源,如一个实用程序或一份可下载报告等。具体实施细则和注意事项将在后面详细讨论。
4其它方法:
a) 拥有一个高质量的Newsletter或相关文献区也是提升链接得分的一个好办法。别忘了把你的Newsletter上的链接提交给Newsletter专用的网上目录。倘若链到你的网站能够为他们自己的网站的访问者提供实用信息,他们又何乐而不为呢?
b) 围绕目标关键词在一些顶级站点的电子杂志或资源区里发表文章,也是获得高质量链接的有效途径之一。在文章中作者简介一栏下,别忘了放上你的链接和能吸引人眼球的网站描述。一方面你的文章可为这些网站提供了有价值的内容,同时也为光临这些网站的访问者打开了通向你自己网站的大门。这样不单可以获得互惠链接,亦有可能获得目标客户。
c) 实施或参与“奖励计划”(Awards Program)。赢家可得到一个高质量链接作为奖励。该计划在提升链接得分上效果奇佳。
d) 设立一个讨论区。请求那些对同一个关键短语相关联的站点链至该讨论区。
e) 可以给某个网站写一封推荐信,然后请求该网站的主人将其网站链至你的站点作为互惠交换。应慎用推荐。
f) 争取生意链中的对象,包括合作伙伴,分销商,代理商,供应商等的站点链接。可为客户提供小小折扣来获得他们的链接。
g) 提供HTML源代码信息。这样链接交换对象只需简单复制这些代码并嵌入自己网页便可轻松交换链接。
h) 链接的底线—应该多少才够?--只要比你的竞争者多一个高质量的外部链接就OK。
但这并不意味着我们就可以对页面因素和网站内容掉以轻心。正确的理解应该是:对于两个页面优化程度相同,内容具有相同吸引力的站点,在搜索引擎排名中胜出一筹的应当是那个链接广泛度(LP)较高的站点。简言之,象以往那样只要优化了页面就能获得非常好的排名的方法已经行不通了。你若想使自己的网站获得TOP位置,不但需要对页面进行深入优化,同时还需要增强你网站的目标链接广泛度。
链接广泛度VS链接广泛度分析
一个站点的链接广泛度是指该网站上外来链接的总数量。搜索引擎必须对这些外部链接进行跟踪索引。就在不久前,人们还相信一个站点的链接广泛度只决定于该站点外部链接的“数量”。即外部链接数越多排名越靠前。
--这只是故事的前半部分,搜索引擎软件和它们的开发者可不是聋哑人,他们已然意识到有很多网站管理员籍由虚假链接等不正当手段来达到提升其排名的目的。所以搜索引擎摈弃了这种只看数量不看质量的做法,转而将链接广泛度分析作为评判网站排名的参数之一。
所谓链接广泛度分析(以下简称“链接分析”)是指对链接数量和质量的评估及分析。链接分析与链接广泛度的不同点在于:链接广泛度指一个网站上外部导入链接的数量,而链接分析则涵盖了外部导入链接的数量和质量这两个方面。我们可以看出,在对待一个网站的外部链接的态度上,链接分析把链接的数量提到了首位。
在决定哪个页面对特定关键短语更具关联度方面,链接分析是一种极为有用,既简单而又不失安全的方法。这种方法精准地决定了你所在行业的其他人对你的网站的认可态度。
链接数量VS链接质量
最初的链接计算是基于链接数量的,即一个网页外部链接数量越多,在搜索引擎上的得分也就越高。原理如下:
假设A,B两个网页。A有2个外部链接,B有10个外部链接。因为B的外部链接数远远多于A,表明有更多站点指向B,则搜索引擎将认为页面B比页面A更具“重要性”或“权威性”,即B比A具有更高的投票权值(Voting Power)。有趣的是:由于网页具有将其投票权值平均分配给它的所有导出链接的特性,对A和B来说,在相同导出链接数量的前提下,搜索引擎认定B的导出链接比A更具重要性。换言之,PR值高而且导出链接数又少的网站成为理想的链接目标。
后来链接质量分析这一环节被引入了链接分析系统,并且把链接的质量和关联度都提到了首位。因为搜索引擎认为:一个低劣的网站几乎没可能获得高质量的外部链接。对于链接的质量,不同搜索引擎有其不同衡量方法,但要点是相通的-–只有那些与你的目标关键词关联的高质量站点的外部链接才是最理想的链接目标。即使获得上百个质量低劣的或内容毫不相干的站点的链接也抵不上一个高质量且内容高度相关或互补的站点的链接。
内链/导入链接/导出链接
内链(Internal Links)
所谓内链,即内部链接。指的是同一站点内网页之间的相互链接。可别小瞧内链,它在整个网站,尤其是对一些深层页面的浏览和检索扮演着至关重要的角色。内链在GOOGLE中的作用亦不可小觑,如同一个网站会将其PageRank值传递给链至它的站点一样,内部链接也会将其PR值传递给所链页面。所以当你通过创建外部链接而获得了更高的PR值时,如果你的网站导航结构设计合理,那么你的其它内部页面亦能够得到一定的PR值。
此外,大多数搜索引擎比较关注链接文本中出现的关键词。假设有一个摄像摄影公司,其首页的三个内链文字分别为:“婚礼摄像”、“企业专题庆典摄像”、“生日/寿庆摄像”。这些链接文字不但清楚地表明了所链接的内容,即它们究竟是什么网页,同时又充分利用目标关键词进行了优化。然而有很多网站忽略了对链接文字的优化,象返回主页链接只写着“主页”两个字的例子实在是屡见不鲜。
后链(backlink)/导入链接(inbound links)/导出链接(outbound links)
导入链接和后链(也叫逆向链接)的含义相同,指链至你网站的站点,也就是我们一般所说的“外部链接”。而当你链至另外一个站点,那么这个站点就是你的“导出链接”。所以导出链接就是你向别的网站提供的本站链接。
理论上讲搜索引擎的链接分析机制只关心你的“导入链接”,即究竟有多少站点链到了你的网站上。至于你向别的网站提供了多少本站链接,这并不是它们关心的问题。所以导出链接不会对排名造成影响。--实际上我们却发现,对你辛苦得到的“导入链接”,即使它们具有同等重要性(PR值相同),Google也并不是一视同仁,只有那些导出链接较少的“导入链接”才能使它产生好感。而在Inktomi中,一个有导出链接的站点其排名要比没有导出链接的站点稍好一点。为什么呢?--在“决定链接得分的其它因素”一节中,我们再展开讨论。
如何检查Link Popularity
不同的搜索引擎对于链接广泛度(Link Popularity)的计算方法和分析方法都是不同的。这也就是为什么你可能从AltaVista上得到很高的LP值,而在Google上却未必如此。
接下来,我们就以http://www.chinaHTML.com为例,介绍如何通过一些知名搜索引擎检查你的链接广泛度(注:指令中无须http://www前缀):
Altavista & Infoseek
LINK: chinaHTML.com
所有链至该主域的站点都将被列出来。
由于一个站点的不同页面之间是互相链接的,所以上述指令最后得到的结果中也包括了那些链接到你的索引(主)页的内部页面(我们称之为内链)。如果只想看到不包含内链的结果,可输入如下指令:
LINK:homepage.yesky.com-URL:homepage.yesky.com
如欲查看一特定页面的链接广泛度,可在Altavista中输入如下指令:
LINK:homepage.yesky.com/index.HTML
LINK:homepage.yesky.com
结果为链至该主域的所有站点,包括内链。Google未提供消除内链的指令。
Inktomi及其隶属搜索引擎如HotBot, AOL, iWon和MSN
LINKDOMAIN:homepage.yesky.com
结果为链至该主域的所有站点,包括内链。
LINKDOMAIN:homepage.yesky.com-DOMAIN:homepage.yesky.com
结果为链至该主域的所有外部站点。
Fast/Alltheweb
LINK.ALL:homepage.yesky.com或LINK:homepage.yesky.com
结果为链至该主域的所有网页,包括内链。
如何策划你的外部链接
在网站的搜索引擎优化中,链接广泛度可谓最难也是最耗时间一个环节.我们建议大家从下面这几个方面着手,合理而行之有效地策划你的外部链接:
1) 确保网站提供了实用和高质量的内容:
万变不离其宗,无论排名算法再怎么变,网站内容始终是克敌制胜的最大法宝。人们总是乐意去跟那些内容丰富而独特的站点交换链接。所以,如果你的网站内容还不那么充足,那就尽量多加入内容,努力让它变成一个真正的“内容提供者”吧。可撰写一些与你的网站关键词密切相关,而又使访问者感兴趣的文章和指南。如果没时间做而且又舍得花大价钱,那就雇一个专业的撰稿人吧,切忌在这些文章中大肆宣扬你的网站,而是应当遵循真正地为访问者提供实用信息的原则。记住,你的最大资产还是你的网站内容。一旦网站提供了大量实用信息,亦会大大增加获得高质量链接的机会。
2) 向高质量站点提交网站:
搜索引擎如Google,流行网站门户如MSN,目录检索如Yahoo和DMOZ(一旦DMOZ收录了你的网站,那你就等着被Netscape Search,AOL Search,Google,Lycos,HotBot,DirectHit等一些大型搜索引擎和门户网站收录吧。) 热门网站如EBay和Amazon,新闻网站如CNN,博客(Blog)网站以及与你的网站主题相关的网站。提交之前,针对主要关键词对网站的标题和描述元标记进行合理优化是必不可少的。
此外,那些与你站点具有相关性并允许提交的专业搜索引擎和网络分类目录都是你的理想链接对象。用“submit a link”和你最重要的关键词(譬如“Foam Machines”)进行搜索,你会得到一个与你关键词最关联的链接页面的站点列表。
尽可能向更多的主题网络目录、行业目录及普通商务目录、黄页、白页提交你的网站。
要想从直接竞争者那里获得链接不太现实。我们可以另僻蹊径,转而同那些与自己网站具有互补性和相关性,同时又无直接竞争性的站点交换链接。对一家鞋业公司来说,就可以向皮革业方面的有关协会提出链接交换的请求,从而有机会赢得一个来自相关刊物或新闻站点的链接。
3) 友情链接/互惠链接:
提升一个站点链接广泛度的最古老最上乘的方法就是请求与其它站点交换链接(也称互惠链接)。你可以通过电子邮件或其它方式直接与网站主人联系,请求友情换链。可向对方提供一些免费资源,如一个实用程序或一份可下载报告等。具体实施细则和注意事项将在后面详细讨论。
4其它方法:
a) 拥有一个高质量的Newsletter或相关文献区也是提升链接得分的一个好办法。别忘了把你的Newsletter上的链接提交给Newsletter专用的网上目录。倘若链到你的网站能够为他们自己的网站的访问者提供实用信息,他们又何乐而不为呢?
b) 围绕目标关键词在一些顶级站点的电子杂志或资源区里发表文章,也是获得高质量链接的有效途径之一。在文章中作者简介一栏下,别忘了放上你的链接和能吸引人眼球的网站描述。一方面你的文章可为这些网站提供了有价值的内容,同时也为光临这些网站的访问者打开了通向你自己网站的大门。这样不单可以获得互惠链接,亦有可能获得目标客户。
c) 实施或参与“奖励计划”(Awards Program)。赢家可得到一个高质量链接作为奖励。该计划在提升链接得分上效果奇佳。
d) 设立一个讨论区。请求那些对同一个关键短语相关联的站点链至该讨论区。
e) 可以给某个网站写一封推荐信,然后请求该网站的主人将其网站链至你的站点作为互惠交换。应慎用推荐。
f) 争取生意链中的对象,包括合作伙伴,分销商,代理商,供应商等的站点链接。可为客户提供小小折扣来获得他们的链接。
g) 提供HTML源代码信息。这样链接交换对象只需简单复制这些代码并嵌入自己网页便可轻松交换链接。
h) 链接的底线—应该多少才够?--只要比你的竞争者多一个高质量的外部链接就OK。
Oct
22
翻译:海淼(出自国外某知名SEO网站)
下面介绍的都是正常优化,需要的仅仅是一些时间和工作。还犹豫什么,行动吧:
1、域名和文件名
选择一个包含你主要关键词的域名和文件名,你的域名应该方便拼写和记忆,你的关键词在许多情况下,就该是你的文件名。如果你的关键词是google排名,最好你的域名中带有google,最好的方法是google.com大于xxgoogle.com大于google.xxx.com大于xxx.com/google,同时,文件名最好是google.htm,比如个人兴趣所致,随意而做的一个网页,google排名, http://www.earth365.com/google/google.htm
2、关键词短语
a.使用一个容易被搜索到的关键词,不一定非要是热门关键词.你可以在google中查询一个,看查询结查中有多少页包含这个关键词,你就知道这个关键词的效果.
b.在文本中添加与关键词相近的关键词短语.比如:google排名,可以加一些google左侧排名,google排名优化.
c.在title中放置关键词(这是非常重要的)<title>关键词</title>
d.在页面开始处放置一个<h1>关键词</h1>.关键词相近的短语可以放在<h2><h3>中.<h1><h2><h3>中所用的主要关键词在title中最好都有.如果你有很多关键词需要优化,建议你分成多个页面优化.如果你的关键词比较热门,建议一个页面最多优化三个主要关键词.
e.确信你链接所使用的文本是你链接所指向页面的主要关键词,在网站地图中,建议也使用这个文本做为链接.比如我在个人网站地球村中有一个链接,指向页面的主要关键词是"地球"这个关键词,我会用<a href="http://www.earth365.com";>地球</a>. 注意,指向页面的主要关键词是"地球",所以建议最好链接文本使用"地球",这一些在做反向链接的时候最重要的.
3、关键词密度
对于网络优化来说,关键词密度是非常重要的.关键词密度指的是你的"关键词"的数量在你文本中所占的比率.你可以分析一下你的竞争对手使用关键词的密度.一个高的关键词密度会被搜索引擎认为做弊,而列入到黑名单并除名.一般认为4%左右最合适.
你的关键词在网页中位置越前越好,至于要不要在每一段中都有你的关键词,取决于你网页文本的长度.(有个别网站,在<html>代码前加一些关键词,这种方法对于搜索引擎来说,是没有用的).
4、坏的技巧
坏的技巧会被搜索引擎列入黑名单,被除名.许多技巧会被认为是做弊,比如:cloaking,隐形文字,小得看不见的文字,完全一样的页面,门页,刷新标签(这种情况发生在针对搜索引擎做好页面排名,然后跳转,时间设的太短),链接工厂,只用关键词填充注释,高密度的关键词,镜射页面,镜射站点.注意,作者标签中也用关键词,也可能被认为是做弊,以及网页中所有图象均用同样的关键词做alt.
当你用这些技巧的时候,有可能在短时间内得到高的排名,但是不久,你的站点将会会到惩罚.
5、标题和说明标签
title是优化关键词最重要的一部分,每一个页面应该有2-3个不同的主要关键词,这几个关键词最好在该网页中位置越前越好,一般建议title不超过75个字符.
下面是一个简短的description说明:
content="说明短语",你的说明应该至少有2-3个你的关键词,你的第一句话也应该有你的关键词.每一个页面中,"titlte","description","keyword"说明应该是不一样的.你可以使用一个关键词,也可以使用关键词短语作为标题提高关键词的相关性.
description 最好把主要关键词写成句子,比如地球村: http://www.earth365.com 我是这样写的:<meta name="description" content="地球村,主要介绍地球,地球地理,地球图片,地球环保,地球科学.地球村,一个网上的地球家园,地球之谜,治理沙漠,中国文化.地球村,一片宁静的地球乐土,为您提供地球的一些知识,地球环保,地球文化.欢迎来地球村坐客.">
提醒:你可以在文本最后加上你的域名,有一定好处. 比如个人网站,爱护地球: http://www.earth365.com/earth365/kio06/index.htm 在最后面,我就有加:Copyright 2003-2005 www.earth365.com All Rights Reserved, 把域名加在了最后面.
6、关键词标签
如今,关键词标签由于很容易被人做弊,已经被google基本上忽视,但是在yahoo,以及其他一些搜索引擎中还是偶尔用到.每个页面建议用不同的keyword,也不要累加关键词.
7、作者以及Robots标签
作者标签应该不是你的关键词,而是你的公司名,这样用助于你的公司排名排在第一的位置.
<META content="你的公司名" name=Author>
<META content="Copyright 2004-2005 XXX所有" name=Copyright>
Robots标签主要说明哪些页面你希望搜索引擎检索,哪些不希望被检索,如果都希望被检索,可以不用Robots标签,或者用:
<meta name="robots" content="index,follow"/>
8、有质量的内容
一个好的内容的网站是至关重要的,他可以吸引人们下次还来访问,并告诉其他人来访问,并会为你带来相当多的反向链接.你的内容一定首先要有你的关键词.
9、内容的数量
内容丰富一点当然是最好.一定记注,内容和质量是网站生存的基础.
10、动态改变的内容
如果有一个页面有动态需要改变的内容,可以使用script,.你可以用几个段落写几段script.在htm网页中,用script作一些改动.
11、避免使用动态域名
你的页面是通过PHP,ASP或者cf? 有些搜索引擎检索他们的时候会有问题.尽可能地使用静态页面.避免使用php,asp 或者 cf页中"?",
动态网页是非常实用的,但是他们有一个数据库驱动,确信你的导航和网站地图链向earth365.com 而不是 earth365.com?vn=0
12、框架
许多搜索引擎不能检索框架中的链接,最好不要用框架.如果一定要用,建议使用交替的办法使搜索引擎能检索到你的页面.
13、网站地图
一个最好的导航其实是你的网站地图.一个好的网站导航结构是你站内所有页面都有一个链接指向你站内最重要的页面.比如,你的首页.
同时,如果你的网站很大,网站地图每页应该链接数量不超过100个链接,分成多个页面来做.
14、网站主题
当一个搜索引擎检索一个网站时,他会检索这个网站的主题和普通的标题,确定网站的主要主题.如果你的网站有一个特定的主题,你将比那些网站中只有几个标题和内容提及这个主题的关键词到得更好的排名.使用相似的关键词使用在每个不同的页面,搜索引擎将会检测到你的网站主题,这样你会有更大的优势.比如,我的网站 http://www.earth365.com 主题是"地球",在很多页面,我都用到了地球相关的关键词,比如"地球村","地球环保","地球奇迹"等等,这样提升了网站主题"地球"的优势.
15、网站设计
记注一点,我们的网站是做给用户看的,而不是做给搜索引擎看的.如果你的网站有一个坏的配色,或者没有组织好,不方便阅读,那么你的所有优化工作都只是在浪费时间.
确定你的网站设计方便用户使用,确定用户在你的网站内能很快找到他想要找到的东西.
16、分离内容和css样式
把你的所有格式放在css样式中,搜索引擎会更倾向于这种格式,这种方式还可以使你的网页文件大小减少,文本内容更多,会有很多好处。
下面介绍的都是正常优化,需要的仅仅是一些时间和工作。还犹豫什么,行动吧:
1、域名和文件名
选择一个包含你主要关键词的域名和文件名,你的域名应该方便拼写和记忆,你的关键词在许多情况下,就该是你的文件名。如果你的关键词是google排名,最好你的域名中带有google,最好的方法是google.com大于xxgoogle.com大于google.xxx.com大于xxx.com/google,同时,文件名最好是google.htm,比如个人兴趣所致,随意而做的一个网页,google排名, http://www.earth365.com/google/google.htm
2、关键词短语
a.使用一个容易被搜索到的关键词,不一定非要是热门关键词.你可以在google中查询一个,看查询结查中有多少页包含这个关键词,你就知道这个关键词的效果.
b.在文本中添加与关键词相近的关键词短语.比如:google排名,可以加一些google左侧排名,google排名优化.
c.在title中放置关键词(这是非常重要的)<title>关键词</title>
d.在页面开始处放置一个<h1>关键词</h1>.关键词相近的短语可以放在<h2><h3>中.<h1><h2><h3>中所用的主要关键词在title中最好都有.如果你有很多关键词需要优化,建议你分成多个页面优化.如果你的关键词比较热门,建议一个页面最多优化三个主要关键词.
e.确信你链接所使用的文本是你链接所指向页面的主要关键词,在网站地图中,建议也使用这个文本做为链接.比如我在个人网站地球村中有一个链接,指向页面的主要关键词是"地球"这个关键词,我会用<a href="http://www.earth365.com";>地球</a>. 注意,指向页面的主要关键词是"地球",所以建议最好链接文本使用"地球",这一些在做反向链接的时候最重要的.
3、关键词密度
对于网络优化来说,关键词密度是非常重要的.关键词密度指的是你的"关键词"的数量在你文本中所占的比率.你可以分析一下你的竞争对手使用关键词的密度.一个高的关键词密度会被搜索引擎认为做弊,而列入到黑名单并除名.一般认为4%左右最合适.
你的关键词在网页中位置越前越好,至于要不要在每一段中都有你的关键词,取决于你网页文本的长度.(有个别网站,在<html>代码前加一些关键词,这种方法对于搜索引擎来说,是没有用的).
4、坏的技巧
坏的技巧会被搜索引擎列入黑名单,被除名.许多技巧会被认为是做弊,比如:cloaking,隐形文字,小得看不见的文字,完全一样的页面,门页,刷新标签(这种情况发生在针对搜索引擎做好页面排名,然后跳转,时间设的太短),链接工厂,只用关键词填充注释,高密度的关键词,镜射页面,镜射站点.注意,作者标签中也用关键词,也可能被认为是做弊,以及网页中所有图象均用同样的关键词做alt.
当你用这些技巧的时候,有可能在短时间内得到高的排名,但是不久,你的站点将会会到惩罚.
5、标题和说明标签
title是优化关键词最重要的一部分,每一个页面应该有2-3个不同的主要关键词,这几个关键词最好在该网页中位置越前越好,一般建议title不超过75个字符.
下面是一个简短的description说明:
content="说明短语",你的说明应该至少有2-3个你的关键词,你的第一句话也应该有你的关键词.每一个页面中,"titlte","description","keyword"说明应该是不一样的.你可以使用一个关键词,也可以使用关键词短语作为标题提高关键词的相关性.
description 最好把主要关键词写成句子,比如地球村: http://www.earth365.com 我是这样写的:<meta name="description" content="地球村,主要介绍地球,地球地理,地球图片,地球环保,地球科学.地球村,一个网上的地球家园,地球之谜,治理沙漠,中国文化.地球村,一片宁静的地球乐土,为您提供地球的一些知识,地球环保,地球文化.欢迎来地球村坐客.">
提醒:你可以在文本最后加上你的域名,有一定好处. 比如个人网站,爱护地球: http://www.earth365.com/earth365/kio06/index.htm 在最后面,我就有加:Copyright 2003-2005 www.earth365.com All Rights Reserved, 把域名加在了最后面.
6、关键词标签
如今,关键词标签由于很容易被人做弊,已经被google基本上忽视,但是在yahoo,以及其他一些搜索引擎中还是偶尔用到.每个页面建议用不同的keyword,也不要累加关键词.
7、作者以及Robots标签
作者标签应该不是你的关键词,而是你的公司名,这样用助于你的公司排名排在第一的位置.
<META content="你的公司名" name=Author>
<META content="Copyright 2004-2005 XXX所有" name=Copyright>
Robots标签主要说明哪些页面你希望搜索引擎检索,哪些不希望被检索,如果都希望被检索,可以不用Robots标签,或者用:
<meta name="robots" content="index,follow"/>
8、有质量的内容
一个好的内容的网站是至关重要的,他可以吸引人们下次还来访问,并告诉其他人来访问,并会为你带来相当多的反向链接.你的内容一定首先要有你的关键词.
9、内容的数量
内容丰富一点当然是最好.一定记注,内容和质量是网站生存的基础.
10、动态改变的内容
如果有一个页面有动态需要改变的内容,可以使用script,.你可以用几个段落写几段script.在htm网页中,用script作一些改动.
11、避免使用动态域名
你的页面是通过PHP,ASP或者cf? 有些搜索引擎检索他们的时候会有问题.尽可能地使用静态页面.避免使用php,asp 或者 cf页中"?",
动态网页是非常实用的,但是他们有一个数据库驱动,确信你的导航和网站地图链向earth365.com 而不是 earth365.com?vn=0
12、框架
许多搜索引擎不能检索框架中的链接,最好不要用框架.如果一定要用,建议使用交替的办法使搜索引擎能检索到你的页面.
13、网站地图
一个最好的导航其实是你的网站地图.一个好的网站导航结构是你站内所有页面都有一个链接指向你站内最重要的页面.比如,你的首页.
同时,如果你的网站很大,网站地图每页应该链接数量不超过100个链接,分成多个页面来做.
14、网站主题
当一个搜索引擎检索一个网站时,他会检索这个网站的主题和普通的标题,确定网站的主要主题.如果你的网站有一个特定的主题,你将比那些网站中只有几个标题和内容提及这个主题的关键词到得更好的排名.使用相似的关键词使用在每个不同的页面,搜索引擎将会检测到你的网站主题,这样你会有更大的优势.比如,我的网站 http://www.earth365.com 主题是"地球",在很多页面,我都用到了地球相关的关键词,比如"地球村","地球环保","地球奇迹"等等,这样提升了网站主题"地球"的优势.
15、网站设计
记注一点,我们的网站是做给用户看的,而不是做给搜索引擎看的.如果你的网站有一个坏的配色,或者没有组织好,不方便阅读,那么你的所有优化工作都只是在浪费时间.
确定你的网站设计方便用户使用,确定用户在你的网站内能很快找到他想要找到的东西.
16、分离内容和css样式
把你的所有格式放在css样式中,搜索引擎会更倾向于这种格式,这种方式还可以使你的网页文件大小减少,文本内容更多,会有很多好处。










