每个人可能都有过类似的经历,在 Google 上输入某个中文关键词,反馈出来的结果中,不是不相关,也不是有 junk results,而是 -- 全都一样,几页下来,发现全是同一篇文章,或至少是位于不同文章中的同一个段落。
不能绝对地说这是网上中文世界独有的问题,但是在搜索纯英文内容时,的确较少遇到类似的烦恼。
随着互联网用 'open' 的概念改变了人们的价值观,随着眼球经济人们急于扩大影响力的需要,转载,成为了一种相对合法,或者说不合法但缺失后果模式的抄袭,而这恰恰符合了中国很长一段时间以来形成惯性的行为方式 -- 模仿,抄袭,一窝蜂。
我 们可以要求少转载,多用链接吧,事实上,链接、单一数据源才是互联网的本质所在,但是,即使是我,也不会乐于去点击互联网上好心人提供的链接 -- 我们不信任,或者说,在网上中文世界,我们不能信任,不敢信任。即使是著名网站 -- 就是那些门户网站了 -- 我们也不愿意去访问,按照 MSN 中国的形容,中国现有的门户网站,页面“太重了”,内容繁杂,广告扰人且其 flash 消耗大量系统资源,几乎没有一个中文门户网站的访问体验可以用“流畅”来形容,而其他网站,无论是个人网站还是领域细分站点,似乎个个为门户网站马首是 瞻,纷纷效尤。这样,就几乎封闭了最后一批好心不愿浪费社会资源的人用链接代替转载的最后努力之门。
问题是,对于搜索引擎来说,你让它怎么办?我们的搜索变得没有效率,这样下去,搜索引擎也会逐渐失去眼球。
既然都是相同的内容,那么干脆只留一个?可是,留哪个,不留哪个?隐去的页面的 Page Rank 很可能也高达 9 ,凭什么就从结果里消失了,反而让另一个 Page Rank 2 的页面挤到了前边?
既 然 Google 把自己的使命定义为帮助人们管理信息,那么我们来预测一个趋势,或许未来的搜索引擎将转而更加关注实质 -- 即内容,只把目标页面的纯文字内容(而且仅包括页面的核心内容)用统一、简单的格式显示出来,反而隐去了纷杂的信息来源(或可供追溯)。这样既可以仅根据 文字内容的重要性排序,排序也更有效,因为访问者关心的是内容。当然,转载带来的搜索结果“同质化”问题,也便不复存在。
事实上,RSS 技术已经开始从这个角度来帮助人们管理信息 -- 不必在意信息来源,以及信息来源页面上大量恼人的不相关信息 -- 只需要关注信息本身,而且所有信息以用户定义的统一格式呈现。当信息可以从格式中分离出来,真正的单一数据源才有可能实现,我们使用信息的效率也才可能提 升。而 My Yahoo! 或 My MSN 的以搜索结果作为栏目的做法,也可以被认为是搜索引擎由提供链接信息到提供内容信息转变这一趋势的一个端倪。
当然,我们不能不考虑广告,否则一切都只是乌托邦,在这一点上,Google 又是先行者,Google 的“纯文字广告”理念,使得广告回归它的本质 -- 也是一种信息,当这种信息也能勇于将自己从格式中分离出来时,它一样可以在上述体系中顺畅地运转。