• 承接:西安SEO网站优化-SEO整站优化外包-网络营销推广外包服务

【淮南博客赛雷猴】人与智能重复内容独特时如何获胜

王泽鹏博客 5个月前 (04-23) 240次浏览 1个评论

  令人印象深刻的是机器学习和基于算法的智能,它们往往缺乏人类自然而然的东西:常识。

  众所周知,在多个页面上放置相同的内容会产生重复的内容。但是如果你创建关于类似事物的页面会有什么影响呢?算法将它们标记为重复,尽管人类在将这些页面分开时没有问题:

  电子商务:具有多种变体或关键差异的类似产品

  旅游:酒店分店,目的地套餐,内容相似

  分类:相同项目的详尽列表

  业务:本地分支机构在不同地区提供相同服务的页面

  这是怎么发生的?你怎么能发现问题?你有什么可以做的?

  重复内容的危险

  重复内容会影响您通过以下方式搜索用户,使您的网站可见:

  丢失了无意中竞争相同关键字的唯一网页的排名

  无法对群集中的网页进行排名,因为 Google 选择了一个网页作为规范

【淮南博客赛雷猴】人与智能重复内容独特时如何获胜

  大量精简内容丢失了网站权限

  机器如何识别重复内容

  谷歌使用算法来确定两个页面或部分页面是否是重复内容,Google 将其定义为“明显相似”的内容。

  谷歌的相似性检测基于他们的专利 Simhash 算法,该算法分析网页上的内容块。然后,它为每个块计算唯一标识符,并为每个页面组成散列或“指纹”。

  由于网页数量巨大,因此可扩展性至关重要。目前,Simhash 是大规模查找重复内容的唯一可行方法。

  Simhash 指纹是:

  计算成本低廉。它们是在页面的单个爬网中建立的。

  由于固定长度,易于比较。

  能够找到近乎重复的东西。与许多其他算法不同,它们将页面上的微小变化等同于散列中的微小变化。

  这最后意味着任何两个指纹之间的差异可以通过算法测量并表示为百分比。为了降低评估每一对页面的成本,Google 采用了以下技术:

  聚类:通过将多组足够相似的页面分组在一起,只需要比较聚类中的指纹,因为其他所有指针都已被分类为不同。

  估计:对于异常大的聚类,在计算一定数量的指纹对之后应用平均相似性。

  【东营 SEO】人与智能:当’重复’内容独特时如何获胜

  最后,Google 使用加权相似率排除了相同内容的某些块(样板:标题,导航,侧边栏,页脚;免责声明……)。它考虑了页面的主题,使用 n-gram 分析来确定页面上哪些词最常出现,并且-在站点的上下文中-是最重要的。

  使用 Simhash 分析重复内容

  我们将使用 Simhash 查看标记为类似的内容集群的地图。OnCrawl 的此图表覆盖了对重复内容群集的重复内容策略的分析。

  OnCrawl 的内容分析还包括相似性比率,内容聚类和 n-gram 分析。OnCrawl 还在开发一个实验性热图,表明每个内容块的相似性可以覆盖在网页上。

  使用规范验证集群

  使用规范 URL 来指示一组相似页面中的主页面是一种有意聚集页面的方式。理想情况下,由规范创建的集群和由 Simhash 建立的集群应该是相同的。

  如果不是这种情况,通常是因为您的网站上没有规范的政策:

  或者因为您的规范策略与 Google 用于对类似内容进行分组的方法之间存在冲突:

  您网站的群集与上面的群集不同。您已经遵循了重复内容的最佳做法。包含相同内容的网址(例如可打印/移动版本或 CMS 生成的备用网址)会声明正确的规范网址。

  【东营 SEO】人与智能:当’重复’内容独特时如何获胜

  过滤掉规范策略正确处理的重复内容。其余的非规范化 URL 是您要排名的页面。

  【东营 SEO】人与智能:当’重复’内容独特时如何获胜

  东营 SEO,东营 SEO 优化,东营 SEO 工程师

  仍然出现在基于 Simhash 和语义分析的群集中的网址是您和 Google 不同意的网址。

  解决唯一内容的重复内容问题

  没有令人满意的技巧来纠正机器对看似重复的独特页面的看法:我们无法改变 Google 识别重复内容的方式。但是,仍然有一些解决方案可以使您对独特内容和 Google 的感知保持一致……同时仍然会根据您需要的关键字进行排名。

  以下是适应您网站的五种策略。

  解决边缘情况

  首先看边缘情况:相似率非常低或非常高的集群。

  人与智能:当’重复’内容独特时如何获胜

  最大相似度:找出潜在问题。您需要丰富内容以区分页面或将页面合并为一个页面。

  减少方面的数量

  如果您的重复页面与构面相关,则可能存在索引问题。维护已经排名的方面,并限制允许 Google 进行索引的方面数量。

  使页面(更多)独特

  请记住:内容的微小差异会在 Simhash 指纹中产生细微差别。您需要对页面上的内容进行重大更改,而不是进行小幅调整。

  丰富页面内容:

  向页面添加文本内容。

  添加不同的图像描述。

  包括完整的客户评论(如果评论适用于多个页面,请合并页面!)。

  添加其他信息。

  添加相关信息。

  使用不同的图像。

  使用非常不同的锚文本测试链接到不同的页面。

  减少类似页面之间共同的源代码量。

  提高页面上的语义密度。

  增加与主题相关的词汇量并减少填充量。


王泽鹏博客版权所有丨如未注明 , 均为原创丨 转载请注明【淮南博客赛雷猴】人与智能重复内容独特时如何获胜
喜欢 (0)
[zhifu@wangzepeng.cn]
分享 (0)

您必须 登录 才能发表评论!

(1)个小伙伴在吐槽
  1. 非常不错 值得学习分享
    违章代办2019-04-24 15:13 Windows 10 | 搜狗浏览器 2.X