中培伟业IT资讯频道
您现在的位置:首页 > IT资讯 > 精选文章 > 人类与机器智能:如何赢得“复制”,内容是独特的

人类与机器智能:如何赢得“复制”,内容是独特的

2019-02-21 17:45:15 | 来源:中培企业IT培训网

一样令人印象深刻的机器学习和算法的情报,他们往往缺乏的东西是自然对人类:常识。

众所周知,把同样的内容在多个页面产生重复内容。但如果你创建页面类似的事情,与差异,重要吗?算法国旗作为重复,尽管人类区分这样的页面没有问题:

电子商务:有多个变量的类似产品或关键的差异

旅游:酒店分支,目的地包具有类似内容

分类:详尽的列表相同的物品

业务:页面为当地分支在不同地区提供同样的服务

这是如何发生的?你怎么能发现问题?你可以做什么?

重复内容的危险

重复内容干扰你让你的网站对搜索用户可见的能力

亏损排名独特的页面,无意中争夺相同的关键词

无法排名页面在一个集群中,因为谷歌选择一个页面作为一个规范

损失大量的薄内容的网站的权威

机器识别重复内容如何

谷歌使用算法来确定两页或部分页面重复内容,谷歌将其定义为内容”明显相似“.

谷歌的相似性检测是基于他们的专利Simhash算法,分析的内容在一个web页面。然后计算每个块的惟一标识符,并组成一个哈希表,或者“指纹”,为每一个页面。

因为网页的数量是巨大的,可伸缩性是关键。目前,Simhash是唯一可行的方法寻找大规模重复内容。

Simhash指纹是:

便宜的来计算。它们是建立在单个页面的抓取。

比较容易,多亏了他们的固定长度。

能找到复本。他们把页面上的微小的变化等同于小散列的变化,与其他算法。

最后这意味着任何两个指纹的区别可以测量算法表示为一个百分比。减少的成本评估每一两页,谷歌使用技术,如:

集群:通过分组集足够相似的页面在一起,仅在一个集群中指纹需要相比,因为一切已经被分类为不同的。

估计:特别大的集群,平均相似性应用一定数量的指纹后对计算。

来源:Martech

标签: 人类 人工智能