5种方法可以避免电子商务网站(e-commerce site)上出现重复内容和索引问题

2018-09-10 16:06:36
多谷网络

5种方法可以避免电子商务网站(e-commerce site)上出现重复内容和索引问题

在页面排名很好之前，需要对其进行爬网和编制索引。贡献者Manish Dudharejia分享了五个提示，为您的网页提供在搜索结果中编入索引的最佳机会。

电子商务网站(e-commerce site)比任何其他类型的网站都更为臭名昭着，因为它们开发的URL结构会对搜索引擎产生爬行和索引问题。保持这一点非常重要，以避免重复内容和爬行预算复杂化。

以下是保持电子商务网站索引最佳的五种方法。

1.了解谷歌索引中的内容

首先，定期检查Google报告的索引页数有多少非常重要。您可以通过在Google上运行“site：example.com”搜索来查看Google在网络上了解的网页数量。

虽然谷歌网站管理员趋势分析师加里·伊利斯已经提到这个数字只是一个估计值，但这是确定某些内容是否与您的网站索引严重关闭的最简单方法。

内容管理系统（CMS）与电子商务平台，站点地图和服务器文件之间的数字应该几乎完美匹配，或者至少与所解决和解释的任何差异相匹配。反过来，这些数字应与Google网站运营商搜索中的返回值大致相符。智能的现场优化有助于此; 以优化为基础开发的网站可以通过避免可能产生索引问题的重复内容和结构问题来大大提高帮助。

虽然索引中的结果太少可能是一个问题，但是太多结果也是一个问题，因为这可能意味着您在搜索结果中有重复的内容。虽然Ilyes已经确认没有“重复内容损失”，但重复内容仍然会损害您的抓取预算，并且还会削弱您的网页在重复内容中的权限。
如果Google返回的结果太少：

确定您的站点地图中的哪些页面未显示在您的Google Analytics自然搜索流量中。（使用较长的日期范围。）
在Google中搜索这些网页的代表性示例，以确定索引中实际缺少的内容。（您不需要为每个页面执行此操作。）
识别未编制索引的页面中的模式，并在整个站点中系统地处理这些模式，以增加这些页面被编入索引的机会。要查找的模式包括重复的内容问题，缺少入站内部链接，XML站点地图中的非包含，无意的无索引或规范化，以及具有严重验证错误的HTML。
如果Google返回太多结果：

使用ScreamingFrog，DeepCrawl，SiteBulb或类似工具运行网站爬网，并识别具有重复标题的网页，因为这些网页通常具有重复内容。
确定导致重复的原因并将其删除。有各种原因和解决方案，这些将构成本文其余部分的大部分内容。

2.优化站点地图，robots.txt和导航链接

这三个要素是强大的指数化的基础，并已在其他地方深入讨论，但如果我在这里没有提到它，我会失职。

我无法强调综合站点地图的重要性。事实上，我们似乎已经达到了比内部链接更重要的程度。Gary Ilyes最近证实，即使是“head”关键字（而不是长尾关键字）的搜索结果也可以包含没有入站链接的页面，甚至没有内部链接。Google可以通过网站地图了解这些网页的唯一方式。

重要的是要注意Google和Bing的指南仍然说至少应该从一个链接访问页面，而站点地图绝不会取消这一点的重要性。

同样重要的是确保您的robots.txt文件正常运行，不会阻止Google从您希望被编入索引的网站的任何部分，并且它声明了您的站点地图的位置。功能性robots.txt文件非常重要，因为如果它们关闭，可能会导致Google根据Ilyes完全停止为您的网站编制索引。

最后，直观和逻辑的导航链接结构是良好索引的必要条件。除了您希望索引的每个页面都应该可以从您站点上的至少一个链接访问之外，良好的用户体验实践是必不可少的。分类是这一点的核心。

例如，交互设计基金会的乔治米勒的研究表明，人类大脑一次只能在短期记忆中保存大约七个信息块。

我建议你的导航结构是围绕这个限制设计的，事实上，甚至可能将你的菜单限制在不超过五个类别，以使人们更容易使用。每个菜单部分有五个类别，每个下拉列表有五个子类别可能更容易导航。

以下是Google代表就导航和索引编制所做的一些重要观点：

• 隐藏导航元素的折叠和标签可以包括在内，如果它们最适合用户体验。在移动优先的世界中，以这种方式隐藏元素不会损害索引。
• 使用面包屑导航，它们包含在PageRank 计算中。
• Google网站管理员趋势分析师John Mueller表示，任何标准菜单风格（例如大型菜单或下拉菜单）都可以，但是针对单个页面生成过多网址的糟糕网址结构是个问题。
• Gary Illyes还说过你应该避免在你自己的内容或内部链接上使用nofollow属性。
• Google员工多次声明内部链接锚文本是一个因素，因此请确保您的导航链接具有描述性和实用性，并避免使用关键字填充。
• 避免无限空间或蜘蛛陷阱。它们通常在使用链接完成交互式站点功能时创建。
• 在您的网站上运行抓取工具，以确定您是否最终抓取的网页数量超出预期，因为这可以帮助您识别创建重复，无限空间和其他问题的导航链接。
• 从用户体验（UX）角度保持您的URL尽可能接近根。加里·伊利斯（Gary Illyes）已经表示，从根目录开始的页面将被抓取并且不常发现。
• 确保您可以通过移动设备访问完整的网站导航，因为移动优先索引意味着这是Google用于索引您网站的版本。

Bing建议如下：
• 富含关键字的网址，可避免会话变量和docID。
• 一个功能强大的站点结构，鼓励内部链接。
• 有组织的内容层次结构

3.获取URL参数的句柄

URL参数是“无限空间”和重复内容的常见原因，严重限制了爬网预算并可能稀释信号。它们是添加到您的URL结构中的变量，其中包含用于执行以下操作的服务器指令：

• 排序项目。
• 存储用户会话信息。
• 过滤项目。
• 自定义页面外观。
• 返回现场搜索结果。
• 跟踪广告系列或向Google Analytics发送信号。
如果您使用Screaming Frog，则可以通过从“Filter”下拉菜单中选择“Parameters”来在URI选项卡中识别URL参数。

检查正在播放的不同类型的URL参数。任何不会对内容产生重大影响的网址参数（如广告系列标记，排序，过滤和个性化）都应使用noindex指令或规范化处理（而不是两者）。稍后会详细介绍。

Bing还提供了一个方便的工具，可以忽略Bing网站管理员工具的“ 配置我的网站”部分中的选择网址参数。

如果参数以创建不重复的页面的方式显着影响内容，则以下是Google关于正确实施的一些建议：

• 使用标准URL编码，采用“？key = value＆”格式。不要使用非标准编码，如括号或逗号。
• 您应该使用参数，从不使用文件路径来列出对页面内容没有重大影响的值。
• 不会对内容产生重大影响的用户生成的值应放在可以使用robots.txt隐藏的过滤目录中，或者使用某种形式的无索引或规范化处理。
• 如果用户会话需要大量参数来消除对网络抓取工具征税的内容重复，则使用Cookie而不是无关参数。
• 不为没有产生结果的用户过滤器生成参数，因此空页面不会被索引或税务网页抓取工具。
• 只有在为搜索引擎生成新内容时才允许抓取页面。
• 不允许为没有产品的类别或过滤器单击链接。

4.好坏过滤器

搜索引擎何时应该可以抓取过滤器，何时应该对其进行索引或规范化？受上述谷歌建议影响，我的经验法则是“好”的过滤器：

• 应该作为产品类别的有意义的扩展，生成不同但是可靠的页面。
• 应该有助于指定产品。
我觉得这些是或应该被编入索引。在我看来，“糟糕”过滤器：

• 重新组织内容而不另外更改内容，例如按价格或受欢迎程度排序。
• 保留用户首选项以更改布局或设计但不影响内容。
不应对这些类型的过滤器编制索引，而应使用AJAX，noindex指令或规范化来解决这些类型的过滤器。

Bing警告网站管理员使用AJAX pushState函数创建具有重复内容的URL，否则就会失败。

5.正确使用noindex和规范化

Noindexing告诉搜索引擎不要索引页面，而规范化告诉搜索引擎两个或多个URL实际上是同一页面，但一个是“官方”规范页面。

对于重复或近似重复，在大多数情况下，规范化是首选，因为它保留了优化权限，但并非总是可行。在某些情况下，您不希望索引任何版本的页面，在这种情况下应使用noindex。

不要同时使用noindex和canonicalization。John Mueller警告不要这样做，因为它可能会告诉搜索引擎无法对规范页面和重复数据进行索引，尽管他说谷歌很可能会将规范标签视为错误。

以下是应该规范化的事情：

• 由分面导航和URL参数创建的重复项应规范化为标准版本的页面。
• 将分页内容规范化为统一的“查看全部”页面。
• 将任何A / B或多变量拆分测试规范化为官方URL。
以下是我建议无法编制索引的内容：

• 任何会员区或员工登录页面。
• 任何购物车和谢谢页面。
• 内部搜索结果页面。Illyes说：“一般来说，它们对用户没用，我们确实有一些算法试图摆脱它们......”
• 任何无法规范化的重复页面。
• 狭义的产品类别与其父类别不够独特。
• 作为规范化的替代方案，Bing建议使用Bing网站站长工具中的URL规范化功能。这限制了必要的爬行量，并允许您最新鲜的内容轻松编入索引。

e-commerce site

新闻动态