防止在 WordPress 中抓取博客内容的初学者指南

您是否正在寻找一种方法来防止垃圾邮件发送者和诈骗者使用内容抓取工具窃取您的 WordPress 博客内容?

作为网站所有者,看到有人在未经许可的情况下窃取您的内容、将其货币化、在 Google 中的排名超过您并窃取您的受众,这非常令人沮丧。

在本文中,我们将介绍什么是博客内容抓取、如何减少和防止内容抓取,以及如何利用内容抓取来为自己谋取利益。

如何防止 WordPress 中的内容抓取

什么是博客内容抓取?

博客内容抓取是指从众多来源获取内容并在另一个站点上重新发布。通常这是通过您博客的RSS 提要自动完成的。

内容抓取现在非常容易,任何人都可以创建一个 WordPress 网站,放置一个免费或商业主题,并安装一些插件,这些插件可以从选定的博客中抓取内容。

为什么内容抓取工具会窃取我的内容?

我们的一些用户问我们为什么要窃取我的内容?简单的答案是因为你太棒了。事实是,这些内容抓取工具别有用心。以下是有人会抓取您的内容的几个原因:

联盟佣金– 有一些肮脏的联盟营销人员只想利用该系统赚取一些额外的钱。他们将使用您的内容和其他人的内容通过搜索引擎为他们的网站带来流量。这些网站通常针对特定的利基市场,因此它们具有正在推广的相关产品。

潜在客户生成——我们经常看到律师和房地产经纪人这样做。他们希望在自己的小社区中看起来像行业领导者。他们没有足够的带宽来制作高质量的内容,所以他们出去从其他来源抓取内容。有时,他们甚至没有意识到这一点,因为他们每月支付 30 美元来添加内容并帮助他们获得更好的 SEO。过去我们遇到过很多这样的情况。

广告收入——有些人只想创建一个知识“中心”。为特定细分市场的用户提供一站式服务。我们经常注意到我们的网站内容正在被抓取。刮板总是回复,我这样做是为了社区的利益。除了网站上贴满了广告。

这些只是有人会窃取您的内容的几个原因。

如何捕捉内容抓取工具?

捕捉内容抓取工具是一项繁琐的任务,可能会占用大量时间。您可以通过以下几种方法来捕获内容抓取工具。

使用您的帖子标题在 Google 上搜索

是的,这听起来很痛苦。这种方法可能不值得,特别是如果您正在撰写一个非常受欢迎的主题。

引用

如果您在帖子中添加内部链接,如果网站窃取了您的内容,您会注意到引用。这种方式几乎是刮板告诉你他们正在刮你的内容。

如果您使用的是 Akismet,那么很多此类引用将显示在垃圾邮件文件夹中。同样,这仅在您的帖子中有内部链接时才有效。

阿雷夫斯

如果您可以使用Ahrefs等 SEO 工具,则可以监控您的反向链接并留意被盗内容。

如何处理内容抓取工具

人们在处理内容抓取工具时采用的方法很少:什么都不做的方法、Take Down 方法或 Take Advantage of them 方法。

让我们来看看每一个。

什么都不做的方法

这是迄今为止您可以采取的最简单的方法。通常最受欢迎的博主会推荐这个,因为它需要很多时间来对抗刮板。

现在显然,如果它是像 Smashing Magazine、CSS-Tricks、Problogger 或其他知名博客,那么他们不必担心。他们是谷歌眼中的权威网站。

然而,我们知道一些好的网站被标记为抓取工具,因为谷歌认为他们的抓取工具是原始内容。因此,在我们看来,这种方法并不总是最好的。

取下方法

这与“什么都不做的方法”完全相反。在这种方法中,您只需联系抓取工具并要求他们删除内容。

如果他们拒绝这样做或根本不回复您的请求,那么您向他们的主机提交 DMCA(数字千年版权法案)。

根据我们的经验,大多数抓取网站都没有可用的联系表。如果他们这样做,然后利用它。如果他们没有联系表格,那么您需要进行 Whois 查询。

Whois 查询

您可以在管理联系人上查看联系信息。通常行政和技术联系人是相同的。

它还将显示域注册商。大多数知名的网络托管公司和域名注册商都有 DMCA 表格或电子邮件。您可以看到这个特定的人因为他们的名称服务器而使用 HostGator。HostGator有一个DMCA 投诉表格。

如果名称服务器类似于 ns1.theirdomain.com,那么您必须通过反向 IP 查找和搜索 IP 来深入挖掘。

您还可以使用DMCA.com的第三方服务进行删除。

Jeff Starr在他的文章中建议您应该阻止坏人的 IP。访问您的日志以获取他们的 IP 地址,然后在您的根 .htaccess 文件中使用类似这样的内容来阻止它:

Deny from 123.456.789

您还可以通过执行以下操作将它们重定向到虚拟提要:

RewriteCond %{REMOTE_ADDR} 123\.456\.789\.RewriteRule .* http://dummyfeed.com/feed [R,L]

正如 Jeff 建议的那样,您可以在这里获得真正的创意。将它们发送到充满 Lorem Ipsum 的非常大的文本提要。您可以向他们发送一些关于坏事的令人作呕的图像。您还可以将它们直接发送回自己的服务器,从而导致无限循环,从而使他们的站点崩溃。

我们采取的最后一种方法是利用它们。

如何利用内容抓取工具

这是我们处理内容抓取工具的方法,结果非常好。它有助于我们的 SEO 并帮助我们赚取额外的收入。

大多数抓取工具使用您的 RSS Feed 来窃取您的内容。所以这些是你可以做的一些事情:

内部链接——您需要大量链接您的博客文章。当您的文章中有内部链接时,它可以帮助您增加网页浏览量并降低您自己网站上的跳出率。其次,它可以让您从窃取您的内容的人那里获得反向链接。最后,它可以让你窃取他们的观众。如果您是一位才华横溢的博主,那么您就会了解内部链接的艺术。您必须将链接放在有趣的关键字上。让用户很容易点击它。如果你这样做,那么爬虫的观众也会点击它。就像那样,你从他们的网站上带走了一个访问者,然后把他们带回到他们本来应该去的地方。

Auto Link Keywords with Affiliate Links – 很少有像ThirstyAffiliates这样的插件会自动用附属链接替换分配的关键字,

使用 RSS 页脚获得创意- 您可以使用多合一 SEO插件将自定义项目添加到您的 RSS 页脚。你可以在这里添加任何你想要的东西。我们知道有些人喜欢向他们的 RSS 阅读器推销自己的产品。所以他们会添加横幅。你猜怎么着,现在这些横幅也将出现在这些刮板的网站上。在我们的案例中,我们总是在 RSS 提要中的帖子底部添加一点免责声明。通过这样做,我们可以从 scraper 的网站获得指向原始文章的反向链接,让 Google 和其他搜索引擎知道我们是权威。它还让他们的用户知道该网站正在窃取我们的内容。

查看我们关于如何在 WordPress 中控制 RSS 提要页脚的指南,了解更多提示和想法。

如何减少和防止 WordPress 博客抓取

考虑到如果您采用我们的大量内部链接、添加附属链接、RSS 横幅等方法,您将可以很好地减少内容抓取。如果您接受 Jeff Starr 的重定向内容抓取工具的建议,那也将阻止这些抓取工具。除了我们上面分享的内容之外,您还可以使用其他一些技巧。

完整与摘要 RSS 提要

博客社区一直在争论是否具有完整的 RSS 提要或摘要 RSS 提要。我们不会详细讨论这场辩论,但是拥有仅摘要 RSS 提要的优点之一是您可以防止内容抓取。

您可以通过转到 WordPress 管理面板并在Settings » Reading下更改设置。然后更改提要显示中的每篇文章的设置:摘要。

引用垃圾邮件

Trackbacks 和 Pingbacks肯定有很大的用途,但是,它们现在经常被滥用。

通常,主题会在评论下方或评论中显示引用和 pingback。这使垃圾邮件发送者有动力抓取您的网站并发送引用。如果您错误地批准了它,那么他们会从您的网站获得反向链接并提及。以下是您可以在以后的所有帖子中禁用引用的方法。

这是一篇文章,将向您展示如何在现有的 WordPress 帖子上禁用引用和 ping。

内容抓取真的好吗?

有可能。如果你看到你正在从刮板的网站上赚钱,那么肯定可以。如果您看到来自爬虫网站的大量流量,则可以。

然而,在大多数情况下,事实并非如此。您应该始终尝试删除您的内容。但是您会意识到,随着您的博客变得越来越大,几乎不可能跟踪所有内容抓取工具。我们仍然会发送 DMCA 投诉,但我们知道还有大量其他网站正在窃取我们无法跟上的内容。

我们希望这篇文章能帮助您防止 WordPress 中的博客内容抓取。您可能还想查看我们的指南,了解如何防止 WordPress 中的图像被盗。