是时候进行更深入的研究了。 我启动了 Google Scholar,看看是否有其他组织尝试过这个过程,结果确实找到了 Google 于 2000 年 6 月发表的一篇论文,名为“On Near Uniform URL Sampling”。读完摘要的第一句话后,我急忙掏出信用卡购买了这篇论文:“我们考虑了从网络上统一采样 URL 的问题。
这正是我所需要的
为什么不普通抓取呢? SEO 阅读本文可能会问,为什么我们 亚美尼亚电报数据库 不直接从第三方 Web 索引(例如出色的 Common Crawl 数据集)中选择随机 URL。我们考虑了几个原因,但选择使用这种方法(尽管它很容易实现)。 我们无法确定 Common Crawl 的长期可用性。
前百万名名单(我们在北
京流程中使用)可以从多个来源获得,这意味着如果 Quantcast 消失,我们可以使 如何将您的度假村营销从标准升级到豪华 用其他提供商。 我们过去曾向 CommonCrawl 贡献过爬行集,并希望确保没有明显或明显的偏向 Moz 索引的倾向,无论多么轻微。 Common Crawl 数据集非常大,对于许多尝试生成自己的随机 URL 列表的人来说很难使用。
我们希望我们的过程是可重复的。 如何获取网络的随机样本 获得“网络随机样本”的过程非常乏味,但其总体要点如下。首先,我们从一组易于理解的有偏见的 URL 开始。然后,我们尝试消除或平衡这种偏差,尽可能创建最佳的伪随机 URL 列表。最后,我们从这些伪随机 URL 开始对网络进行随机抓取,以生成真正随机的 URL 的最终列表。
以下是完整的详细信息
1.起点:获取种子URL 获取网络随机样本的第一个主要问题是没有真 电话号码 正随机的起点。想一想。与一袋弹珠不同,您可以伸手随意地盲目地抓起一个弹珠,如果您还不知道 URL,则无法随机挑选一个。您可以尝试通过将字母相互打乱和斜线来生成随机 URL,但我们知道语言不是这样工作的,因此 URL 将与我们在网络上找到的非常不同。
不幸的是,每个人都被迫从一些伪随机过程开始。 我们必须做出选择。这是一个艰难的过程。我们是从不支持 Moz 的已知强偏见开始,还是从支持 Moz 的已知弱偏见开始?我们可以使用我们自己索引中的随机选择作为此过程的起点,这将是伪随机的,但可能有利于 Moz,或者我们可以从像 Quantcast Top Million 这样的小型公共索引开始,该索引将严重偏向于好的网站。