– 这些都是重要的网站

我们决定以后者为起点,因为 Quantcast 数据是: 可重现 我们不打算构建 Moz API 的“随机 URL 选择”部分,因此我们需要业内其他人可以开始使用的东西。 Quantcast Top Million 对所有人免费。 不偏向 Moz:我们宁愿谨慎行事,即使这意味着需要做更多工作来消除偏见。

已知偏见:Quantcast 前

1,000,000 名中的偏见很容易理解 ,我们需要解决这种偏见。 Quantcast 偏差 奥地利电报数据库 是自然的:任何链接图本身都已经共享一些 Quantcast 偏差(强大的网站更有可能链接良好)。 考虑到这一点,我们从 Quantcast 前百万域名中选择了 10,000 个域名,并开始消除偏见的过程。

2. 根据域大小而不是重要性

进行选择 由于我们知道 Quantcast Top Million 是按流量排名的,并且希 酒店和度假村可通过 3 种方式利用自动化来丰富宾客体验 减少这种偏差,因此我们引入了基于网站大小的新偏差。对于这 10,000 个网站中的每一个,我们根据 Google 使用“site:”命令确定了网站上的页面数量,并检索了该域的前 100 个页面。

我们现在可以平衡“重要性

偏差”和“大小偏差”,后者更能反映网络上 URL 的数量。这是减少 Quantcast 百万强网电话号码  站中仅高质量网站的已知偏见的第一步。 3. 在每个域上选择伪随机起点 下一步是随机选择偏向于大于 10,000 个站点的域。当系统选择一个站点时,它会从 Google 从该站点收集的前 100 个页面中随机选择。

这有助于进一步减少显着性偏差。我们并不总是从主页开始。尽管这些页面是网站上最重要的页面,但我们知道它们并不总是最重要的页面,即主页。这是减少感知偏见的第二步。大型网站上的低质量页面平衡了 Quantcast 数据的内部偏差。 4. 爬行,爬行,爬行 这就是我们做出最大改变的地方。我们实际上是从这组伪随机 URL 开始抓取网络,生成原始的随机 URL 集。

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部