Moz 关键字量范围的对数远没有那么线性,这表明我们的范围优化方法在搜索数据中发现异常,这些异常与搜索量波动性并不符合完美的对数关系。这些异常很可能是由人类搜索行为中真实的非随机模式引起的。查看 Moz 图表中的第 11 位和第 12 位。我们的范围实际上在第 12 位处收缩,然后在第 13 位处回升。存在一个真实的、由数据确定的异常,表明该范围内的搜索实际上比前一个范围内的搜索波动性更小,尽管搜索频率更高。
最后,我们通过使用全新的第三 就业数据库 方匿名点击流数据集来提高新鲜度。是的,我们分析了延迟 1 小时的点击流数据,以捕获值得纳入我们的数据量和语料库的新关键词。当然,这本身就是一项壮举;我们必须每天解析和清理数亿个事件,将其转化为可用数据。此外,许多具有统计意义的搜索量变化实际上是短暂的。Google Doodles 因这一点而臭名昭著,仅在一天之内就导致冷门关键词的流量激增。随后,我们建立了模型来寻找在几天内呈上升趋势、超出预期值的关键词。然后,我们使用预测模型将点击流搜索量映射到下四分位数范围(即:我们故意保守估计,直到我们能够根据下个月的 Google 关键词规划师数据进行验证)。
最后,我们必须消除点击流数据集本身的固有偏差,这样我们才能确信我们的新数据是可靠的。我们通过以下方式实现了这一点...
创建一个根据点击流数据预测 Google 关键字量的简单模型
对点击流关键词进行标记,并发现与异常值相关的单词和短语
构建这些标记的令人沮丧和增强的地图,以根据其包含情况修改预测模型
将地图应用到简单模型中,可以给我们提供更好的预测。
这是一次非常成功的尝试,因为我们可以获取原始点击流数据,并且在某些前提条件下(4 周的稳定数据),我们可以以 95% 的准确率预测适当的音量范围。