元数据重要吗

A collection of data related to the UK.
Post Reply
rakibhasan
Posts: 203
Joined: Tue Dec 24, 2024 4:57 am

元数据重要吗

Post by rakibhasan »

这些片段的大部分被截断在 275-350 个字符范围内。在这个清理后的分布中,我们得到了平均值 309 个字符,中位数为 317 个字符。左侧仍然有一点尾巴,因此分布不太正常,但很明显,大部分截断发生在 300-325 个字符范围内。

那么超过 350 个字符的摘要呢?从这张图中很难看出,但它们的最大长度为 375 个字符。在某些情况下,Google 会附加他们自己的信息:



虽然整个代码片段有 375 欧洲华人华侨数据 个字符,但“跳转...”链接是 Google 添加的。其余代码片段有 315 个字符。Google 还在一些代码片段的前面添加了结果计数和日期。这些字符似乎不计入限制,但有点难以判断,因为我们没有太多数据点。

在我们公布新的限制之前,这里有一个令人不安的问题——当谷歌似乎在重写如此多的摘要时,是否值得使用元描述标签?在整个数据集中,我们能够成功捕获 70,059 个原始元描述标签(在其余许多情况下,网站根本没有定义一个)。其中,略多于三分之一(35.9%)按原样用于显示摘要。

但请记住,Google 会截断其中一些内容,并向其中添加额外数据。在 15.4% 的情况下,Google 使用了原始元描述标签,但添加了一些文本。这个数字可能看起来很高,但大多数情况下,Google 只是在摘要末尾添加了一个句号。显然,Google 是一个坚持完整句子的人。因此,现在我们有 51.3% 的情况,其中显示摘要与元描述标签完全匹配或完全包含它。

那么显示摘要使用元描述标签的截断版本的情况又如何呢?只有 3.2% 的摘要符合这种情况。综合起来,我们发现 Google 使用全部或部分原始元描述标签的情况高达近 55%。这个数字可能偏低,因为我们没有计算 Google 使用部分原始元描述但以某种方式对其进行修改的情况。

值得注意的是,在某些情况下,Google 会重写元描述,因为原始描述太短或描述性不够。以下结果为例:
Post Reply