会员登录 - 用户注册 - 设为首页 - 加入收藏 - 网站地图 X(原推特)已经屏蔽除谷歌以外的所有搜索引擎以阻止数据被抓取 – 蓝点网!

X(原推特)已经屏蔽除谷歌以外的所有搜索引擎以阻止数据被抓取 – 蓝点网

时间:2025-04-10 05:51:36 来源:隐鳞藏彩网 作者:焦点 阅读:552次

7 月初埃隆马斯克带领的原已经有搜 X 曾屏蔽谷歌搜索爬虫抓取内容,这导致谷歌搜索无法在用户搜索 X 用户名时展示最新的推特推文摘要,不过后面 X 对谷歌解封了。屏蔽

但其他搜索引擎就没那么幸运了,除谷如果使用 site:twitter.com 指令在必应搜索上查询的歌外话,你会发现必应收录的索引 X 内容只有 12.1 万条,而谷歌搜索则是擎阻 4.22 亿条。

发生了什么?止数抓原因是 X 屏蔽了除谷歌搜索以外的所有搜索引擎爬虫,至于原因嘛也很简单,据被埃隆马斯克不想 X 的蓝点数据被其他人抓取拿去训练 AI,所有屏蔽了诸如 Bingbot、原已经有搜MSNbot、推特Yandex 等搜索引擎爬虫。屏蔽

X(原推特)已经屏蔽除谷歌以外的除谷所有搜索引擎以阻止数据被抓取

X(原推特)已经屏蔽除谷歌以外的所有搜索引擎以阻止数据被抓取

那谷歌为什么是例外的呢?估计马斯克都要骂街了,因为之前有传闻称杰克多西时代的歌外推特与谷歌达成了相关协议,允许谷歌抓取内容,目前这一协议尚未到期。

蓝点网通过互联网档案馆排查发现,X 是在 2023 年 7 月 24 日执行屏蔽操作的,更新后的 robots.txt 文件仅允许 Googlebot 抓取内容,其他所有爬虫均被封禁。

所以现在诸如必应搜索上的推特内容极少也就是这个原因,后面估计索引数量会进一步降低,如果谷歌的协议到期了估计内容也都会消失。

不过 robots.txt 毕竟只是君子协定 (这不是法律规定,之前某大数字被某度起诉抓取某度百科内容时,就辩称这是 robots.txt 只是行业管理而非法律规定),所以仍然有各种来路不明的爬虫试图抓取推特上的内容拿去卖数据。

对于这种情况埃隆马斯克也早有准备,在协议规定未经同意获取内容属于违反协议的行为,马斯克对这些未经同意的抓取行为直接起诉。

附 X robots.txt 的最新内容:

# Google Search Engine Robot# ==========================User-agent: GooglebotAllow: /?_escaped_fragment_Allow: /*?lang=Allow: /hashtag/*?src=Allow: /search?q=%23Allow: /i/api/Disallow: /search/realtimeDisallow: /search/usersDisallow: /search/*/gridAllow: /*?ref_src=Allow: /*?src=Disallow: /*?Disallow: /*/followersDisallow: /*/followingDisallow: /account/deactivatedDisallow: /settings/deactivated# 下面的指令代表禁止搜索爬虫抓取内容# ========================================================User-agent: *Disallow: /

(责任编辑:时尚)

相关内容
  • 姜葱煎焗马鲛鱼的做法
  • 司丽莎侥幸应邀退出第72届嘎纳片子节
  • 中美合拍《木兰特工》:打造“女女子”的未来天下
  • 足球简略过人能耐足球历史源头杂乱足球过人小能耐
  • 全麦饼卷素十锦的做法
  • 足球外网推选网站最新足球赛事光阴表足球信息最全的网站
  • 最近足球赛事光阴表国内足球官搜罗马足球最新往事
  • 对于曼彤时尚服饰的信息
推荐内容
  • NMN有望睁开千亿市场,莱特维健NMN独家联手香港万宁
  • 佛山市星威体育丨谢绝“毒跑道”,坚持打造高品质的塑胶跑道
  • 西安2024新生儿医保卡规画流程来了,雁塔区参保质料果真
  • 片子《牌杀》《紫金虎之谜》中华夷易近国奇案再现
  • 咖啡店奈何样样 该若何经营
  • 新生儿初次规画就医卡质料整理,2024按流程领电子卡不要钱