Twitter技术问题导致抓取和URL规范化问题

6月27号Google工具条PR更新了一次，然后很多人注意到Twitter首页PR降为零。（Google首页也降到9，不过这不是重点。）7月19号Google居然又更新一次工具条PR。Google更新工具条PR值从一个月一次变到3个月一次，甚至半年一次，所以这次不到一个月就再次更新有点蹊跷。据目前透露的信息，这次更新PR貌似主要就是为了修正Twitter PR值的问题。

今天看到SEL上Vanessa Fox的一篇文章，解释了为什么Twitter的一些技术失误导致Google抓取、URL规范化、PR计算等一系列问题，很值得一读，所以大致翻译一下供读者参考。

为什么不是Google的错误，Google却这么上心，更新了PR呢？猜测原因有二，一是无论任何情况下Twitter首页PR为零，大家肯定是说Google有问题，而不是Twitter有问题，虽然其实确实是Twitter自己造成的。二是，在Google+推出的同时，Google与Twitter合作合同到期了，不能直接通过API抓数据了，这时候Twitter PR降为零，大家恐怕心里会嘀咕，这Google真是过了河马上就拆桥啊，Google不想被这个黑锅。

言归正传。

Google一位发言人回复SEL关于Twitter PR时说：

最近Twitter不断修改它们的robots.txt文件和HTTP头信息，玩得太起劲了，暂时造成Google算法处理Twitter时的URL规范化问题。现在规范化问题差不多解决了，所以我们更新了工具条PR以反映最新数据。Twitter在Google索引库里一直有很高PR，没有惩罚。

所以Vanessa Fox研究了一下Twitter到底有什么robots文件、服务器头信息、URL规范化问题。真是不看不知道，一看吓一跳。顺便提一下，Vanessa Fox是前Google员工，负责网管工具webmaster tools的。

预感这篇帖子会比较长，才刚开始就这么长了…

Vanessa Fox搜了一下自己名字“Vanessa Fox”，结果如下图：

有URL，但没标题，没说明，也就是其实没抓取，只是部分索引。

直接搜Vanessa Fox自己Twitter页面URL的结果是：

为什么出现了大写？URL最后面那个点（.）又是什么东东？到底怎么回事呢？

先来看看Twitter的robots.txt文件

twitter.com和www.twitter.com的robots.txt文件居然是不一样的。twitter.com/robots.txt是这样的：

#Google Search Engine Robot

User-agent: Googlebot

# Crawl-delay: 10 — Googlebot ignores crawl-delay ftl

Allow: /*?*_escaped_fragment_

Disallow: /*?

Disallow: /*/with_friends

#Yahoo! Search Engine Robot

User-Agent: Slurp

Crawl-delay: 1

Disallow: /*?

Disallow: /*/with_friends

#Microsoft Search Engine Robot

User-Agent: msnbot

Disallow: /*?

Disallow: /*/with_friends

# Every bot that might possibly read and respect this file.

User-agent: *

Disallow: /*?

Disallow: /*/with_friends

Disallow: /oauth

Disallow: /1/oauth

www.twitter.com/robots.txt是这样的：

User-agent： *

Disallow： /

也就是说：

某些情况下，带与不带www的两个版本内容可能是不一样的。

Twitter貌似为了规范和网址，禁止搜索引擎爬行www版本。

所以虽然www版本做了301转向到不带www的版本，但Twitter禁止搜索引擎抓www版本，所以搜索引擎蜘蛛看不到那个301啊。杯具啊。

连向Twitter的链接有的是链到www版本，有的是不带www的版本，既然www版本禁止爬行，看不到301，链接权重不能传递，浪费了。

所以在第一个抓图里看到返回的是带www的版本，可能原因是这个版本外链比较多，但Twitter禁止爬行，所以只是部分索引（也就是只有一些来自链接的数据，没有页面本身的内容）。

再来看看302转向

查一下twitter.com/vanessafox这个URL头信息，居然返回302转向到twitter.com/#！/vanessafox。为什么说“居然”呢？请参考301转向和302转向的区别。由于用的是302，权重没有转到twitter.com/#！/vanessafox

而www.twitter.com/vanessafox做了301到twitter.com/vanessafox，当然，原因www版本被屏蔽，链接权重也传递不过来。为什么不从www.twitter.com/vanessafox直接301到twitter.com/#！/vanessafox（这才是Twitter想要的规范化版本）呢？就算要做两次转向，也都要用301嘛，也不能屏蔽www版本嘛。

再来看看Twitter意图的AJAX抓取

Twitter想要的规范化URL是twitter.com/#！/vanessafox，其中的#表示Twitter希望搜索引擎抓取页面AJAX内容。（这里技术问题比较复杂，就不解释了，即将出版的《SEO艺术》有关于AJAX内容和#符号使用的解释，广告一下，呵呵）。

不过由于一系列复杂的转向，可能造成了问题：

Google爬行不带www带#！的URL（twitter.com/#！/vanessafox），然后被转向到twitter.com/_escaped_fragment_/vanessafox

然后Google又被301转向到带www不带#！的版本www.twitter.com/vanessafox

而用户访问时JS将用户又转回到带#！的版本

我读到这里时头脑已经比较凌乱了，总之，Twitter弄了一堆转向，目的是让twitter.com/vanessafox这个看着看着干干净净的版本出现在搜索结果中，但用户点击后又被转到twitter.com/#！/vanessafox。弄这么复杂干什么呢，越复杂越容易出错啊。

Rate Limiting又是什么呢

Twitter页面头信息里有一个rate limiting部分：

HTTP/1.1 200 OK

Date： Mon， 18 Jul 2011 20:48:44 GMT

Server： hi

Status： 200 OK

X-Transaction： 1311022124-32783-45463

X-RateLimit-Limit： 1000

这个limiting又limit（限制）了什么呢？Vanessa Fox不清楚，我就更不知道了，以前没见过这个参数。但limit这个词暗示着是限制了什么和速度有关的东西，要是指抓取速度就惨了。

URL中的大小写字母

最后，如第二个抓图显示的，URL中出现大小写字母，这些都是不同URL，又会造成网址规范化、PR/权重分散、复制内容等等问题。

终于到结尾了。总之，这种技术问题在很多大型网站是经常出现的，看似小问题，其实可能导致严重后果。

本文来源：电脑技术吧[http://www.zhishiwu.com]

规范化更新转向技术问题

小米设置中文版在哪里 | 米家怎么更新版本

小米设置中文版在哪里 | 米家怎么更新版本，设置,中文,教程,选择,下载，1. 米家怎么设置中文版本小米手机英文切换成中文操作步骤如下1）手机里面选择 settings （设置）2）在设置菜单里选择 Additional Settings3）点击 Language & input （语言与输入法）4）点击 Language（语言）5）最后点击【中文】就可以2. 米家怎么设置中文版...

设置中文教程
绝地求生鼠标宏设置教程 | 绝地求生鼠标宏设置文件

绝地求生鼠标宏设置教程 | 绝地求生鼠标宏设置文件，鼠标,设置,教程,文件,低于，1. 绝地求生鼠标宏如何设置和平精英牧马人鼠标宏设置教程，如下：1、首先我们要确定我们的电脑是否可以运行得动和平精英，这就需要我们下载一个比较主流的PC端手游模拟器，并且我们的电脑最好显卡不要低于GTX750TI，CPU不要低于I5四核，这样才能更好地使用鼠标宏。2、其次我们要确定我们的鼠标具有宏的功能，因为不是所有的...

鼠标设置教程
派派新版装备怎么设置 | 派派如何更新到最新版本

派派新版装备怎么设置 | 派派如何更新到最新版本，设置,推送,选择,同城,证书，1. 新版派派设置在哪里派派交友软件是不能改同城地址的你在哪里登入显示的就是哪里，可以设置你的工作地点和常活动地点在设置里2. 派派内测版设置在哪里派派内测版的势力证书怎么使用，派派内测版的势力证书你打开船舰，船舰旁边有个物质，选择势力证书它就会出现使用或者合成两个字，你可以选择合成中级的势力证书也可以使用。使用势力...

设置推送选择
ipad更新连接电脑怎么更新 | ipad链接电脑怎么更新软

ipad更新连接电脑怎么更新 | ipad链接电脑怎么更新软件下载，连接,链接,软件下载,数据线,界面，1. ipad链接电脑怎么更新软件1、找出苹果ipad air数据线，将苹果ipad air用数据线与电脑连接。2、打开电脑界面，找到iTunes 软件打开，点击iTunes 软件右上方的ipad按钮。3、等待 iTunes 连接pad之后，在当前界面，点击更新。4、等待苹果ipad ai设备可用更新后，按照系统提示下...

连接链接软件下载
mac图片放大缩小快捷键 | mac文件缩小放大快捷键是哪

mac图片放大缩小快捷键 | mac文件缩小放大快捷键是哪个按键，快捷键,放大缩小,文件,缩小,工具，1. mac文件缩小放大快捷键是哪个首先按下键盘上的【Shift】键,将电脑切换到英文输入法;按PS的工具栏上的【画笔】按钮,或者使用快捷键【B】,调出【画笔工具】;点击画笔工具,在PS的画布上,鼠标的光标会变成了画笔的圆形。直接按住键盘上的左方括号键【。还可以通过按住【Alt】键的同时,按住鼠标右键,向左(减少画笔直...

快捷键放大缩小文件
苹果电脑的微信怎么下载 | 苹果电脑微信文件怎么下载

苹果电脑的微信怎么下载 | 苹果电脑微信文件怎么下载到桌面，下载,文件,文件下载,桌面,选取，1. 苹果电脑微信文件怎么下载没有其它苹果怎么下载微信发过来的软件，只有以下答案。苹果手机下载微信发来的软件操作步骤：首先，在手机的主屏幕，点击打开应用程序“设置”图标，进入应用程序的详细面板。2、接下来，到了设置的详细面板之后，选取“通用”一栏，点击进入详细的面板。3、到了通用的详细面板之后，选取“描述文件与设备管理...

下载文件文件下载
怎样关掉更新提示软件 | 怎样关掉更新提示声音

怎样关掉更新提示软件 | 怎样关掉更新提示声音，提示,设置,系统,取消,路径，1. 怎样关掉更新提示您好，当手机检测到新版本时，手机桌面“系统更新”上会出现提示图标，此提示无法取消（部分机型系统更新更改了路径，新路径：手机设置--系统更新，若手机检测有新版本时，桌面“设置”图标上会有提示，此提示也同样无法取消）。如果没有提示更新，是不需要更新的2. 怎么关掉更新提示方法/步骤:1.在华为手机上选...

提示设置系统
ipad全民k歌怎么导出mp3 | ipad全民k歌怎么导出文件

ipad全民k歌怎么导出mp3 | ipad全民k歌怎么导出文件，导出文件,默认,系统,文件,全民，1. ipad全民k歌导出到电脑里打开软件，打开自己的歌曲然后点击下载就可以2. 如何将平板上全民k歌的歌曲导出通过手机QQ“我的文件”可以导出手机全民K歌的本地歌曲。 1、全民K歌上录制、伴奏的歌曲，只有在已保存到本地录音中，但未发布的情况下，系统会默认保存歌曲文件在手机SD卡中。这样就可以导出自己录制的歌曲文件，...

导出文件默认系统
怎么把文件传输到苹果手机 | 怎么把文件传输到另一个

怎么把文件传输到苹果手机 | 怎么把文件传输到另一个手机上，文件传输,设置,百度网盘,状态,运行，1. 怎么把文件传输到icloud1、在iPhone上，通过“设置>iCloud>储存与备份”启用，只要设备处于以下状态，每天就会运行备份：通过Wi-Fi连接到互联网连接到电源锁定屏幕2，另外，只要从“设置>iCloud>储存与备份”中选取“立即备份”，通过Wi-Fi将设备连接到互联网，就可以手...

文件传输设置百度网盘
电脑共享文件快捷键 | 电脑共享快捷方式怎么删除

电脑共享文件快捷键 | 电脑共享快捷方式怎么删除，快捷方式,快捷键,共享文件,电脑网络,桌面，1. 电脑共享快捷方式操作步骤：首先，打开共享屏幕；选择“共享桌面”后，可在会议框上方找到“远程控制”按钮；点击“远程控制”按钮，邀请指定参会成员控制自己的屏幕，即可暂时将电脑屏幕的控制权交给对方。2. 电脑网络共享快捷键1、使用热键进行开启笔记本上面都有一个红色的fn键，这个就是所谓的功能键，配合f1到f12上面的红...

快捷方式快捷键共享文件

mac的文件夹在哪里 | Mac的文件夹在哪里

mac的文件夹在哪里 | Mac的文件夹在哪里，文件,地址,文件地址,桌面,选项，1. mac文件夹地址答:mac电脑的桌面文件夹固定位置。1.桌面看到文件夹都在右边;2.右键打开快捷菜单,点击查看显示选项;3.看到最下面是排序方式;4.点击打开,这个红色框框里的选项。不论选哪一个,桌面的文件还是会靠右边顺序摆放;这就是mac电脑的桌面文件夹固定位置的具体方法。2. mac的文件地址1、打开系统偏好...

文件地址文件地址
es文件浏览器删除了可以恢复吗 | es文件浏览器隐藏的

es文件浏览器删除了可以恢复吗 | es文件浏览器隐藏的文件恢复，文件浏览器,删除,文件恢复,恢复,文件，1. es文件浏览器删除的文件恢复你可以打开清理大师里的隐私粉碎，打开扫描出删除的文件选择恢复就可以了。2. es浏览器隐藏文件恢复如果是它介绍中的用128加密的话就麻烦了。加密后该文件为独立存在，用你以前用过的密码全部试下，加密最好用以前用过现在又没在用的密码，这样容易记住。祝你成功 3. es文件浏览器删除了可...

文件浏览器删除文件恢复
es共享文件夹进不去 | es文件共享怎么设置

es共享文件夹进不去 | es文件共享怎么设置，共享文件夹,共享文件,设置,文件浏览器,文件共享，1. es共享文件夹打开你的ES浏览器，主界面中有一个选项是备份，你可以把你的应用备份成apk保存。发送文件的时候，选择分享→ES快传，然后根据他提示操作就可以了。2. es文件管理器共享文件es文件浏览器要怎么访问win10的共享？es文件浏览器要访问win10的共享方法：文件夹-属性-共享-高级共享-共享此文件-设...

共享文件夹共享文件设置
电脑qq怎么发送文件夹到手机上 | 电脑qq怎么发送文件

电脑qq怎么发送文件夹到手机上 | 电脑qq怎么发送文件夹给别人邮箱，离线,上传,支持,压缩包,文件，1. 电脑上QQ怎么发送文件夹文件夹不能发送是因为文件夹不是文件,它没有文件信息,而是一个存放文件的东西。不仅QQ无法发送文件夹,连邮箱附件、网络硬盘等等也不支持文件夹的上传,都是因为文件夹不是文件。可是把文件夹压缩成一个压缩包之后,就变成一个文件了,有了文件的特性,可以正常发送。所以想要发送文件夹,先把它打包。文件夹...

离线上传支持
怎么设置不更新系统 | 怎么设置不更新windows

怎么设置不更新系统 | 怎么设置不更新windows，设置,系统,方法,暂停,图标，1. 怎么设置不更新win10Win11系统更新暂停方法教程。使用Win10的用户，更新到Win11后，想暂时不更新Win11，就使用当前的版本，但是不知道在哪里暂停系统更新。 1、首先，点击任务栏上的开始图标； 2、打开的应用中，点击打开设置； 3、Windows 设置(Win+i)窗口，左侧点击Windows 更新...

设置系统方法
怎么在电脑上删除聊天记录图片文件 | 怎样删除聊天记

怎么在电脑上删除聊天记录图片文件 | 怎样删除聊天记录中的图片，删除,文件,工具,选择,照片，1. 怎么在电脑上删除聊天记录图片打开pc端的微信app，找到聊天界面，然后选择文件记录，点击删除即可。2. 如何删除聊天记录里的图片以下的几种删除微信聊天记录里图片的方法。工具/原料手机微信软件方法/步骤第一种方法直接打开微信。找到你和别人的聊天记录的图片，然后长按图片---选择更多按钮---在需要删除的图片上打钩-...

删除文件工具
苹果手机更新不提示怎么设置 | 如何设置苹果更新不提

苹果手机更新不提示怎么设置 | 如何设置苹果更新不提示消息，提示,设置,消息,升级,选择，1. 如何设置苹果更新不提示可能是没有满足升级要求或者手机已经越狱，升级前最好是关闭手机的查找我的iphone功能以及锁屏功能，升级方法及要求如下：1、OTA升级：打开手机的设置—通用—软件更新，选择更新系统即可（需要在wifi情况下，且保持电量在60%左右）。2、itunes升级：电脑下载一个最新版本的itunes，...

提示设置消息
天猫魔盒怎么设置首页 | 天猫魔盒打开系统设置却看不

天猫魔盒怎么设置首页 | 天猫魔盒打开系统设置却看不到运行内存，系统设置,设置,运行,内存,首页，1. 天猫魔盒怎么打开系统设置1、将天猫魔盒与电脑相连接，进入天猫界面找到“系统设置”选项，进入后选择“通用设置”。2、进入“通用设置”找到“设备名称”，在“设备名称”中会看到“我的MagicBox1S”已经默认勾选上了，可以通过遥控器的上下键选择预设的设备名称，也可以选择“自定义”项，进入自定义设备名称的界面。3、按...

系统设置设置运行
windows10开机更新跳过 | win 10新电脑开机跳过micros

windows10开机更新跳过 | win 10新电脑开机跳过microsoft，激活,设置,快捷键,登录,取消，1. win10新电脑开机跳过microsoft因为windows系统的开发者是microsoft,也就是微软。所以每次开机时都要登录也有取消的方法,方法如下:win 10不是每次开机都必须登录microsoft账户，所以为开机要登录microsoft。2. win10新电脑开机跳过microsoft teamsout...

激活设置快捷键
怎样快捷全选文件 | 如何全选文件快捷键设置

怎样快捷全选文件 | 如何全选文件快捷键设置，全选,文件,快捷键,设置,光标，1. 如何全选文件快捷键1、全选的快捷键：Ctrl+A。这个方法适用于当前没有特意选中特定区域，可以快速全选当前页面上的图片、文字或者文件夹。2、光标之后全选：Ctrl + Shift + End。对于具体的文字可以将光标移动到需要全选文字的开头，之后按下这个快捷键。3、光标之前全选：Ctrl + Shift + Ho...

全选文件快捷键

Twitter技术问题导致抓取和URL规范化问题

相关推荐