如何挖掘网络资源[3]:解答 Google 搜索的常见问题(FAQs)

2013-03-22 原文 #编程随想 的其它文章

如何挖掘网络资源[3]:解答 Google 搜索的常见问题(FAQs)

按照原定计划,本系列的第三篇应该聊聊“搜索关键字的技巧”。但是考虑到经常有人来询问关于 Google 搜索的一些问题,今天先整理一个 FAQ 统一回答一下。以后再有人问,就让他们直接来看此帖 :)


★如何禁用“国别重定向”?


(这个问题是问的人最多的)
Google 通常会根据“发起搜索的 IP 地址”来进行“国别重定向”。
比如:天朝的网民不翻墙直接访问 Google 搜索,就会被重定向到 Google 的香港站点;
比如:你通过 I2P 翻墙访问 Google 搜索,可能会被重定德国的 Google——因为 I2P 的出口节点在德国。
要想禁止国别重定向,可以点击如下网址,然后 Google 会在你本地保存一个 cookie 设置,下次再访问,就不会被重定向了。
http://www.google.com/ncr


★为啥要使用【加密】搜索?


Google 大概是在 2011 年开始提供基于 HTTPS 的加密搜索。在那之前,主流的搜索引擎都是明文搜索的。
为啥 Google 要提供 HTTPS 的加密搜索捏?主要目的是:避免你的搜索行为被别人监控。

◇明文搜索的隐患


那么,什么情况下,你的搜索行为会被监控捏?主要有如下几种可能性(注意,是【可能性】,不是必然会发生的):
1. 在公司上网
如果你所在的公司部署了上网审计,或者你公司的网管有偷窥癖。那么你在网上进行 明文的 搜索(包括 Google、Baidu、Bing 等),有可能会被看到。
2. 在网吧上网
如果你去网吧上网,道理同上。
3. 使用公共 wifi 热点
如果你到公共场合,使用公共的 WIFI 上网(比如某些咖啡吧提供的免费 WIFI),也存在类似隐患。道理同上。
4. 使用翻墙软件
在天朝上网,翻墙已经是越来越普及的一项运动。要翻墙,通常需要翻墙软件来帮忙。用了翻墙软件之后,你的上网数据都要流经翻墙的服务器(包括代理服务器、VPN 服务器)。那么,一旦翻墙服务器监控你的网络流量,就有可能知道你的上网行为。

◇加密搜索的好处


先表扬一下:在【主流的】搜索引擎中,Google 最先提供了全程 HTTPS 加密。
用了加密搜索之后,即使有人监控你的上网流量(术语叫“网络嗅探”),也只能知道你在用搜索引擎;以下几项内容,监控者是【无法】知道滴。
1. 你在搜索引擎上搜了哪些关键字,监控者是看不到滴
2. 搜索引擎返回给你的查询结果,监控者是看不到滴

提醒一下:
如果你在 Google 的搜索结果中点击某个网页,并且那个网页是明文的(网址以 http:// 开头);那么,你点击的这个网页的内容,还是可能被监控者看到。


★两个加密搜索域名有啥差异?


Google 目前有两个加密搜索的网址,网址分别是:
https://encrypted.google.com/
https://www.google.com/
可能很多人不清楚这两个域名有啥区别。好奇的同学可以看 Google 官方的帮助(在“ 这里 ”)。
总的来说, https://encrypted.google.com/ https://www.google.com/ 略为安全一些。


★加密搜索能规避浏览器的监控吗?


答案是:不能!
加密搜索只能规避网络流量的监控(网络嗅探),但是无法防止浏览器窥探你的上网行为。

拿老流氓 360 来举例:
前几年 360 浏览器就被曝光过严重的用户隐私问题。它的行为很恶劣,会把用户访问的每一个网址都收集下来,然后发送到 360 自己的服务器上。这种情况下,加密搜索是帮不了你的。因为浏览器可以直接拿到地址栏里面的内容(也就是网址)。如果你使用搜索引擎,那么,根据相应的网址就可以判断出你输入了哪些搜索关键字。

所以,俺顺便再啰嗦一句:
别用那帮国产的浏览器。不论 360 还是腾讯,都不是啥好鸟。360 尤其恶心,整天嚷嚷着要维护用户利益,背地里不知道干了多少龌龊事情。


★Google 的网页缓存(快照)有啥用处?


很多网友都知道,搜索引擎的缓存,可以帮你看到已经被删除的页面。其实捏,搜索引擎的缓存还有如下好处。

◇支持 HTTPS


刚才介绍了加密搜索的好处,但是也提到了一点:如果你点击某个搜索结果的页面,并且该页面是明文的,那么你的上网行为还是有可能被监控。换句话说:如果有人监控你,可以知道你点开了哪个页面。
如何避免这种情况捏?办法之一就是:访问【加密的】搜索引擎缓存(快照)。目前 Google 的缓存是支持 HTTPS 加密的。所以,你可以通过 HTTPS 方式访问某个网页的缓存,就可以部分降低(但不是完全避免)被监控的风险。
为啥不是“完全避免”捏?因为 Google 的缓存,只是保存了页面本身的 HTML 内容。它并不保存页面上附加的网页元素(比如:图片、JS、CSS)。如果某个网页元素是通过 HTTP 明文传输的,那么,当你打开这个页面的缓存时,这些明文传输的内容还是会被监控到。
拿俺博客举个例子:
你可以用加密方式访问俺博客首页的缓存。但是因为俺博客上有图片(右上方的 Logo),而且这个图片是明文传输的。这种情况下,虽然缓存本身是 HTTPS,但 HTTP 明文传输的图片,还是会被监控者看到。并且因为这张图片是俺博客的 Logo,那么监控者就可以猜测你在访问“编程随想”这个博客。但是,网页的 HTML 文本(也就是网页的文字内容)是 HTTPS 加密的,所以监控者比较难判断你在看哪一篇博文。
要想解决此问题,有一个替代方法——仅查看缓存的“纯文字版”(下面会提到)。

◇查看有风险的网页(避免网页挂马)


Google 在缓存网页的时候,会检查页面上是否有恶意代码。这样有一个额外的好处——规避网页上的挂马。另外,Google 的缓存有两种:一个是完全版,另一个是纯文字版。完全版基本上是页面的原貌,而纯文字版会滤掉网页的附加元素(JavaScript 脚本、CSS 样式表)。显然,“纯文字版”比“完全版”更加安全。
举个“纯文字版”的使用场景:
时不时会有某读者给俺来信,说某某网页上的内容很有趣,并附上网址。通常情况下,俺是不会直接去点这个网址的。
俺的做法是:在 Google 缓存里面查看该网页的(纯文字版)。这样的好处在于:万一这个网址是个陷阱,也不容易中招。


★如何快速打开某页面的 Google 缓存?


◇在搜索框输入网址


在 Google 的搜索框中输入:
cache:你要看的网址
举例:
本系列的目录页,网址是: https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html
你只需在 Google 搜索框 输入如下,即可看到该页面的缓存:
cache:https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html
上述方式看到的是缓存的“完全版”,在页面上方有一个链接,可以让你切换到“纯文字版”。

◇在地址栏输入网址


如果你想用缓存的方式,查看某个有风险的网页。这时候你自然想 直接打开 “纯文字版”,那么可以在 浏览器地址栏 输入如下:
https://webcache.googleusercontent.com/search?strip=1&q=cache:
然后把你要看的网址,追加到上述地址后面,变成这样
https://webcache.googleusercontent.com/search?strip=1&q=cache:https://program-think.blogspot.com/2013/03/internet-resource-discovery-0.html

上述网址中的 strip=1 表示“纯文字版”,滤掉页面的附加元素(JavaScript、CSS、等);如果改为 strip=0 就表示“完全版”,不滤掉页面的附加元素。
提醒一下,有些网站的功能非常依赖于 JavaScript 和 CSS,用纯文字版的缓存,可能会显示不正常。

◇使用浏览器书签


上述那串网址很长,不好记。如果你用的是 Firefox,可以添加一个带变量的书签,就可以做到快速打开 Google 缓存。具体做法如下:
在 Firefox 书签菜单或书签工具栏上点右键,选“新建书签”,会弹出创建书签的对话框。
名称随便写一个,地址用如下两个之一。(这两个网址只有 strip 部分有差异,刚才解释过这两者的不同)

“纯文字版”的缓存
https://webcache.googleusercontent.com/search?strip=1&q=cache:%s

“完全版”的缓存
https://webcache.googleusercontent.com/search?strip=0&q=cache:%s

在书签的“关键字”一栏,写 cache (如果你喜欢,也可以用其它单词),点“确定”按钮,就 OK 了。
使用举例:
如果你想看俺博客主页的 Google 缓存,只需要在浏览器地址栏输入
cache https://program-think.blogspot.com/
Firefox 就会自动转向到如下
https://webcache.googleusercontent.com/search?strip=1&q=cache:https://program-think.blogspot.com/
就可以显示出俺博客主页的缓存。


★如何使用 Tor 访问 Google 搜索?


(如果你平时不用 Tor,请忽略本章节)

◇先描述一下问题


经过俺的普及,博客的读者里面,有越来越多人开始用 Tor 来隐匿踪迹。对经常用 Tor 上网的同学,多半会碰到一个问题——Google 搜索经常会报错,或者经常让你输入识别码。为啥会这样捏?
因为如今用 Tor 的网友越来越多(不仅是天朝,全世界都是)。但是捏,Tor 在全球的【出口节点】,数量很有限。这就造成一个后果——每一个出口节点都会频繁地发起对 Google 的搜索请求。
对 Google 来说,当某个 IP 非常频繁地请求 Google 的搜索页面,Google 就会怀疑该 IP 的请求不是人类发起的,而是由软件自动发起的。所以 Google 会跳出一个页面,让你输入一串人类识别码(注册邮箱的时候,通常也会让你输入这种识别码)。如果某个 IP 的请求频率超过一定的限度,Google 忍无可忍,直接给出一个报错页面(连输入识别码的机会都不给)。

◇解决方法之“浏览器的代理扩展”


浏览器的代理扩展具有这样的功能:你可以通过配置,指定某种特征的网址通过某个代理来打开。
常见的代理扩展有: FoxyProxy
在天朝,使用 Tor 的同学多半是通过双重代理(关于如何搞 Tor 的多重代理,俺在“ 这里 ”有介绍)。也就是说,Tor 是通过其它翻墙工具联网的。为了叙述方便,把“其它翻墙工具”称之为 XXX。这里的 XXX 可以是自由门、无界、世界通、等等。
这种情况下,你的电脑同时存在两个代理的端口,一个是 Tor 的端口,一个是 XXX 的端口。
如果你安装了代理扩展,你可以配置一下,让 https://encrypted.google.com/ 开头的网址都通过 XXX 的端口,而其它网址通过 Tor 的端口。这样就可以避免从 Tor 的出口节点访问 Google 搜索功能。

某些安全意识比较高的网友可能会担心:这样一来,访问 Google 就只经过一重代理,会不会有隐患?
俺个人觉得:
用基于 Tor 的双重代理来隐匿自己的公网 IP,主要是为了对付国内的网站——比方说你要在国内网站发表政治敏感言论。
对于 Google 的搜索请求,一重代理就够了,不需要双重代理。

◇解决方法之“StartPage”


假如你对安全性具有偏执狂,死活不肯用单重代理。或者你嫌浏览器的代理扩展太麻烦,懒得去配置。那么还有一个办法:直接使用 StartPage 进行搜索。
这个 StartPage 相当于是一个专门为 Google 定制的 Web 前端。使用 StartPage 进行搜索,你的浏览器先把搜索请求提交给 StartPage 的服务器,然后 StartPage 的服务器再转发给 Google 服务器。如此一来,Google 看到的搜索是来自于 StartPage 而不是来自于 Tor 出口节点。
关于 StartPage 本身是否会有隐私问题,待会儿后面还会提到。


★如何避免 Google 搜索的隐私问题?


(如果你只是普通网民,不是敏感人士,请跳过本章节)

◇先描述一下问题


大部分 Google 的粉丝,想必都注册了 Gmail 帐号,并且经常使用 Gmail。如此一来,当你登录 Gmail 的时候,Google 会在你的浏览器中保存一些 cookie。
通常来说,这些 cookie 是为了给用户带来方便的:
比如你下一次登录 Gmail,就不需要再输入用户名,因为用户名已经保存在 cookie 里面了。
比如你在 Google 上搜索,Google 通过 cookie 就知道你的身份,然后会分析你以前的搜索历史,智能地判断哪些内容你所偏好的。然后这些你偏好的内容,在搜索结果的排名就会略微靠前。
对于大部分网友而言,cookie 导致的身份识别,问题不大。因为 Google 相对于国内的某些流氓公司而言,是比较靠谱的。他应该不会拿你的个人隐私去卖钱的。所以,就算让 Google 知道了你的搜索历史,也无所谓。
但是,少数 安全性要求非常高 的网友,他们可能不希望让 Google 了解自己的搜索历史。打个比方:Google 可能会被骇客入侵,然后入侵者拿到了 Google 的某些用户资料,那么自己的隐私可能会被曝光。
这种风险不是俺凭空想像滴,现实生活中发生过真实的案例—— 2009年的极光行动 ,骇客企图入侵 Google 的 Gmail 系统,主要攻击目标是“中国政治异议人士的邮箱”。(从当时的迹象看,攻击者显然是 天朝的御用骇客 。此次事件直接导致 Google 退出大陆)
所以,如果你是一个敏感人士(比如:政治异议人士、维权人士...),并且你对隐私方面具有很高的要求,可以通过下面介绍的方面,让 Google 无法知道你的搜索历史。

◇“不彻底”的解决方法——关闭 Web History


当你访问 https://history.google.com/ 并登录了帐号之后,可以通过界面配置,关闭“Web History”功能。关闭了之后,你就看不到自己的历史搜索记录了。
但是 ,你看不到了,不等于它就不存在了。有可能用户已经关闭了 Web History,但是 Google 依然在记录用户的搜索历史,只是不显示给你看而已。
所以, 这个解决办法是【不彻底】的 。根本的解决之道在于:要让 Google 不知道你的身份。但是很多时候,咱们又需要登录才能用 Google 的很多服务(比如 Gmail)。怎么解决这个矛盾捏,请看如下几个【彻底解决】之道。

◇解决方法之“多浏览器”


这是最简单的解决方法——只需安装两款不同的浏览器(这两款最好是【不同内核】的)。
浏览器 A
用来登录 Gmail,然后在该浏览器上使用 Google 那些【需要登录】的服务(比如:Gmail、Google Plus、Google Voice ...)。
浏览器 B
不登录 Google 的帐号,然后在这个浏览器上进行 Google 搜索。

◇解决方法之“浏览器多实例”


有些同学比较挑剔,就喜欢某款浏览器,非它不用。那么,你可以尝试一下“多实例”的玩法。
当浏览器配置为多实例,实例之间是完全隔离的——会使用独立的插件、扩展、页面缓存、cookie、等等。因此,咱们可以利用浏览器多实例之间的隔离性,创建两个实例。一个实例用来登录 Google 帐号,使用那些【需要登录】的服务(比如:Gmail、Google Plus、Google Voice ...);另一个实例不登录,只是用来搜索。
目前主流的浏览器中,Firefox 和 Chrome 都支持多实例。关于这两款浏览器如何配置“多实例”,请看俺之前的博文《 如何防止黑客入侵[6]:Web相关的防范 》,此处不再啰嗦。(提醒一下:Chrome 的“多用户”功能跟“多实例”是两码事儿。即使你配置了多用户,还是在同一个“实例”里面)

◇解决方法之“StartPage”


聪明的同学,刚才看过 StartPage 的介绍之后,多半猜到这个工具也可以用来进行匿名搜索。
使用 StartPage 进行搜索,虽然最终你的搜索请求还是发送到 Google,但是 Google 看到的搜索请求是从 StartPage 的服务器发出。也就是说,Google 不知道是你本人在进行搜索。

可能有的同学会担心——StartPage 本身是否会有隐私问题?
俺个人觉得:
首先,StartPage 无需注册,所以它没法通过登录帐号来进行身份识别
其次,如果你使用翻墙方式访问,那 StartPage 就无法通过公网 IP 来对你进行定位
最后,StartPage 默认是不保存 cookie 的(俺测试过)。除非你在它页面上点 Setting 按钮进行了某些设置(比如每页显示多少条搜索结果),它才会保存 cookie

所以,StartPage 也不失为解决方法之一。


★结尾


今天先聊到这里。如果列位看官对于 Google 搜索还有其它的问题,欢迎 到本文留言 。如果某些问题具有普遍性,俺会补充到本文中。


回到本系列的目录
版权声明
本博客所有的原创文章,作者皆保留版权。转载必须包含本声明,保持本文完整,并以超链接形式注明作者 编程随想 和本文原始地址:
https://program-think.blogspot.com/2013/03/internet-resource-discovery-3.html

文章版权归原作者所有。
二维码分享本站