当访问大多数的网站时,通常会出现一个小的弹窗,询问“您是否接受该网站的cookie?”
当进入一个域名时,网站会考虑到您的IP、用户代理、以前接受过的cookie以及其它个人数据。此数据将被用来确定为您显示信息的语言、图像的大小以及如何使您在网站上的体验更加个性化。
什么是HTTP Cookie和Web存储?
HTTP cookie是您浏览器中的一种Web存储形式。它们的目的是将从服务器接收的数据存储在一个请求中,并在后续请求中将其发送回服务器。当您在进行在线购物并希望网站记得购物车里的东西时,cookie就是非常方便的。
Web存储是JavaScript在浏览器中存储数据的机制。与cookie一样,Web存储对于每个源(origin)都是独立的。Web存储对服务器是完全不可见的,它提供比cookie更高的存储容量。
Web存储有两种类型:
本地存储:在所有窗口的所有选项卡中都可见,即使在浏览器关闭后也会继续显示。
会话存储:仅在创建它的选项卡中可见,当该选项卡关闭时则会消失。
不同类型的本地Web存储:
IndexedDB:用于在浏览器中存储大量数据,并且可以存储与服务器上任何数据无关的结构化数据。
Evercookies:利用多个存储区域。这些存储区域对用户不太透明,不好被清除,而且很容易查看到设备的用户ID。
Zombie cookie:是删除后重新创建的HTTP cookie。这些cookie可以收集浏览器的历史记录,并且通常会重新生成。
在参与网络抓取操作时,了解cookie和web存储如何运作可以帮助您克服许多传统的阻隔技术。通过使用正确的cookie组合,您可以根据您的每个请求模仿完全不同的用户。
无法被编码的其中之一的是您的IP地址。通过使用正确的代理网络,您可以轻松克服传统的IP阻塞技术。要了解更多关于怎样不会被阻塞技术所屏蔽,您可以使用拥有覆盖全球200多个国家的,高达4千万真实居民住宅用户IP的Luminati代理网络。