网络爬虫系列的第三篇,使用proxyhandler处理器伪装IP


ProxyHandler处理器介绍

IP地址,是网际协议中用于标识发送或接收数据报的设备的一串数字[1],很多网站会检测 某一段时间某个IP的访问次数,如果访问过分频繁,可能会限制该IP的访问,所以我们需要借助某种方式来伪装我们的IP,使爬虫程序的正常运行。
伪装IP的一种有效方式就是使用代理,其基本原理如下图:

proxy-process

使用代理服务器访问网站,网站检测到的是代理服务器的IP,在代理服务器IP被禁用后可以更换新的代理服务器,进而可以实现伪装IP的目的。