Fork me on GitHub

http/https/socks5代理

代理IP按照隐藏代理用户级别划分

代理IP分为透明代理IP、匿名代理IP和高匿代理IP。

  • 透明代理IP,对方知道你使用的代理IP也看得到你的真实IP;
  • 匿名代理IP,对方知道你使用了代理IP,但是无法直接看到你真实IP地址;当然通过一些手段还是可以看到的;
  • 高匿代理IP,不改变客户机的请求,在服务器看来就是有个真正的客户浏览器在访问它,此时客户的真实IP是隐藏的,服务器端更不会认为我们使用了代理。

如何分辨一个代理IP是否高级匿名代理呢?

对于老鸟来说,要想识别IP代理的等级并不复杂,只需要通过脚本程序(如ASP PHP JSP等)即可在服务器端识别出来,识别的办法就是抓数据包里的相关字段:REMOTE_ADDR,HTTP_VIA以及HTTP_X_FORWARDED_FOR。

  • 透明代理
    • REMOTE_ADDR = Proxy IP
    • HTTP_VIA = Proxy IP
    • HTTP_X_FORWARDED_FOR = Your IP
  • 普通匿名代理
    • REMOTE_ADDR = proxy IP
    • HTTP_VIA = proxy IP
    • HTTP_X_FORWARDED_FOR = proxy IP
  • 高匿代理
    • REMOTE_ADDR = Proxy IP
    • HTTP_VIA = not determined
    • HTTP_X_FORWARDED_FOR = not determined
      当然,对于新手来说,可能有一定的困难,需要借助代理IP工具去分辨。

代理IP应用场景

  • 当你发现某个网站必须要本地人才能注册访问时,你是否很郁闷;
  • 当你参加了一个活动,想要投很多票的时候,发现一天只能一票,难道就不能多投几票吗;
  • 当你想访问一些特殊的网站时,发现没有权限,是否很纠结;
  • 当你想注册一个网站时,被告知24小时一个IP只能注册一次,是否很纳闷……

总之,在互联网这个行业待久了,你会发现有很多时候非常的无奈,当老板指责你时,你能说“我能怎么办呢,我也很绝望啊”这句话吗?

其实,这些问题并不是不能解决,只需要使用代理IP就可以完美的避开这些雷区。
当遇到地区限制时,找一个该地区的代理IP,用浏览器设置下,或者放在相应的软件里,就可以了;
当要投很多票的时候,完全可以找很多代理IP,投一票切换一个代理IP,第一名还会远吗。
有了代理IP,这些问题都不再是问题……
总结:

  • 突破网站限制
  • 突破地域限制
  • 隐藏真实身份
  • 提高下载速度

什么是代理IP的响应速度和稳定性?

选择代理IP时经常看到两个参数:稳定时长和响应速度。那么,什么是代理IP的响应速度,什么是代理IP的稳定时长呢?

代理IP的响应速度是指我们用这个代理去访问百度首页所需要的时间。响应速度根据使用代理的机器所在的地理位置不同而有差异。响应时间越短,速度越快!

代理IP的稳定时长顾名思义就是代理IP的有效时间有多长,比如动态高质量代理,稳定时长是2分钟,也就是说,2分钟后,代理IP就会失效,不能再用了,需要重新提取;普通代理时长几分钟、几小时、几天,甚至更长,因服务器扫描,IP存活时间不定,可以筛选。

代理IP按用途可以分为哪几类

代理IP按用途分类可以分哪几类呢?下面我们一起来看看,有些我们经常用,有些非常少用。

  • Http代理:最常用的代理,代理客户机的http访问,主要代理浏览器访问网页,它的端口一般为80、8080、3128等。
  • SSL代理也叫HTTPS代理,支持最高128位加密强度的http代理,可以作为访问加密网站的代理。加密网站是指以https//开始的网站。ssl的标准端口为443。
  • HTTP CONNECT代理:允许用户建立TCP连接到任何端口的代理服务器,这种代理不仅可用于HTTP,还包括FTP、IRC、RM流服务等。
  • FTP代理:代理客户机上的ftp软件访问ftp服务器,其端口一般为21、2121。
  • POP3代理:代理客户机上的邮件软件用pop3方式收邮件,其端口一般为110。
  • Telnet代理:能够代理通信机的telnet,用于远程控制,入侵时经常使用。其端口一般为23。
  • Socks代理:是全能代理,就像有很多跳线的转接板,它只是简单地将一端的系统连接到另外一端。支持多种协议,包括http、ftp请求及其它类型的请求。它分socks 4 和socks 5两种类型,socks 4只支持TCP协议而socks 5支持TCP/UDP协议,还支持各种身份验证机制等协议。其标准端口为1080。
  • TUNNEL代理:经HTTPTunnet程序转换的数据包封装成http请求(Request)来穿透防火墙,允许利用HTTP服务器做任何TCP可以做的事情,功能相当于Socks5。
  • 文献代理:可以用来查询数据库的代理,通过这些代理,可以获得互联网的相关科研学术的数据库资源,例如查询Sciencedirect网站(简称SD)、Academic Press、IEEE,SPRINGER等数据库。
  • 教育网代理:指学术教育机构局域网通过特定的代理服务器可使无出国权限或无访问某IP段权限的计算机访问相关资源。
  • 跳板代理:应用于跳板程序,可以看作一种具有动态加密的特殊socks5代理,,也可直接用于PSD软件。其端口一般为1813。
  • Ssso代理:代理客户机上的ssso程序访问远程网站,具有SSL加密强度的超级代理,支持socks。
  • Flat代理:代理客户机上的flatsurfer程序访问远程网站,具有高强度加密数据流的特殊代理,支持socks,最大可设置三次级联,可以设置穿越代理。其端口一般为6700。
  • SoftE代理:代理客户机上的SoftEther程序访问远程网站,应用虚拟集线器HUB和虚拟网卡技术,具备VPN功能及多种认证方式的代理,符合https协议。

浏览器切换代理软件

火狐浏览器:AutoProxy
Chrome浏览器: SwitchyOmega

常见反爬虫策略

抓取稍微正规一点的网站,都会有反爬虫的制约。反爬虫主要有以下几种方式:

  • 通过UA判断。这是最低级的判断,一般反爬虫不会用这个做唯一判断,因为反反爬虫非常容易,直接随机UA即可解决。
  • 通过单IP频繁访问判断。这个判断简单,而且反爬虫比较费力,反爬虫绝佳方案。需采用多IP抓取。
  • 通过Cookie判断,例如通过会员制账号密码登陆,判断单账号短时间抓取次数判断。这个反爬虫也很费力。需采用多账号抓取。
  • 动态页面加载。这个考验前端工程师的功底,如果前端写的好,各种JS判断,各种逻辑,像百度、淘宝一样,post登录很难。较好的方法,但是对于大牛,还是防不胜防。反爬虫多采用渲染浏览器抓取,效率低下。
  • 采用验证码。这里要么是登录的时候有验证码,要么是判断是爬虫时,不封IP,而是采用验证码验证,例如链家网。验证码是反爬虫性价比较高的方案。反反爬虫一般接入OCR验证码识别平台或者人工打码平台,亦或者利用Tesseract OCR识别,亦或者采用神经网络训练识别验证码等。

======================================================
希望各位朋友支持一下

本文作者:dongsheng
本文地址https://mds1455975151.github.io/archives/7ac04cb9.html
版权声明:转载请注明出处!

坚持技术分享,您的支持将鼓励我继续创作!