全自动非登陆非API新浪微博爬虫2.0

小鱼啊周三二月 08, 2017 2:45 pm

本文主要介绍使用代理IP抓取新浪博客，主要分为3部分：
1. 代理IP实现全自动的思路，以及获得有效代理IP的方法。
2. jsou解析html文件和其他代码。
3. UI.

我们会把工程下所有代码放出来，文章看完，必要的jar包导入，就可以实现全自动抓取微博了。根据前两篇文章的代码，将其写成图形界面工具，我们觉得还有意思的。感兴趣的朋友可以下载来用用看。

其实很贱的，而且发现这样的方法完全是个巧合。下面我们会比较具体地描述，废话不说了.
假设你已经看过我们的这篇文章了：新浪微博爬虫——非登陆非API半自动爬虫
那么在半自动的方法下，每请求30次就需要输入一次校验码。网易识别你的同一个IP在短时间内连续请求了30次，所以会以校验码的形式来防止你用程序爬取数据。那么，一个很自然的思路就是当我们每请求30次后切换另一个可用的IP不就可以了呀？具体真的可行么？目前我们做过的测试得到的结论是，这样是可行的。取决于你用的网页代理IP。在这里说一下校验代理IP是否可用的方法。当你从一些代理IP网站（比如我们用的这个“http://www.xicidaili.com/”）
获得一大堆代理IP后，用httpclient的一些方法（下一篇我们会给出），使用这些IP来请求查看IP的网址，
比如这个“http://www.xicidaili.com”，页面会显示“您的IP是：[166.111.***.xx] 来自：北京市 xx大学”，这样你就能校验HTTP代理IP是否可用了。
但是，我们并没有采用这个每隔30次请求主动切换有效代理IP的方法。因为，我们在试验代理IP的过程中发现一个非常诡异的现象。