全自动非登陆非API新浪微博爬虫2.0
全自动非登陆非API新浪微博爬虫2.0
本文主要介绍使用代理IP抓取新浪博客,主要分为3部分:
1. 代理IP实现全自动的思路,以及获得有效代理IP的方法。
2. jsou解析html文件和其他代码。
3. UI.
我们会把工程下所有代码放出来,文章看完,必要的jar包导入,就可以实现全自动抓取微博了。根据前两篇文章的代码,将其写成图形界面工具,我们觉得还有意思的。感兴趣的朋友可以下载来用用看。
其实很贱的,而且发现这样的方法完全是个巧合。下面我们会比较具体地描述, 废话不说了.
假设你已经看过我们的这篇文章了: 新浪微博爬虫——非登陆非API半自动爬虫
那么在半自动的方法下,每请求30次就需要输入一次校验码。网易识别你的同一个IP在短时间内连续请求了30次,所以会以校验码的形式来防止你用程序爬取数据。那么,一个很自然的思路就是当我们每请求30次后切换另一个可用的IP不就可以了呀?具体真的可行么?目前我们做过的测试得到的结论是,这样是可行的。取决于你用的网页代理IP。在这里说一下校验代理IP是否可用的方法。当你从一些代理IP网站(比如我们用的这个“http://www.xicidaili.com/”)
获得一大堆代理IP后,用httpclient的一些方法(下一篇我们会给出),使用这些IP来请求查看IP的网址,
比如这个“http://www.xicidaili.com”,页面会显示“您的IP是:[166.111.***.xx] 来自:北京市 xx大学”,这样你就能校验HTTP代理IP是否可用了。
但是,我们并没有采用这个每隔30次请求主动切换有效代理IP的方法。因为,我们在试验代理IP的过程中发现一个非常诡异的现象。
1. 代理IP实现全自动的思路,以及获得有效代理IP的方法。
2. jsou解析html文件和其他代码。
3. UI.
我们会把工程下所有代码放出来,文章看完,必要的jar包导入,就可以实现全自动抓取微博了。根据前两篇文章的代码,将其写成图形界面工具,我们觉得还有意思的。感兴趣的朋友可以下载来用用看。
其实很贱的,而且发现这样的方法完全是个巧合。下面我们会比较具体地描述, 废话不说了.
假设你已经看过我们的这篇文章了: 新浪微博爬虫——非登陆非API半自动爬虫
那么在半自动的方法下,每请求30次就需要输入一次校验码。网易识别你的同一个IP在短时间内连续请求了30次,所以会以校验码的形式来防止你用程序爬取数据。那么,一个很自然的思路就是当我们每请求30次后切换另一个可用的IP不就可以了呀?具体真的可行么?目前我们做过的测试得到的结论是,这样是可行的。取决于你用的网页代理IP。在这里说一下校验代理IP是否可用的方法。当你从一些代理IP网站(比如我们用的这个“http://www.xicidaili.com/”)
获得一大堆代理IP后,用httpclient的一些方法(下一篇我们会给出),使用这些IP来请求查看IP的网址,
比如这个“http://www.xicidaili.com”,页面会显示“您的IP是:[166.111.***.xx] 来自:北京市 xx大学”,这样你就能校验HTTP代理IP是否可用了。
但是,我们并没有采用这个每隔30次请求主动切换有效代理IP的方法。因为,我们在试验代理IP的过程中发现一个非常诡异的现象。
小鱼啊- 帖子数 : 3225
注册日期 : 14-07-06
您在这个论坛的权限:
您不能在这个论坛回复主题