java爬虫练习_java爬虫代理如何实现

⑴ java爬虫代理如何实现

爬虫离不开的就是代理服务器了，如果我们不用http来爬虫，ip不更改的情况下，是很难进行的内。当我们在使用爬虫容爬取网站资料，速度快，可以不知疲倦地连续工作。但是由于爬虫软件在访问网站时，行为过于频繁，远超人力操作速度，就很容易被网站察觉，而封掉用户的IP。
所以，使用爬虫软件时，为了防止IP被封，或者IP已经被封，还想用自己的IP访问封了自己IP的网站时，就要用到代理IP了。http能够对我们的ip地址进行更改，这一操作能够有效减少了网站的ip限制的影响，对爬虫是很有帮助的。Ipidea含有240＋国家地区的ip，真实住宅网络高度匿名强力保护本地信息。

⑵ 如何使用Java语言实现一个网页爬虫

我给你代码
public class DEmo {
public static void match(String s1) {
Pattern p = Pattern.compile("<a(.*)>.*</a>");
Matcher m = p.matcher(s1);
while (m.find()) {
System.out.println(m.group(1));
}
}

public static void main(String args[]) {
URL url;
int responsecode;
HttpURLConnection urlConnection;
BufferedReader reader;
String line;
try {
// 生成一个对象，要获取源代码的网页地址为：http://www.sina.com.cn
url = new URL("http://www.jb51.net/article/97787.htm");
// 打开URL
urlConnection = (HttpURLConnection) url.openConnection();
// 获取服务器响应代码
responsecode = urlConnection.getResponseCode();
String temp = "";
if (responsecode == 200) {
// 得到输入流，即获得了网页的内容
reader = new BufferedReader(new InputStreamReader(
urlConnection.getInputStream(), "GBK"));
while ((line = reader.readLine()) != null) {
temp = temp + line;
}
System.out.println(temp);
match(temp);

} else {
System.out.println("获取不到网页的源码，服务器响应代码为：" + responsecode);
}
} catch (Exception e) {
System.out.println("获取不到网页的源码,出现异常：" + e);
}

}
}

⑶ java如何做高级爬虫

下面说明知乎爬虫的源码和涉及主要技术点：
（1）程序package组织

（2）模拟登录（爬虫主要技术点1）
要爬去需要登录的网站数据，模拟登录是必要可少的一步，而且往往是难点。知乎爬虫的模拟登录可以做一个很好的案例。要实现一个网站的模拟登录，需要两大步骤是：（1）对登录的请求过程进行分析，找到登录的关键请求和步骤，分析工具可以有IE自带(快捷键F12)、Fiddler、HttpWatcher；（2）编写代码模拟登录的过程。

（3）网页下载（爬虫主要技术点2）
模拟登录后，便可下载目标网页html了。知乎爬虫基于HttpClient写了一个网络连接线程池，并且封装了常用的get和post两种网页下载的方法。

（4）自动获取网页编码（爬虫主要技术点3）
自动获取网页编码是确保下载网页html不出现乱码的前提。知乎爬虫中提供方法可以解决绝大部分乱码下载网页乱码问题。

（5）网页解析和提取（爬虫主要技术点4）
使用Java写爬虫，常见的网页解析和提取方法有两种：利用开源Jar包jsoup和正则。一般来说，Jsoup就可以解决问题，极少出现Jsoup不能解析和提取的情况。Jsoup强大功能，使得解析和提取异常简单。知乎爬虫采用的就是Jsoup。 ...展开下面说明知乎爬虫的源码和涉及主要技术点：
（1）程序package组织

（2）模拟登录（爬虫主要技术点1）
要爬去需要登录的网站数据，模拟登录是必要可少的一步，而且往往是难点。知乎爬虫的模拟登录可以做一个很好的案例。要实现一个网站的模拟登录，需要两大步骤是：（1）对登录的请求过程进行分析，找到登录的关键请求和步骤，分析工具可以有IE自带(快捷键F12)、Fiddler、HttpWatcher；（2）编写代码模拟登录的过程。

（3）网页下载（爬虫主要技术点2）
模拟登录后，便可下载目标网页html了。知乎爬虫基于HttpClient写了一个网络连接线程池，并且封装了常用的get和post两种网页下载的方法。

（4）自动获取网页编码（爬虫主要技术点3）
自动获取网页编码是确保下载网页html不出现乱码的前提。知乎爬虫中提供方法可以解决绝大部分乱码下载网页乱码问题。

（5）网页解析和提取（爬虫主要技术点4）
使用Java写爬虫，常见的网页解析和提取方法有两种：利用开源Jar包Jsoup和正则。一般来说，Jsoup就可以解决问题，极少出现Jsoup不能解析和提取的情况。Jsoup强大功能，使得解析和提取异常简单。知乎爬虫采用的就是Jsoup。

（6）正则匹配与提取（爬虫主要技术点5）
虽然知乎爬虫采用Jsoup来进行网页解析，但是仍然封装了正则匹配与提取数据的方法，因为正则还可以做其他的事情，如在知乎爬虫中使用正则来进行url地址的过滤和判断。

（7）数据去重（爬虫主要技术点6）
对于爬虫，根据场景不同，可以有不同的去重方案。（1）少量数据，比如几万或者十几万条的情况，使用Map或Set便可；（2）中量数据，比如几百万或者上千万，使用BloomFilter（著名的布隆过滤器）可以解决；（3）大量数据，上亿或者几十亿，Redis可以解决。知乎爬虫给出了BloomFilter的实现，但是采用的Redis进行去重。

（8）设计模式等Java高级编程实践
除了以上爬虫主要的技术点之外，知乎爬虫的实现还涉及多种设计模式，主要有链模式、单例模式、组合模式等，同时还使用了Java反射。除了学习爬虫技术，这对学习设计模式和Java反射机制也是一个不错的案例。
4. 一些抓取结果展示收起

⑷ java简单爬虫

你都已经有源代码了，重构一下代码，换一下包名不就可以了。

⑸ java 爬虫怎么做

代码如下:

packagewebspider;
import
java.util.HashSet;
importjava.util.PriorityQueue;
import
java.util.Set;
importjava.util.Queue;

publicclassLinkQueue{
//已访问的集合
privatestaticSetvisitedUrl
=newHashSet();
//待访问的url集合
=new
PriorityQueue();
//获得URL队列
(){
return
unVisitedUrl;
}
//添加到访问过的URL队列中
publicstaticvoidaddVisitedUrl(Stringurl)
{
visitedUrl.add(url);
}
//移除访问过的URL
(Stringurl)
{
visitedUrl.remove(url);
}
//未访问的URL出队列
(){
return
unVisitedUrl.poll();
}
//保证每个url只被访问一次
(Stringurl)
{
if(url!=null&&!url.trim().equals("")&&
!visitedUrl.contains(url)
&&
!unVisitedUrl.contains(url))
unVisitedUrl.add(url);
}
//获得已经访问的URL数目
(){
return
visitedUrl.size();
}
//判断未访问的URL队列中是否为空
()
{
returnunVisitedUrl.isEmpty();
}
}

配合极光HTTP使用更佳喔

⑹ java怎么实现js中html()或者是text()方法

你可以用 jQuery 这个函式库，然后用法会像是这样 $('.class').text('输入文字');
不懂可以私信问我详细

⑺ 用java 编写爬虫是不是很简单

用java编写爬虫, 有丰富的第三方包, 使用起来比较容易

JSOUP : 强大的HMTL解析能力版, 但抓取能力较弱.

HttpClient: 强大专业的权爬取能力.功能强大, 代码量较多. 解析起来稍微麻烦点

HtmlUnit: 可以模拟浏览器.没有界面,可以模拟填表,模拟点击等,甚至还支持JavaScript.但是内存占用较多,速度较慢.

一般根据需要,进行搭配使用

经常使用的搭配.

HttpClient爬取---->Jsoup解析-->MySQL存储

⑻ java 网络爬虫怎么实现

网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。
传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。对于垂直搜索来说，聚焦爬虫，即有针对性地爬取特定主题网页的爬虫，更为适合。

以下是一个使用java实现的简单爬虫核心代码：
public void crawl() throws Throwable {
while (continueCrawling()) {
CrawlerUrl url = getNextUrl(); //获取待爬取队列中的下一个URL
if (url != null) {
printCrawlInfo();
String content = getContent(url); //获取URL的文本信息

//聚焦爬虫只爬取与主题内容相关的网页，这里采用正则匹配简单处理
if (isContentRelevant(content, this.regexpSearchPattern)) {
saveContent(url, content); //保存网页至本地

//获取网页内容中的链接，并放入待爬取队列中
Collection urlStrings = extractUrls(content, url);
addUrlsToUrlQueue(url, urlStrings);
} else {
System.out.println(url + " is not relevant ignoring ...");
}

//延时防止被对方屏蔽
Thread.sleep(this.delayBetweenUrls);
}
}
closeOutputStream();
}
private CrawlerUrl getNextUrl() throws Throwable {
CrawlerUrl nextUrl = null;
while ((nextUrl == null) && (!urlQueue.isEmpty())) {
CrawlerUrl crawlerUrl = this.urlQueue.remove();
//doWeHavePermissionToVisit：是否有权限访问该URL，友好的爬虫会根据网站提供的"Robot.txt"中配置的规则进行爬取
//isUrlAlreadyVisited：URL是否访问过，大型的搜索引擎往往采用BloomFilter进行排重，这里简单使用HashMap
//isDepthAcceptable：是否达到指定的深度上限。爬虫一般采取广度优先的方式。一些网站会构建爬虫陷阱（自动生成一些无效链接使爬虫陷入死循环），采用深度限制加以避免
if (doWeHavePermissionToVisit(crawlerUrl)
&& (!isUrlAlreadyVisited(crawlerUrl))
&& isDepthAcceptable(crawlerUrl)) {
nextUrl = crawlerUrl;
// System.out.println("Next url to be visited is " + nextUrl);
}
}
return nextUrl;
}
private String getContent(CrawlerUrl url) throws Throwable {
//HttpClient4.1的调用与之前的方式不同
HttpClient client = new DefaultHttpClient();
HttpGet httpGet = new HttpGet(url.getUrlString());
StringBuffer strBuf = new StringBuffer();
HttpResponse response = client.execute(httpGet);
if (HttpStatus.SC_OK == response.getStatusLine().getStatusCode()) {
HttpEntity entity = response.getEntity();
if (entity != null) {
BufferedReader reader = new BufferedReader(
new InputStreamReader(entity.getContent(), "UTF-8"));
String line = null;
if (entity.getContentLength() > 0) {
strBuf = new StringBuffer((int) entity.getContentLength());
while ((line = reader.readLine()) != null) {
strBuf.append(line);
}
}
}
if (entity != null) {
nsumeContent();
}
}
//将url标记为已访问
markUrlAsVisited(url);
return strBuf.toString();
}
public static boolean isContentRelevant(String content,
Pattern regexpPattern) {
boolean retValue = false;
if (content != null) {
//是否符合正则表达式的条件
Matcher m = regexpPattern.matcher(content.toLowerCase());
retValue = m.find();
}
return retValue;
}
public List extractUrls(String text, CrawlerUrl crawlerUrl) {
Map urlMap = new HashMap();
extractHttpUrls(urlMap, text);
extractRelativeUrls(urlMap, text, crawlerUrl);
return new ArrayList(urlMap.keySet());
}
private void extractHttpUrls(Map urlMap, String text) {
Matcher m = (text);
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
// System.out.println("Term = " + term);
if (term.startsWith("http")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
urlMap.put(term, term);
System.out.println("Hyperlink: " + term);
}
}
}
}
private void extractRelativeUrls(Map urlMap, String text,
CrawlerUrl crawlerUrl) {
Matcher m = relativeRegexp.matcher(text);
URL textURL = crawlerUrl.getURL();
String host = textURL.getHost();
while (m.find()) {
String url = m.group();
String[] terms = url.split("a href=\"");
for (String term : terms) {
if (term.startsWith("/")) {
int index = term.indexOf("\"");
if (index > 0) {
term = term.substring(0, index);
}
String s = //" + host + term;
urlMap.put(s, s);
System.out.println("Relative url: " + s);
}
}
}

}
public static void main(String[] args) {
try {
String url = "";
Queue urlQueue = new LinkedList();
String regexp = "java";
urlQueue.add(new CrawlerUrl(url, 0));
NaiveCrawler crawler = new NaiveCrawler(urlQueue, 100, 5, 1000L,
regexp);
// boolean allowCrawl = crawler.areWeAllowedToVisit(url);
// System.out.println("Allowed to crawl: " + url + " " +
// allowCrawl);
crawler.crawl();
} catch (Throwable t) {
System.out.println(t.toString());
t.printStackTrace();
}
}

⑼ 初学者学习JAVA网络爬虫

不知道怎么去教你，只能说说我自己的学习经历。
初学Java，包括学习一两年的，很难精通版Java。特别权是对于在校的学生，学生只是带着学习Java这种情况，对于多态、重载、接口的运用等等的理解并不够。
说理论太难说，你现在的情况就直接上手项目，自己做东西。1、先跟着做一个整体的项目，比如坦克大战之类的，这样能带着你整体理解Java，借此自己反思Java基础哪里学的不好，补。2、然后做JavaWeb项目，理解框架、一些简单的设计模式，尝试做一个微博的项目（不好意思，我当年做的第一个web项目就是微博系统，嘿嘿）或者其他的。我自己觉得做web项目最好，很多Java只是都能在项目中加深理解。
其实想说的就是，java入门不难，但是想精通很难。学习.....反思....项目......学习.....反思....
我就简单说这么一点点。有什么你跟我私聊。只要坚持下来，相信你会成功。

导航:首页 > 编程语言 > java爬虫练习

java爬虫练习

与java爬虫练习相关的资料

友情链接