htmlunit本地文件_java相关爬虫问题关于新浪微博谢谢！

『壹』如何用htmlunit把网页上的flash截取下来

java">importjava.io.FileOutputStream;
importjava.io.InputStream;
importjava.util.regex.Matcher;
importjava.util.regex.Pattern;

importorg.apache.commons.io.IOUtils;

importcom.gargoylesoftware.htmlunit.Page;
importcom.gargoylesoftware.htmlunit.WebClient;

publicclassDownloadFile{
	publicstaticvoidmain(String[]args)throwsException{
		StringbaseUrl="http://hanyu.iciba.com/hanzi/1.shtml";
		StringbihuaRegex="class="guanggao"[^<]*<[^<]*<param\s*name="movie"\s*value="([^"]*)";
		StringaSoundRegex="class="js12">ā.*?name="FlashVars"\s*value="f=([^"]*)";
		StringeSoundRegex="class="js12">ē.*?name="FlashVars"\s*value="f=([^"]*)";
		WebClientclient=newWebClient();
		client.getOptions().setCssEnabled(false);
		client.getOptions().setJavaScriptEnabled(false);
		client.getOptions().(false);
		client.getOptions().(false);
		Pagepage=client.getPage(baseUrl);
		Stringsource=page.getWebResponse().getContentAsString();
		MatchermBihuan=Regex(source,bihuaRegex);
		MatchermA=Regex(source,aSoundRegex);
		MatchermE=Regex(source,eSoundRegex);
		while(mBihuan.find()){
			Stringurl="http://hanyu.iciba.com/"+mBihuan.group(1);
			page=client.getPage(url);
			saveFile(page,"d:/testDownload/bihua.swf");
		}
		while(mA.find()){
			Stringurl=mA.group(1);
			page=client.getPage(url);
			saveFile(page,"d:/testDownload/a.mp3");
		}
		while(mE.find()){
			Stringurl=mE.group(1);
			page=client.getPage(url);
			saveFile(page,"d:/testDownload/e.mp3");
		}
	}
	
	publicstaticMatcherRegex(Stringsource,Stringregex){
		Patternp=Pattern.compile(regex,Pattern.DOTALL);
		returnp.matcher(source);
	}
	
	publicstaticvoidsaveFile(Pagepage,Stringfile)throwsException{
		InputStreamis=page.getWebResponse().getContentAsStream();
FileOutputStreamoutput=newFileOutputStream(file);
IOUtils.(is,output);
output.close();
	}
}

注：附件只是下载下来的文件，并不是代码。代码就贴上来的这些。如只是想知道方法，并不需要下载附件。

『贰』 GB2312 的编码，繁体内容变成乱码，怎么解决

第一步：下载htmlunit的源代码，在com\gargoylesoftware\htmlunit\util目录下有个EncodingSniffer文件，其中就有获取页面编码的情况，大概在626行encoding = encoding.toUpperCase(Locale.ROOT);后边添加if(encoding.equals("GB2312"))encoding="GBK";

第二步：大概在715行charset = charset.toUpperCase(Locale.ROOT);后边添加if(charset.equals("GB2312"))charset="GBK";

原理：gb2312支持的字符集编码比较小，GBK兼容并且大，可以直接转GBK的，所以获取页面的时候，htmlunit本身会调用这个EncodingSniffer类，将其中遇到gb2312的情况，统一变成gbk。

比较麻烦就是要下载htmlunit源码，做个编译后，把生成的EncodingSniffer.class文件覆盖到maven引用的包对应的class文件中。

『叁』如何从网页捉取JS动态数据

代码比较简单，直接看就可以了，需要注意的是，由于浏览器查询需要时间，在查询的过程中，应该让主线程休眠一段时间，才能保证htmlunit浏览器已经查询完毕。

import java.util.concurrent.TimeUnit;

import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.DomNodeList;
import com.gargoylesoftware.htmlunit.html.HtmlElement;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlTable;
import com.gargoylesoftware.htmlunit.html.HtmlTableBody;

public class Entrance {

public static void main (String[] args ) throws Exception
{
String webUrl = "http://www.xy2046.com/xypk10.aspx?T=234&day=2016-05-29";
HtmlPage page = getHtmlPage(webUrl);
final HtmlTable div = (HtmlTable) page.getElementById("mytable");
HtmlTableBody tbody = (HtmlTableBody) div.getBodies().get(0);
printTable(tbody);
System.err.println("查询数据成功");
}
答案可在CSDN中找到。

『肆』 java相关。爬虫问题，关于新浪微博。谢谢！

1.Java中的所有类，必须被装载到jvm中才能运行，这个装载工作是由jvm中的类装载器完专成的，类装载器所做的工作实质是把类属文件从硬盘读取到内存中
2.java中的类大致分为三种：
1.系统类
2.扩展类
3.由程序员自定义的类

3.类装载方式，有两种
1.隐式装载，程序在运行过程中当碰到通过new 等方式生成对象时，隐式调用类装载器加载对应的类到jvm中。
2.显式装载，通过class.forname()等方法，显式加载需要的类

想必您肯定也上网查过，但是我想具体是什么机制，属于内部的机密了吧。毕竟网上查的到的话，那结果可想而知了。

热点内容

核桃编程如何退钱发布：2025-07-15 04:02:46 浏览：17

如何查看预约app 发布：2025-07-15 03:57:59 浏览：774

数控哪个编程软件速度最快发布：2025-07-15 03:57:57 浏览：135

qq表情白眼是哪个发布：2025-07-15 03:53:06 浏览：965

shell循环文件名发布：2025-07-15 03:35:19 浏览：602

照片3d建模源代码发布：2025-07-15 03:29:44 浏览：434

西安iPhone6升级内存发布：2025-07-15 03:06:39 浏览：84

小学生的编程的课是学什么的发布：2025-07-15 03:05:16 浏览：114

就业下载什么app 发布：2025-07-15 03:04:29 浏览：191

个人配置文件重定向到D盘发布：2025-07-15 02:53:59 浏览：22

js屏幕宽度发布：2025-07-15 02:44:19 浏览：312

sql查找某列重复数据库发布：2025-07-15 02:37:42 浏览：48

智行火车票用微信支付发布：2025-07-15 02:26:39 浏览：262

网络定价过程哪些内容发生变化发布：2025-07-15 02:22:54 浏览：200

dubbo服务提供者的配置文件发布：2025-07-15 02:09:47 浏览：182

win8系统如何压缩文件发布：2025-07-15 02:08:31 浏览：875

网站怎么上传代码发布：2025-07-15 01:53:23 浏览：4

java日志的好处发布：2025-07-15 01:51:26 浏览：103

武汉奇米网络怎么样发布：2025-07-15 01:41:16 浏览：689

笔记本如何恢复原来数据发布：2025-07-15 01:41:15 浏览：76

导航:首页 > 文件教程 > htmlunit本地文件

htmlunit本地文件

与htmlunit本地文件相关的资料

友情链接