第二部分 用URL检索数据
一.URL类
Java程序定位和检索网络上的数据最简单的方法是使用URL类。
Java.net.URL类是对统一资源定位符的抽象。URL对象建立后,它的字段就不再改变。
构造java.net.URL实例的六个构造器:
1) 用字符串构造URL
public URL(String url) throws MalformedURLException
2)用组件构造URL
public URL(String protocol,String hostname,String file) throws MalformedURLException
这个构造器将端口设置为-1,所以协议的所有默认端口都可以用。
3)用组件构造URL
public URL(String protocol,String host,int port,String file) throws MalformedURLException
对于默认端口不正确的极少见情况,这个构造器可以明确地用int变量指定端口
4) 构造相对URL
public URL(URL base,String relative) throws MalformedURLException
这个构造器根据相对URL和基本URL构造绝对URL
例如:
try
{
URL u1=new URL(“http://metalab.unc.edu/javafaq/index.html”);
URL u2=new URL(u1,”mailinglists.html”);
}
catch (MalformedURLException e)
{
System.err.println(e);
}
5) 指定URLStreamHandler
public URL(URL base,String relative,URLStreamHandler handler) throws MalformedURLException
这个构造器由一个基本URL和相对part构建一个相对URL,然后用指定的处理器处理URL
6) 指定URLStreamHandler
public URL(String protocol,String host,int port,String file,URLStreamHandler handler) throws MalformedURLException
这个构造器从它的组件部分构建URL,然后用指定的处理器处理URL。
除了这些构造器,Java类库中还有许多其他方法返回URL对象。其中大多数只是简单的获取方法,只返回用户可能已经知道的URL,因为用户已经首先用它来创建对象。
二.分解URL
URL可以认为是由五部分组成的:
1) 策略(scheme),也可以认为是协议
2) 权限
权限可以进一步分为用户信息、主机和端口。
3) 路径
4) 参考(ref),也称为节(section)或者已命名锚(named anchor)
5) 查询字符串
以只读方式访问URL这五部分的公共方法:
1) public String getProtocol()
getProtocol()方法返回一个String,包含URL的策略:比如:”http”,”https”,”file”等等。
2) public String getHost()
getHost()方法返回一个String,包含URL的主机名。
3) public int getPort()
getPort()方法返回端口号,该数值是一个在URL中指定的int。如果在URL中没有指定端口,那么getPort()方法返回-1,标志着URL没有明确指定端口,同时使用协议的默认端口。
4) public String getFile()
getFile()方法返回一个String,其中包含URL的路径和文件部分。从主机名后的第一个“/”开始,到另起一部分的“#”之前的符号,全部认为是文件部分。
5) public String getPath()
它与getFile()方法意义相同。
6) public String getRef()
getRef()返回URL的命名锚部分。如果URL没有一个已命名的锚,那么这个方法返回null。
例如:
try
{
URL u=new URL(“http://metalab.unc.edu/javafaq/javafaq.html#xtocid1902914”);
System.out.println(“The ref of ”+u+ “ is ”+u.getRef();
}
catch (MalformedURLException e)
{
System.err.println(e);
}
这段代码返回中,getRef()返回的字符串xtocid1902914
7) public String getQuery()
getQuery()方法返回URL的查询字符串。如果URL没有查询字符串,那么这个方法返回null。
8)public String getUserInfo()
某些URL包含用户名,并且甚至包含密码信息。它位于策略之后和主机名之前,“@”符号划定它的范围。如果URL不包含任何用户信息,那么这个方法返回null。Mailto URL会出现例外,在mailto:
[email protected] 这样的URL中,
[email protected]是路径,而不是用户信息和主机名。
9)public String getAuthority()
getAuthority()返回URL的权限。包括用户信息、主机名和端口。
三.从URL检索数据
1) public final InputStream openStream() throws IOException
openStream()方法连接URL参考的资源,实现客户机和服务器之间所有必要的握手连接,并且从可读数据返回InputStream。从InputStream得到的数据是URL参考文件的原始(即没有解析过的)内容。
2) public URLConnection openConnection() throws IOException
openConnection()方法打开一个到指定URL的套接字并且返回一个URLConnection对象。URLConnection代表一个到网络资源的开放连接。
3) public final Object getContent() throws IOException
getContent()方法检索URL参考的数据,并且试图把它转换成对象的某个类型。
4) public final Object getContent(Class[] classes) throws IOException
getContent()方法的重载变量使得可以选择我们想要的类作为返回内容,这个方法试图按数组中的顺序返回URL的内容。
例如:
URL u=new URL(“http://nwu.org”);
Class[] types=new Class[3];
types[0]=String.class;
types[1]=Reader.class;
types[2]=InputStream.class;
object o=u.getContent(types);
然后必须用instanceof测试返回对象的类型
if (o instanceof String)
{
System.out.println(o);
}
else if (o instanceof Reader)
{
int c;
Reader r=(Reader) c;
while ((c=r.read()) != -1)
System.out.print((char) c);
}
else if (o instanceof InputStream)
{
int c;
InputStream in=(InputStream) o;
While ((c=in.read()) != -1)
System.out.write(c);
}
else
{
System.out.println(“Error:unexcepted type ”+o.getClass());
}
四.工具方法
1) public boolean sameFile(URL other)
sameFile()方法测试测试两个URL对象是否指向同一个文件。sameFile()执行的检测非常肤浅,它只是比较相对立的字段是否相等。sameFile()和equals()有相似之处,差别在于equals()需要考虑所有任何参数,而sameFile()不考虑。此外,任何类都可以传递到equals(),却只有URL类能传递到sameFile()。
2) public String toExternalForm()
toExternalForm()和toString()方法相同。
五.对象方法
URL是从java.lang.Object继承来的,所以可以访问Object类的全部方法。类似于IentAddress类的对象方法。
六.协议处理器方法
1) public static synchronized void setURLStreamHandlerFactory(URLStreamHandleFactory factory)
这个方法为应用程序设置URLStreamHandleFactory,如果已经设置了类库,则此方法触发一个通用Error。
2) public void set(String protocol,String host,int port,String authority,String userInfo,String path,String query,String ref)
七.URLEncoder和URLDecoder类
java.net.URLEncoder类包含一个叫encode()的单一静态方法
public static String encode(String s)
URLEncoder.Encoder()把任何非文字数字字符(除了空格、下划线、连字号、句点和星号)都转换位%序列,空格被转换为加号。
URLEncoder的主要用途在于为使用GET的CGI程序的通信准备查询字符串。
URLDecoder类把所有的加号转换位空格,把所有的百分号转义符转换为相应的字符。
public static String decode(String s) throws Exception
如果字符串包含一个百分号,而其后没有两个十六进制的数字,那么就会触发一个IllegalArgumentException。这个方法传递的是非转义字符,所以用户可以传递一个完整的URL。