Java使用正则表达式匹配获取链接地址的方法示例

本文实例讲述了Java使用正则表达式匹配获取链接地址的方法。分享给大家供大家参考，具体如下：

获取页面中字符串的url地址我们都会使用正则表达式来匹配获取了，下面我来给大家总结几个匹配获取链接地址示例。

1、正则表达式中Matcher中find()方法的应用。

2、String对象中的 replaceAll(String regex,String replacement) 方法的使用。通过这个方法去除了不必要的字符串，从而得到了需要的网址和链接文字

例1.超简单的

String content = "<a href="URL" rel="external nofollow" >";

String pattern= "href="([^" rel="external nofollow" ]*)"";

Pattern p = Pattern.compile(pattern, 2 | Pattern.DOTALL);

Matcher m = p.matcher(content);

if(m.find()) {

System.out.println("url="+m.group(1));

}

例2.上面只能获取带有双“号的a标题中的url,下面我们加以改进可以获取任何状态下的a标题url

package com.gong.example;

import Java.util.regex.Matcher;

import java.util.regex.Pattern;

public class Simple {

public static void main(String[] args){

String input="<a style=" " href = "https://www.zzvips.com" target="_blank" >www.zzvips.com</a>" +

"<a href = 'http://www.163.com' target='_blank' >www.163.com</a> " +

"<a href=http://www.yahoo.com target=_blank >www.yahoo.com</a>";

String patternString = "\\s*(?i)href\\s*=\\s*("([^"]*")|'[^']*'|([^'">\\s]+))"; //href

Pattern pattern = Pattern.compile(patternString,

Pattern.CASE_INSENSITIVE);

Matcher matcher = pattern.matcher(input);

while (matcher.find()) {

String link=matcher.group();

System.out.println(link);

link=link.replaceAll("href\\s*=\\s*(['|"]*)", "");

System.out.println("--"+link);

link=link.replaceAll("['|"]", "");

System.out.println("---"+link);

}

例3.我们还可以利用它进行升级获取获取网址和链接文字哦。