android中的网络解析xml,json,html框架

android中网络请求回来数据之后，我们要对其解析。请求的返回的结果格式如果不是自定义协议；那么返回的数据通常是xml，json，html形式的数据了。

下面就是针对上面3种格式进行解析。

xml解析使用工具：在android中推荐使用pull解析，还有其他的dom,sax解析。

json解析使用工具：推荐使用Fastjson，由阿里提供。还有其他的如JackSon,Gson解析。

html解析使用工具：推荐使用Jsoup,还有其他的如HtmlParser;关于使用这个，网络上的爬虫就是这样子的。

1.Xml解析：

Pull解析；

//android推荐的解析方式public class PULL {public static List<Person> pullXML() throws Exception {// 获取person文件的输入流InputStream is = PULL.class.getClassLoader().getResourceAsStream("person.xml");// 用来存放解析的person对象List<Person> persons = null;// 一个标记boolean flag = false;Person person = null;// 实例化一个XmlPullParser对象XmlPullParser parser = Xml.newPullParser();// 设置输入流的编码parser.setInput(is, "UTF-8");// 设置第一个事件，从这个事件开始解析文档int eventCode = parser.getEventType();// 设定结束标记，如果是END_DOCUEMNT,解析就结束了while (eventCode != XmlPullParser.END_DOCUMENT) {switch (eventCode) {case XmlPullParser.START_DOCUMENT:// 开始解析的时候我们一般做一些初始化的操作persons = new ArrayList<Person>();break;case XmlPullParser.START_TAG:// 判断当前的元素是否是需要检索的元素if ("person".equals(parser.getName())) {flag = true;person = new Person();  //"person"节点的第一个属性值person.setId(Integer.valueOf(parser.getAttributeValue(0)));}if (flag) { // 为检索的元素赋值if ("name".equals(parser.getName())) {//"name"节点后的值person.setName(parser.nextText());} else if ("age".equals(parser.getName())) {person.setAge(Integer.valueOf(parser.nextText()));}}break;case XmlPullParser.END_TAG: // 结束标签，判断一个对象是否结束，结束后添加到集合中if ("person".equals(parser.getName()) && person != null) {flag = false;persons.add(person);person = null;}break;}// 这一步很重要，该方法返回一个事件码，也是触发下一个事件的方法eventCode = parser.next(); // 取下个标签}return persons;}}

Dom解析；

public class DOM {public static List<Person> domXML() throws Throwable {// 获得xml文件的输入流InputStream is = MainActivity.class.getClassLoader().getResourceAsStream("person.xml");List<Person> persons = new ArrayList<Person>();// 定义一个工厂API，程序可以从这个API里得到一个能够从XML文档中产生DOM对象的解析器- 翻译的不好DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();DocumentBuilder builder = factory.newDocumentBuilder();Document document = builder.parse(is);// 返回文档的根元素Element rootElement = (Element) document.getDocumentElement();// 获取一个Node集合NodeList nodes = rootElement.getElementsByTagName("person");// 遍历Node集合for (int i = 0; i < nodes.getLength(); i++) {Element personElement = (Element) nodes.item(i);Person person = new Person();person.setId(Integer.valueOf(personElement.getAttribute("id")));NodeList childNodes = personElement.getChildNodes();for (int j = 0; j < childNodes.getLength(); j++) {Node childNode = childNodes.item(j);// 判断子Note的类型为元素Noteif (childNode.getNodeType() == Node.ELEMENT_NODE) {Element childElement = (Element) childNode;if ("name".equals(childElement.getNodeName())) {person.setName(childElement.getFirstChild().getNodeValue());} else if ("age".equals(childElement.getNodeName())) {person.setAge(Integer.valueOf(childElement.getFirstChild().getNodeValue()));}}}persons.add(person);}return persons;}}

Sax解析；

public class SAX extends DefaultHandler {public static List<Person> sax_XML() throws Exception {InputStream inputStream = MainActivity.class.getClassLoader().getResourceAsStream("person.xml");if (inputStream != null) {Log.d("inputStream", inputStream + "");} else {Log.e("inputStream", inputStream + "为空");}SAX saXforHandler = new SAX();SAXParserFactory spf = SAXParserFactory.newInstance();SAXParser saxParser = spf.newSAXParser();saxParser.parse(inputStream, saXforHandler);List<Person> list = saXforHandler.getPersons();inputStream.close();return list;}/** * This is log.d TAG */private static final String TAG = "SAXTag";/** * Store persons 存储人数组 */private List<Person> persons;/** * a Person */private Person person;/** * recode the name of current tag */private String tag;/** * When startDocument,you can initial something in this method * 当文档开始时，会调用这个方法 */@Overridepublic void startDocument() throws SAXException {persons = new ArrayList<Person>();Log.d(TAG, "the sax is starting");}/** * invoke the method after endDocument 文档结束时会调用这个方法 */@Overridepublic void endDocument() throws SAXException {Log.d(TAG, "endDocument");}/** * invoke when startElement 开始读取元素时候调用这个方法 */@Overridepublic void startElement(String uri, String localName, String qName,Attributes attributes) throws SAXException {if ("person".equals(localName)) {for (int i = 0; i < attributes.getLength(); i++) {Log.d(TAG, "attributes.getLength" + attributes.getLength());Log.d(TAG, "attributesName: " + attributes.getLocalName(i)+ "_attributesValue" + attributes.getValue(i));person = new Person();person.setId(Integer.valueOf(attributes.getValue(i)));}}tag = localName;Log.i(TAG, "localName = " + localName);}/** * read the element content 读取元素里面的内容。 比如说读到age,age的内容是21.这个方法就是来读21的 */@Overridepublic void characters(char[] ch, int start, int length)throws SAXException {String data = new String(ch, start, length).trim();if (!"".equals(data)) {Log.i(TAG, "Content: " + data);}if ("name".equals(tag)) {person.setName(data);} else if ("age".equals(tag)) {person.setAge(Integer.valueOf(data));}}/** * 一个元素结束时候调用 就是遇到反斜杠时候调用 */@Overridepublic void endElement(String uri, String localName, String qName)throws SAXException {if ("person".equals(localName) && person != null) {persons.add(person);person = null;}tag = null;}private List<Person> getPersons() {return persons;}}

2.Json解析：这里使用一种就可以了FastJson

/** *  *  * JSON.toJSONString；用于将实体类对象或实体集合转为Json格式字符 * JSON.parseObject，JSON.parseArray用于将json格式字符转为实体对象或实体集合 *  * 类似的实体与JSON格式之间的转换工具还有Gson,JackSon; *  * @author ZhangSheng *  */public class FastJson {private static String TAG = "FastJson";/** * 将实体对象或集合转为jsonsString *  * @param object * @return */public static String toJsonString(Object object) {return JSON.toJSONString(object);}/** * 将jsonString转为实体对象 *  * @param text * @param clazz * @return */public static <T> T parseObject(String text, Class<T> clazz) {T object = JSON.parseObject(text, clazz);return object;}/** * 将jsonString转为实体集合 *  * @param text * @param clazz * @return */public static <T> List<T> parseArray(String text, Class<T> clazz) {List<T> array = JSON.parseArray(text, clazz);return array;}/****************************** 测试 ***************************************/public static void test() {StudentInfo studentInfo1 = new StudentInfo("11", "11", 11);StudentInfo studentInfo2 = new StudentInfo("11", "11", 11);List<StudentInfo> students = new ArrayList<>();students.add(studentInfo1);students.add(studentInfo2);ClassInfo classInfo = new ClassInfo("1", "1", students);String students_Str = FastJson.toJsonString(students);Log.d(TAG, "students_Str=" + students_Str + "\n\n");String studentInfo_Str = FastJson.toJsonString(studentInfo1);String classInfo_Str = FastJson.toJsonString(classInfo);Log.d(TAG, "studentInfo_Str=" + studentInfo_Str + "\n classInfo_Str="+ classInfo_Str);StudentInfo parseObject = FastJson.parseObject(studentInfo_Str,StudentInfo.class);Log.d(TAG, "studentInfo=" + parseObject + "\n\n");List<StudentInfo> parseArray = FastJson.parseArray(students_Str, StudentInfo.class);Log.d(TAG, "StudentInfos=" + parseArray + "\n\n");}public static class StudentInfo {public String id;public String name;public int age;public StudentInfo() {super();}public StudentInfo(String id, String name, int age) {super();this.id = id;this.name = name;this.age = age;}@Overridepublic String toString() {return "StudentInfo [id=" + id + ", name=" + name + ", age=" + age+ "]";}}public static class ClassInfo {public String id;public String name;public List<StudentInfo> students;public ClassInfo(String id, String name, List<StudentInfo> students) {super();this.id = id;this.name = name;this.students = students;}public ClassInfo() {super();}@Overridepublic String toString() {return "ClassInfo [id=" + id + ", name=" + name + ", students="+ students + "]";}}}

3.html解析：这里使用的是Jsoup。看起来有点复杂，没有详细的用过，不是很熟悉。

<p>Jsoup相关内容：涉及到html数据的输入，从html中抽取数据，修改html中的数据这三个部分。</p><h4>html数据的输入:</h4>

1.解析一个Html字符串：使用静态Jsoup.parse(String html) 方法或 Jsoup.parse(String html, String baseUri)如：String html = "<html><head><title>First parse</title></head>"+ "<body><p>Parsed HTML into a doc.</p></body></html>";Document doc = Jsoup.parse(html);另一个方法提供的参数 baseUri 是用来将相对 URL 转成绝对URL；一旦拥有了一个Document，你就可以使用Document中适当的方法或它父类 Element和Node中的方法来取得相关数据2.解析一个body片段：假如你有一个HTML片断 (比如. 一个 div 包含一对 p 标签; 一个不完整的HTML文档) 想对它进行解析。使用Jsoup.parseBodyFragment(String html)String html = "<div><p>Lorem ipsum.</p>";Document doc = Jsoup.parseBodyFragment(html);Element body = doc.body();使用Document.body()方法能够取得文档body元素的所有子元素，与 doc.getElementsByTag("body")相同。3.从一个网站Url上加载一个Document:使用Jsoup.connect(String url)如：Document doc = Jsoup.connect("http://example.com/").get();String title = doc.title();或者使用该方法，只支持http和https协议；Document doc = Jsoup.connect("http://example.com").data("query", "Java").userAgent("Mozilla").cookie("auth", "token").timeout(3000).post();4.加载本地硬盘上的html文件：使用Jsoup.parse(File in, String charsetName, String baseUri)baseUri 参数用于解决文件中URLs是相对路径的问题。如果不需要可以传入一个空的字符串。另外还有一个方法Jsoup.parse(File in, String charsetName)它使用文件的路径做为 baseUri, 这个方法适用于如果被解析文件位于网站的本地文件系统，且相关链接也指向该文件系统。如：File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");<h4>html数据的抽取:</h4>

1.使用dom方法来遍历一个document：经过上面的数据的输入之后，我们可以获取到一个document对象。之后我们将对这个对象做数据抽取；基本代码如下：这是是一个本地html文件抽取：File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");Element content = doc.getElementById("content");Elements links = content.getElementsByTag("a");for (Element link : links) {  String linkHref = link.attr("href");  String linkText = link.text();}下面是一些常见的方法：查找元素getElementById(String id)getElementsByTag(String tag)getElementsByClass(String className)getElementsByAttribute(String key) (and related methods)Element siblings: siblingElements(), firstElementSibling(), lastElementSibling(); nextElementSibling(), previousElementSibling()Graph: parent(), children(), child(int index)元素数据attr(String key)获取属性attr(String key, String value)设置属性attributes()获取所有属性id(), className() and classNames()text()获取文本内容text(String value) 设置文本内容html()获取元素内HTMLhtml(String value)设置元素内的HTML内容outerHtml()获取元素外HTML内容data()获取数据内容（例如：script和style标签)tag() and tagName()操作HTML和文本append(String html), prepend(String html)appendText(String text), prependText(String text)appendElement(String tagName), prependElement(String tagName)html(String value)2.使用选择器语法来查找元素：使用Element.select(String selector) 和 Elements.select(String selector) 如：File input = new File("/tmp/input.html");Document doc = Jsoup.parse(input, "UTF-8", "http://example.com/");Elements links = doc.select("a[href]"); //带有href属性的a元素Elements pngs = doc.select("img[src$=.png]");//扩展名为.png的图片Element masthead = doc.select("div.masthead").first();//class等于masthead的div标签Elements resultLinks = doc.select("h3.r > a"); //在h3元素之后的a元素说明jsoup elements对象支持类似于CSS (或jquery)的选择器语法，来实现非常强大和灵活的查找功能。.这个select 方法在Document, Element,或Elements对象中都可以使用。且是上下文相关的，因此可实现指定元素的过滤，或者链式选择访问。Select方法将返回一个Elements集合，并提供一组方法来抽取和处理结果。Selector选择器概述tagname: 通过标签查找元素，比如：ans|tag: 通过标签在命名空间查找元素，比如：可以用 fb|name 语法来查找 <fb:name> 元素#id: 通过ID查找元素，比如：#logo.class: 通过class名称查找元素，比如：.masthead[attribute]: 利用属性查找元素，比如：[href][^attr]: 利用属性名前缀来查找元素，比如：可以用[^data-] 来查找带有HTML5 Dataset属性的元素[attr=value]: 利用属性值来查找元素，比如：[width=500][attr^=value], [attr$=value], [attr*=value]: 利用匹配属性值开头、结尾或包含属性值来查找元素，比如：[href*=/path/][attr~=regex]: 利用属性值匹配正则表达式来查找元素，比如： img[src~=(?i)\.(png|jpe?g)]*: 这个符号将匹配所有元素Selector选择器组合使用el#id: 元素+ID，比如： div#logoel.class: 元素+class，比如： div.mastheadel[attr]: 元素+class，比如： a[href]任意组合，比如：a[href].highlightancestor child: 查找某个元素下子元素，比如：可以用.body p 查找在"body"元素下的所有 p元素parent > child: 查找某个父元素下的直接子元素，比如：可以用div.content > p 查找 p 元素，也可以用body > * 查找body标签下所有直接子元素siblingA + siblingB: 查找在A元素之前第一个同级元素B，比如：div.head + divsiblingA ~ siblingX: 查找A元素之前的同级X元素，比如：h1 ~ pel, el, el:多个选择器组合，查找匹配任一选择器的唯一元素，例如：div.masthead, div.logo伪选择器selectors:lt(n): 查找哪些元素的同级索引值（它的位置在DOM树中是相对于它的父节点）小于n，比如：td:lt(3) 表示小于三列的元素:gt(n):查找哪些元素的同级索引值大于n，比如： div p:gt(2)表示哪些div中有包含2个以上的p元素:eq(n): 查找哪些元素的同级索引值与n相等，比如：form input:eq(1)表示包含一个input标签的Form元素:has(seletor): 查找匹配选择器包含元素的元素，比如：div:has(p)表示哪些div包含了p元素:not(selector): 查找与选择器不匹配的元素，比如： div:not(.logo) 表示不包含 class=logo 元素的所有 div 列表:contains(text): 查找包含给定文本的元素，搜索不区分大不写，比如： p:contains(jsoup):containsOwn(text): 查找直接包含给定文本的元素:matches(regex): 查找哪些元素的文本匹配指定的正则表达式，比如：div:matches((?i)login):matchesOwn(regex): 查找自身包含文本匹配指定正则表达式的元素注意：上述伪选择器索引是从0开始的，也就是说第一个元素索引值为0，第二个元素index为1等可以查看Selector API参考来了解更详细的内容3.抽取元素属性，文本，html要取得一个属性的值，可以使用Node.attr(String key) 方法对于一个元素中的文本，可以使用Element.text()方法对于要取得元素或属性中的HTML内容，可以使用Element.html(), 或 Node.outerHtml()方法如：String html = "<p>An <a href='http://example.com/'><b>example</b></a> link.</p>";Document doc = Jsoup.parse(html);//解析HTML字符串返回一个Document实现Element link = doc.select("a").first();//查找第一个a元素String text = doc.body().text(); // "An example link"//取得字符串中的文本linkHref = link.attr("href"); // "http://example.com/"//取得链接地址String linkText = link.text(); // "example""//取得链接地址中的文本String linkOuterH = link.outerHtml();     // "<a href="http://example.com"><b>example</b></a>"String linkInnerH = link.html(); // "<b>example</b>"//取得链接内的html内容说明上述方法是元素数据访问的核心办法。此外还其它一些方法可以使用：Element.id()Element.tagName()Element.className() and Element.hasClass(String className)这些访问器方法都有相应的setter方法来更改数据.4.处理URLs:在你解析文档时确保有指定base URI，然后使用 abs: 属性前缀来取得包含base URI的绝对路径如：Document doc = Jsoup.connect("http://www.open-open.com").get();Element link = doc.select("a").first();String relHref = link.attr("href"); // == "/"String absHref = link.attr("abs:href"); // "http://www.open-open.com/"<h4>Html数据的修改：</h4>

1.设置属性的值：使用 Element.attr(String key, String value), 和 Elements.attr(String key, String value).Element.addClass(String className) 和 Element.removeClass(String className) 方法。如：doc.select("div.masthead").attr("title", "jsoup").addClass("round-box");2.设置一个元素的Html内容：Element.html(String html) 这个方法将先清除元素中的HTML内容，然后用传入的HTML代替。Element.prepend(String first) 和 Element.append(String last) 方法用于在分别在元素内部HTML的前面和后面添加HTML内容Element.wrap(String around) 对元素包裹一个外部HTML内容。如：Element div = doc.select("div").first(); // <div></div>div.html("<p>lorem ipsum</p>"); // <div><p>lorem ipsum</p></div>div.prepend("<p>First</p>");//在div前添加html内容div.append("<p>Last</p>");//在div之后添加html内容// 添完后的结果: <div><p>First</p><p>lorem ipsum</p><p>Last</p></div>Element span = doc.select("span").first(); // <span>One</span>span.wrap("<li><a href='http://example.com/'></a></li>");// 添完后的结果: <li><a href="http://example.com"><span>One</span></a></li>3.设置一个元素的文本内容：Element.text(String text) 将清除一个元素中的内部HTML内容，然后提供的文本进行代替Element.prepend(String first) 和 Element.append(String last) 将分别在元素的内部html前后添加文本节点。对于传入的文本如果含有像 <, > 等这样的字符，将以文本处理，而非HTML。如：Element div = doc.select("div").first(); // <div></div>div.text("five > four"); // <div>five > four</div>div.prepend("First ");div.append(" Last");// now: <div>First five > four Last</div><h4>最后是一个获取所有链接的例子：</h4>

/** * Example program to list links from a URL. */public class ListLinks {    public static void main(String[] args) throws IOException {        Validate.isTrue(args.length == 1, "usage: supply url to fetch");        String url = args[0];        print("Fetching %s...", url);        Document doc = Jsoup.connect(url).get();        Elements links = doc.select("a[href]");        Elements media = doc.select("[src]");        Elements imports = doc.select("link[href]");        print("\nMedia: (%d)", media.size());        for (Element src : media) {            if (src.tagName().equals("img"))                print(" * %s: <%s> %sx%s (%s)",                        src.tagName(), src.attr("abs:src"), src.attr("width"), src.attr("height"),                        trim(src.attr("alt"), 20));            else                print(" * %s: <%s>", src.tagName(), src.attr("abs:src"));        }        print("\nImports: (%d)", imports.size());        for (Element link : imports) {            print(" * %s <%s> (%s)", link.tagName(),link.attr("abs:href"), link.attr("rel"));        }        print("\nLinks: (%d)", links.size());        for (Element link : links) {            print(" * a: <%s>  (%s)", link.attr("abs:href"), trim(link.text(), 35));        }    }    private static void print(String msg, Object... args) {        System.out.println(String.format(msg, args));    }    private static String trim(String s, int width) {        if (s.length() > width)            return s.substring(0, width-1) + ".";        else            return s;    }}