簡單了解一下xml

2019-11-11 07:27:07

字體：大中小

來源：轉載

供稿：網友

HTML和xml兩者之間的區別。與HTML不同， XML是大小寫敏感的。例如， <H1>和<h1>是不同的XML標簽。在HTML中，如果從上下文可以分清哪里是段落或列表項的結尾，那么結束標簽（如</p>或</li>）就可以省略，而在XML中結束標簽絕對不能省略。在XML中，只有一個標簽而沒有相對應的結束標簽的元素必須以/結尾，比如<imgsrc="coffeecup.png"/>。這樣，解析器就知道不需要查找</img>標簽了。在XML中，屬性值必須用引號括起來。在HTML中，引號是可有可無的。例如， <appletcode="MyApplet.class" width=300 height=300>對HTML來說是合法的，但是對XML來說則是不合法的。在XML中，必須使用引號，比如， width="300"。

在HTML中，屬性名可以沒有值。例如， <input type="radio" name="language"value="java" checked>。在 XML中，所有屬性必須都有屬性值。比如 checked="true"或checked="checked"。

xml文檔的結構

嚴格說來，文檔頭是可有可無的，但是強烈推薦你使用文檔頭。

<?xml version="1.0"?>或<?xml version="1.0" encoding="UTF-8"?>文檔頭之后通常是文檔類型定義（Document Type Definition，DTD），文檔類型定義是確保文檔正確的一個重要機制，但是這不是必需的。

<?DOCTYPE ......>最后，XML文檔的正文包含根元素，根元素包含其他一些元素。元素的屬性只應該在修改值的解釋時使用，而不是在指定值時使用。

元素和文本是XML文檔“主要的支撐要素”，以下是你會遇到的其他一些標記的說明：字符引用（ character reference）的形式是&#十進制值;或&#x十六進制值。&#223,&#xD

實體引用（ entity reference）的形式是&name;&lt小于，&gt大于等

CDATA部分（CDATA Section）用<![CDATA[和]]>來限定其界限。它們是字符數據的一種特殊形式。你可以使用它們來包含那些含有<、>、 &之類字符的字符串，而不必將它們解釋為標記處理指令（ PRocessing instruction）是那些專門在處理XML文檔的應用程序中使用的指令，它們將用<?和?>來限定其界限注釋（ comment）用<!-和-->限定其界限解析XML

Java庫提供了兩種XML解析器：像文檔對象模型（ Document Object Model, DOM）解析器這樣的樹型解析器（tree parser），它們將讀入的XML文檔轉換成樹構。像用于XML的簡單API（Simple API for XML, SAX）解析器這樣的流機制解析器（streaming parser），它們在讀入XML文檔時生成相應的事件。要讀入一個XML文檔，首先需要一個DocumentBuilder對象，你可以從DocumentBuilderFactory中得到這個對象

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();DocumentBuilder  db = dbf.newDocumentBuilder();Document document = db.parse(xxx);xxx可以是文件，流等調用getDocumentElement方法可以返回root元素。getTagName方法可以返回元素的標簽名。如果要得到該元素的子元素（可以是子元素、文本、注釋或其他節點），請使用getChildNodes方法。這個方法返回一個類型為NodeList的集合。這個類型在標準的Java集合類創建之前就建立了，它有一個與眾不同的訪問協議。item方法將得到指定索引號的項。getLength方法則提供了項的總數 。
檢索到它們包含的文本字符串。這些文本字符串本身都包含在Text類型的子節點中。既然知道了這些Text節點是惟一的子元素，就可以用getFirstChild方法而不用再遍歷一個NodeList。然后可以用getData方法檢索存儲在Text節點中的字符串。也可以用getLastChild方法得到最后一項子元素，用getNextSibling得到下一個兄弟節點 。如果要枚舉節點的屬性，請調用getAttributes方法。它返回一個NamedNodeMap對象，其中包含了描述屬性的節點對象。可以用和遍歷NodeList一樣的辦法在NamedNodeMap中遍歷各子節點。調用getNodeName和getNodeValue方法可以得到屬性名和屬性值。驗證XML
XML解析器的一個很大的好處就是它能自動檢驗某個文檔結構是否正確。如果要規范文檔結構，可以提供一個文檔類型定義（ DTD）或一個XML Schema定義。DTD或schema包含了用于解釋文檔是如何構成的規則。這些規則規范了每個元素的合法子元素和屬性 。太煩了，具體內容不學了，用到再說吧。
使用XPath定位信息
如果要定位某個XML文檔中的一段特定信息，那么，通過遍歷DOM樹的眾多節點來進行查找顯得有些麻煩。XPath語言使得訪問樹節點變得很容易。XPath可以描述XML文檔中的一組節點，例如，下面的XPath：/xxx/row描述了根元素xxx的子元素中所有的row元素。可以用[]操作符來選擇特定元素：/xxx/row[1]這表示的是第一行（索引號從1開始）。使用@操作符可以得到屬性值。 /xxx/row[1]/@href可以得到href的值Java SE 5.0增加了一個API來計算XPath表達式，需要先從XPathFactory創建一個XPath對象 。
XPathFactory pathFactory = XPathFactory.newInstance();XPath xPath=pathFactory.newXPath(); 然后，調用evaluate方法來計算XPath表達式：XPath xPath=pathFactory.newXPath(); String name = xPath.evaluate("/xxx/row", db.parse(new File("")));這種形式的evaluate方法將返回一個字符串。這很適合用來檢索文本，比如前面的例子中的username節點中的文本 。
String evaluate(String expression, Object startingPoint)從給定的起點計算表達式。起點可以是一個節點或節點列表。如果結果是一個節點或節點集，則返回的字符串包含所有文本節點子元素的數據。Object evaluate(String expression, Object startingPoint, QName resultType)從給定的起點計算表達式。起點可以是一個節點或節點列表。resultType是XPathConstants類的常量STRING、 NODE、 NODESET、 NUMBER或BOOLEAN之一。返回值是String、 Node、 NodeList、 Number或Boolean。生成XML文檔
你可以直接通過一系列print調用，打印出各元素、屬性和文本內容，來編寫XML文件，但這并不是一個好主意。一個比較好的方法是用文檔的內容構建一棵DOM樹，然后再寫出該樹的所有內容。要建立一棵DOM樹，你可以從一個空的文檔開始。通過調用DocumentBuilder類的newDocument方法可以得到一個空文檔。使用Document類的createElement方法可以構建文檔里的元素 。使用createTextNode方法可以構建文本節點 。
doc.appendChild(xxx);xxx.appendChild(aaa);aaa.appendChild(bbb);//添加節點可能還需要設置元素屬性，這只需調用Element類的setAttribute方法即可。