麻豆小视频在线观看_中文黄色一级片_久久久成人精品_成片免费观看视频大全_午夜精品久久久久久久99热浪潮_成人一区二区三区四区

首頁 > 編程 > Ruby > 正文

Ruby的XML格式數據解析庫Nokogiri的使用進階

2020-10-29 19:35:41
字體:
來源:轉載
供稿:網友


一、基礎語法
1.直接以字符串形式獲取nokogiri對象:

html_doc = Nokogiri::HTML("<html><body><h1>Mr. Belvedere Fan Club</h1></body></html>")xml_doc = Nokogiri::XML("<root><aliens><alien><name>Alf</name></alien></aliens></root>")

這里的html_doc和xml_doc就是nokogiri文件

2.也可以通過文件句柄獲取nokogiri對象:

f = File.open("blossom.xml")doc = Nokogiri::XML(f)f.close

3.還可以直接從網站獲取:

require 'open-uri'doc = Nokogiri::HTML(open("http://www.xxx.com/"))

二、XML文件解析實例
從XML/HTML文件里抓取字段的常用方法:

現在有一個名為shows.xml的文件,內容如下:

<root> <sitcoms>  <sitcom>   <name>Married with Children</name>   <characters>    <character>Al Bundy</character>    <character>Bud Bundy</character>    <character>Marcy Darcy</character>   </characters>  </sitcom>  <sitcom>   <name>Perfect Strangers</name>   <characters>    <character>Larry Appleton</character>    <character>Balki Bartokomous</character>   </characters>  </sitcom> </sitcoms> <dramas>  <drama>   <name>The A-Team</name>   <characters>    <character>John "Hannibal" Smith</character>    <character>Templeton "Face" Peck</character>    <character>"B.A." Baracus</character>    <character>"Howling Mad" Murdock</character>   </characters>  </drama> </dramas></root>

如果想把所有character標簽的內容查找出來,可以這樣處理:

@doc = Nokogiri::XML(File.open("shows.xml"))@doc.xpath("http://character")

xpath和css方法,返回的是一個結點列表,類似于一個數組,它的內容就是從文件中查找出來的符合匹配規則的結點.

把dramas結點里的character結點列表查出來:

@doc.xpath("http://dramas//character")

更有可讀性的css方法:

characters = @doc.css("sitcoms name")# => ["<name>Married with Children</name>", "<name>Perfect Strangers</name>"]

當已知查詢結果唯一時,如果想直接返回這個結果,而不是列表,可以直接使用at_xpath或at_css:

@doc.css("dramas name").first # => "<name>The A-Team</name>"@doc.at_css("dramas name")  # => "<name>The A-Team</name>"

三、Namespaces
對于有多個標簽的情況,命名空間就起到非常大的作用了.
例如有這樣一個parts.xml文件:

<parts> <!-- Alice's Auto Parts Store --> <inventory xmlns="http://alicesautoparts.com/">  <tire>all weather</tire>  <tire>studded</tire>  <tire>extra wide</tire> </inventory> <!-- Bob's Bike Shop --> <inventory xmlns="http://bobsbikes.com/">  <tire>street</tire>  <tire>mountain</tire> </inventory></parts>

可以使用唯一的URL作為namespaces,以區分不同的tires標簽:

@doc = Nokogiri::XML(File.read("parts.xml"))car_tires = @doc.xpath('//car:tire', 'car' => 'http://alicesautoparts.com/')bike_tires = @doc.xpath('//bike:tire', 'bike' => 'http://bobsbikes.com/')

為了讓namespace的使用更方便,nokogiri會自動綁定在根結點上找到的合適的任何namespace.
nokogiri會自動關聯提供的URL,這個慣例可以減少代碼量.
例如有這樣一個atom.xml文件:

<feed xmlns="http://www.w3.org/2005/Atom"> <title>Example Feed</title> <link /> <updated>2003-12-13T18:30:02Z</updated> <author>  <name>John Doe</name> </author> <id>urn:uuid:60a76c80-d399-11d9-b93C-0003939e0af6</id> <entry>  <title>Atom-Powered Robots Run Amok</title>  <link />  <id>urn:uuid:1225c695-cfb8-4ebb-aaaa-80da344efa6a</id>  <updated>2003-12-13T18:30:02Z</updated>  <summary>Some text.</summary> </entry></feed>

遵循上面提到的慣例,xmlns已被自動綁定,不用再手動為xmlns賦值:

@doc.xpath('//xmlns:title')# => ["<title>Example Feed</title>", "<title>Atom-Powered Robots Run Amok</title>"]

同樣情況,css的用法:

@doc.css('xmlns|title')

并且在使用css方式時,如果namespaces名字是xmlns,那么連這個詞本身都可以忽略掉:

@doc.css('title')


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 草莓福利社区在线 | 亚洲精品在线观看免费 | 久久久久久久久浪潮精品 | 亚洲欧美一区二区三区在线观看 | 国产成人精品视频在线 | 国产在线观看91精品 | 成年免费大片黄在线观看岛国 | 国产成人精品区一区二区不卡 | 91精品国产一区二区在线观看 | 黄网站免费在线看 | 久久久久久中文字幕 | 一级成人毛片 | 逼片视频 | 一级免费黄色免费片 | 素人视频在线观看免费 | 91久久久久久久久久久久久久 | 久久国产精 | 中文字幕极速在线观看 | 久久国产精品二区 | 成人在线视频一区 | 免费1级做55爰片l在线观看 | 成人做爽爽爽爽免费国产软件 | 27xxoo无遮挡动态视频 | 中文字幕22页 | 天天色综合6 | 久久久久久久久亚洲精品 | 成人视屏在线观看 | 欧美性生话视频 | 欧美成人性生活片 | 久草在线观看福利视频 | 在线观看麻豆 | 亚洲精品日韩色噜噜久久五月 | 一区国产视频 | 久草亚洲视频 | 成人午夜天堂 | 国产刺激高潮av | 久久91精品 | 天堂成人国产精品一区 | 操网 | 13一14毛片免费看 | 特级西西444www大精品视频免费看 |