安装
对于Ubuntu,需要安装好 libxml2, libxslt 这两个组件:
$ apt-get install libxml2 libxslt
然后就可以:
$ gem install nokogiri
可选项
nokogiri提供了一些解析文件时的可选项,常用的有:
可选项使用方式举例(通过块调用):
doc = Nokogiri::XML(File.open("blossom.xml")) do |config| config.strict.nonet end
或者
doc = Nokogiri::XML(File.open("blossom.xml")) do |config| config.options = Nokogiri::XML::ParseOptions::STRICT | Nokogiri::XML::ParseOptions::NONET end
解析
可以从文件,字符串,URL等来解析。靠的是这两个方法 Nokogiri::HTML, Nokogiri::XML:
读取字符串:
html_doc = Nokogiri::HTML("html>body>h1>Mr. Belvedere Fan Club/h1>/body>/html>") xml_doc = Nokogiri::XML("root>aliens>alien>name>Alf/name>/alien>/aliens>/root>")
读取文件:
f = File.open("blossom.xml") doc = Nokogiri::XML(f) f.close
读取URL:
require 'open-uri' doc = Nokogiri::HTML(open("http://www.threescompany.com/"))
寻找节点
可以使用XPATH 以及 CSS selector 来搜索: 例如,给定一个XML:
books> book> title>Stars/title> /book> book> title>Moon/title> /book> /books>
xpath:
@doc.xpath("//title")
css:
@doc.css("book title")
修改节点内容
title = @doc.css("book title").firsto title.content = 'new title' puts @doc.to_html # => ... title>new title/title> ...
修改节点的结构
first_title = @doc.at_css('title') second_book = @doc.css('book').last # 可以把第一个title放到第二个book中 first_title.parent = second_book # 也可以随意摆放。 second_book.add_next_sibling(first_title) # 也可以修改对应的class first_title.name = 'h2' first_title['class']='red_color' puts @doc.to_html # => h2 class='red_color'>.../h2> # 也可以新建一个node third_book = Nokogiri::XML::Node.new 'book', @doc third_book.content = 'I am the third book' second_book.add_next_sibling third_book puts @doc.to_html # => ... books> ... book>I am the third book/book> /books>