Python XML

搞懂Python操作常用的用法

什么是 XML？

XML 指可扩展标记语言（eXtensible Markup Language），标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。
XML 是一套定义语义标记的规则，这些标记将文档分成许多部件并对这些部件加以标识。
它也是元标记语言，即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。

Python对XML 的解析

常见的 XML 编程接口有 DOM 和 SAX，这两种接口处理 XML 文件的方式不同，当然使用场合也不同。
Python 有三种方法解析 XML，SAX，DOM，以及 ElementTree:

1.SAX (simple API for XML )

Python 标准库包含 SAX 解析器，SAX 用事件驱动模型，通过在解析 XML 的过程中触发一个个的事件并调用用户定义的回调函数来处理 XML 文件。

2.DOM(Document Object Model)

将 XML 数据在内存中解析成一个树，通过对树的操作来操作 XML。

Python 使用 SAX 解析 xml

SAX 是一种基于事件驱动的API。
利用 SAX 解析 XML 文档牵涉到两个部分: 解析器和事件处理器。
解析器负责读取 XML 文档，并向事件处理器发送事件，如元素开始跟元素结束事件。
而事件处理器则负责对事件作出响应，对传递的 XML 数据进行处理。

1、对大型文件进行处理； 2、只需要文件的部分内容，或者只需从文件中得到特定信息。 3、想建立自己的对象模型的时候。在 Python 中使用 sax 方式处理 xml 要先引入 xml.sax 中的 parse 函数，还有 xml.sax.handler 中的 ContentHandler。

ContentHandler 类方法介绍

characters(content)：遇到下一个标签之前，content 的值为这些字符串。遇到行结束符之前，存在字符，content 的值为这些字符串。 startDocument()：文档启动的时候调用。 endDocument()：文档启动的时候调用。 startElement(name, attrs)：遇到XML开始标签时调用，name 是标签的名字，attrs 是标签的属性值字典。 endElement(name)：遇到XML结束标签时调用。

make_parser 方法

以下方法创建一个新的解析器对象并返回。

xml.sax.make_parser( [parser_list] )

参数说明:

parser_list - 可选参数，解析器列表

parser 方法

以下方法创建一个 SAX 解析器并解析xml文档：

xml.sax.parse(xmlfile, contenthandler[, errorhandler])

参数说明:

xmlfile - xml文件名 contenthandler - 必须是一个 ContentHandler 的对象 errorhandler - 如果指定该参数，errorhandler 必须是一个 SAX ErrorHandler 对象

parseString 方法

parseString 方法创建一个 XML 解析器并解析 xml 字符串：

xml.sax.parseString(xmlstring, contenthandler[, errorhandler])

参数说明:

xmlstring - xml字符串 contenthandler - 必须是一个 ContentHandler 的对象 errorhandler - 如果指定该参数，errorhandler 必须是一个 SAX ErrorHandler对象

Python解析XML实例

xml内容如下：

<?xml version="1.0" encoding="utf-8"?>
<collection shelf="New Arrivals">
<people title="Jack">
    <name>Jack</name>
    <age>18</age>
    <sex>Man</sex>
    <address>China</address>
</people>
<people title="Tom">
    <name>Tom</name>
    <age>25</age>
    <sex>Woman</sex>
    <address>American</address>
</people>
</collection>

具体执行代码如下：

# -*- coding=utf-8 -*-
import xml.sax
class XmlHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.CurrentData = ""
        self.name = ""
        self.age = 0
        self.sex = ""
        self.address = ""

    def startElement(self, tag, attributes):
        self.CurrentData = tag
        if tag == "people":
            print("Title:", attributes["title"])

    def endElement(self, tag):
        if self.CurrentData == "name":
            print("name:", self.name)
        elif self.CurrentData == "age":
            print("age:", self.age)
        elif self.CurrentData == "sex":
            print("sex:", self.sex)
        elif self.CurrentData == "address":
            print("address:", self.address)
        self.CurrentData = ""
    def characters(self, content):
        if self.CurrentData == "name":
            self.name = content
        elif self.CurrentData == "age":
            self.age = content
        elif self.CurrentData == "sex":
            self.sex = content
        elif self.CurrentData == "address":
            self.address = content
if ( __name__ == "__main__"):
    # 创建一个 XMLReader
    parser = xml.sax.make_parser()
    # 关闭命名空间
    parser.setFeature(xml.sax.handler.feature_namespaces, 0)
    # 重写 ContextHandler
    Handler = XmlHandler()
    parser.setContentHandler(Handler)
    parser.parse("people.xml")

执行结果：

('Title:', u'Jack')
('name:', u'Jack')
('age:', u'18')
('sex:', u'Man')
('address:', u'China')
('Title:', u'Tom')
('name:', u'Tom')
('age:', u'25')
('sex:', u'Woman')
('address:', u'American')

使用xml.dom解析xml

文件对象模型（Document Object Model，简称DOM），是W3C组织推荐的处理可扩展置标语言的标准编程接口。一个 DOM 的解析器在解析一个 XML 文档时，一次性读取整个文档，把文档中所有元素保存在内存中的一个树结构里，之后你可以利用DOM提供的不同的函数来读取或修改文档的内容和结构，也可以把修改过的内容写入xml文件。python中用xml.dom.minidom来解析xml文件，实例如下：

from xml.dom.minidom import parse
import xml.dom.minidom
# 使用minidom解析器打开 XML 文档
DOMTree = xml.dom.minidom.parse("people.xml")
collection = DOMTree.documentElement
if collection.hasAttribute("shelf"):
    print("Root element : %s" % collection.getAttribute("shelf"))
# 在集合中获取所有电影
list = collection.getElementsByTagName("people")
# 打印每部电影的详细信息
for people in list:
    if people.hasAttribute("title"):
        print("Title: %s" % people.getAttribute("title"))
    name = people.getElementsByTagName('name')[0]
    print("name: %s" % name.childNodes[0].data)
    age = people.getElementsByTagName('age')[0]
    print("age: %s" % age.childNodes[0].data)
    sex = people.getElementsByTagName('sex')[0]
    print("sex: %s" % sex.childNodes[0].data)
    address = people.getElementsByTagName('address')[0]
    print("address: %s" % address.childNodes[0].data)

执行结果：

Root element : New Arrivals
Title: Jack
name: Jack
age: 18
sex: Man
address: China
Title: Tom
name: Tom
age: 25
sex: Woman
address: American

找工作要求35岁以下，35岁以上的程序员都干什么去了？

长久以来，一直有一个问题困扰着技术人——如何打破“程序员的35岁职业魔咒”，这一天迟早会到来，或早或晚。

或许是选错了行业，程序员薪水虽高，但光鲜的外表下，背后的苦衷只有自己知道。三十多岁本该是一个人事业的黄金期，但技术变化日新月异，行业竞争异常残酷，对一个企业来说，永远有比你更年轻、劳动成本更低的人可以选择，这让你的中年危机提前到来。破局的智慧可以看看这本书！>>

<< Python 迭代器 Python File >>

昵称：邮箱：