系统城装机大师 - 固镇县祥瑞电脑科技销售部宣传站!

当前位置:首页 > 脚本中心 > 其它 > 详细页面

Python使用ElementTree美化XML格式的操作

时间:2020-03-06来源:电脑系统城作者:电脑系统城

Python中使用ElementTree可以很方便的处理XML,但是产生的XML文件内容会合并在一行,难以看清楚。

如下格式:

<root><aa>aatext<cc>cctext</cc></aa><bb>bbtext<dd>ddtext<ee>eetext</ee></dd></bb></root>

使用minidom模块中的toprettyxml和writexml方法都有参数可以优化XML,但是有两个问题:

a. 如果解析的XML已经是美化过的,那么执行该方法会多出很多空行

b. 产生的结果会将text也独立一行,如下:


 
  1. <root>
  2. <aa>
  3. aatext
  4. </aa>
  5. <bb>
  6. bbtext
  7. </bb>
  8. </root>

而我想产生如下结果:


 
  1. <root>
  2. <aa>aatext</aa>
  3. <bb>bbtext</bb>
  4. </root>

于是只能自己写一个美化XML的方法。

我们首先研究一下ElementTree模块中的Element类,使用getroot方法返回的便是Element类。

该类中有四个属性tag、attrib、text与tail, 对应在XML中如下图所示:

Python使用ElementTree美化XML格式的操作

整个XML就是一个Element,里面嵌套了很多子Element。

Element可以使用for循环迭代。

通过在text和tail中增加换行和制表符,就可以实现美化XML的目的。

美化代码如下:


 
  1. def prettyXml(element, indent, newline, level = 0): # elemnt为传进来的Elment类,参数indent用于缩进,newline用于换行
  2. if element: # 判断element是否有子元素
  3. if element.text == None or element.text.isspace(): # 如果element的text没有内容
  4. element.text = newline + indent * (level + 1)
  5. else:
  6. element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent *(level + 1)
  7. #else: # 此处两行如果把注释去掉,Element的text也会另起一行
  8. #element.text = newline + indent * (level + 1) + element.text.strip() + newline + indent * level
  9. temp = list(element) # 将elemnt转成list
  10. for subelement in temp:
  11. if temp.index(subelement) < (len(temp) - 1): # 如果不是list的最后一个元素,说明下一个行是同级别元素的起始,缩进应一致
  12. subelement.tail = newline + indent * (level + 1)
  13. else: # 如果是list的最后一个元素, 说明下一行是母元素的结束,缩进应该少一个
  14. subelement.tail = newline + indent * level
  15. prettyXml(subelement, indent, newline, level = level + 1) # 对子元素进行递归操作
  16.  
  17. from xml.etree import ElementTree #导入ElementTree模块
  18. tree = ElementTree.parse('test.xml') #解析test.xml这个文件,该文件内容如上文
  19. root = tree.getroot() #得到根元素,Element类
  20. prettyXml(root, '\t', '\n') #执行美化方法
  21. ElementTree.dump(root) #显示出美化后的XML内容

输出结果如下:


 
  1. <root>
  2. <aa>
  3. aatext
  4. <cc>cctext</cc>
  5. </aa>
  6. <bb>
  7. bbtext
  8. <dd>
  9. ddtext
  10. <ee>eetext</ee>
  11. </dd>
  12. </bb>
  13. </root>

残留问题点:

windows下的换行符是"\r\n",只需将prettyXml方法的第三个参数改为"\r\n",使用记事本打开生成的XML大部分OK。

但是XML说明与根元素开始符之间不知如何插入"\r\n".

Python使用ElementTree美化XML格式的操作

补充知识:python-xml 模块-代码生成xml 文档

一、XML 模块

什么是xml:可扩展的标记语言,标记翻译为标签,用标签来组织数据的语言,也是一种语言可以用来自定义文档结构。相比json 使用场景更加广泛,但是语法格式相比json 复杂很多

什么时候使用json:前后台交互数据时使用json

什么时候使用xml:当需要自定义文档结构时使用xml,比如java中经常用xml来作为配置文件,常见操作就是通过程序去读取配置信息,而修改增加删除,一般是交给用户来手动完成

标签的叫发:node(节点)、elment(元素)、tag(标签)

需求从conuntrys中获取所有的国家名称


 
  1. ==========================>countrys
  2. <data>
  3. <country name="Liechtenstein">
  4. <rank updated="yes">2</rank>
  5. <year>2009</year>
  6. <gdppc>141100</gdppc>
  7. <neighbor direction="E" name="Austria" />
  8. <neighbor direction="W" name="Switzerland" />
  9. </country>
  10. <country name="Singapore">
  11. <rank updated="yes">5</rank>
  12. <year>2012</year>
  13. <gdppc>59900</gdppc>
  14. <neighbor direction="N" name="Malaysia" />
  15. </country>
  16. <country name="Panama">
  17. <rank updated="yes">69</rank>
  18. <year>2012</year>
  19. <gdppc>13600</gdppc>
  20. <neighbor direction="W" name="Costa Rica" />
  21. <neighbor direction="E" name="Colombia" />
  22. </country>
  23. </data># 取别名可以用于简化书写
  24. import xml.etree.ElementTree as ET
  25. tree = ET.parse('countrys')
  26. #获取根标签#第一种获取标签的方式
  27. #全文查找
  28. iter()
  29. # 获取迭代器 如果不指定参数 则迭代器迭代的是所有标签
  30. print(root.iter())
  31. # 获取迭代器 如果指定参数 则迭代器迭代的是所有名称匹配的标签
  32. for e in root.iter("rank"):
  33. print(e)
  34.  
  35. #第二种获取标签的方式
  36. #在当前标签下(所有子级标签)寻找第一个名称匹配的标签
  37. print(root.find("rank")) #第一个名称不匹配所以返回None#第三种获取标签的方式
  38. #在当前标签下(所有子级标签)寻找所有名称匹配的标签
  39. print(root.findall("rank")) #[]

练习:找到新加坡中year 这个标签


 
  1. #print(e.tag) #标签名称
  2. #print(e.attrib) #属性 字典类型
  3. #print(e.text) #文本内容import xml.etree.ElementTree as ETtree = ET.parse("countrys")
  4. # 获取根标签
  5. root = tree.getroot()
  6. for e in root.iter("country"):
  7. if e.attrib["name"] == "Singapore":
  8. y = e.find("year")
  9. print(y.text) #2012

在程序中修改文档内容:把所有year标签的文本加1


 
  1. import xml.etree.ElementTree as ETtree = ET.parse("countrys")
  2. root = tree.getroot()
  3. for e in root.iter("year"):
  4. e.text = str(int(e.text) + 1)
  5.  
  6. #做完修改后要将修改后的内容写入文件
  7. tree.write('countrys')

把新加坡国家删除:


 
  1. import xml.etree.ElementTree as ETtree = ET.parse("countrys")
  2. root = tree.getroot()for e in root.findall("country"):
  3. print(e)
  4. if e.attrib["name"] == "Singapore":
  5. #删除时要通过被删除的父级标签来删除
  6. root.remove(e)tree.write('countrys')

用程序将中国信息写入文档中:


 
  1. import xml.etree.ElementTree as ETtree = ET.parse("countrys")
  2. root = tree.getroot()
  3. #添加时也需要将要添加的数据做成一个Element
  4. c = ET.Element("country",{"name":"china"})# 在国家下有一堆子标签
  5. ranke = ET.Element("ranke",{"updated":"yes"})
  6. c.append(ranke)year = ET.Element("year")
  7. year.text = "2018"
  8. c.append(year)#添加到root标签中
  9. root.append(c)
  10. tree.write("countrys")

总结:一般不会通过程序 去修改 删除 和添加

什么时候应该使用XML格式:

当你需要自定文档结构时(XML最强大的地方就是结构)

前后台交互不应该使用,前后台交互应该使用JSON格式

代码生成XML文档


 
  1. import xml.etree.ElementTree as ET# 创建根标签
  2. root = ET.Element("root")
  3. root.text = "这是一个XML文档!"c = ET.Element("country",{"name":"china"})
  4. root.append(c)tree = ET.ElementTree(root)
  5. # 参数: 文件名称 编码方式 是否需要文档声明
  6. tree.write("new.xml",encoding="utf-8",xml_declaration=True)=========================>new.xml 内容为
  7. <?xml version='1.0' encoding='utf-8'?>
  8. <root>这是一个XML文档!<country name="china" /></root>

以上这篇Python使用ElementTree美化XML格式的操作就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

分享到:

相关信息

  • Go json反序列化“null“的问题解决

    有这么一段代码,可以先看一下有没有什么问题,作用是输入一段json字符串,反序列化成map,然后将另一个inputMap的内容,merge进这个map 1 2 3 4 5 6 7 8 9 10 11 12 13 14...

    2023-03-15

  • Golang 字符串转time类型实现

    由于数据库的类型为Data 类型,所以插入数据库的时候我先把前端传入的string类型的时间转为Time 再插入。 Go 提供了两种插入的方式,即time.Parse 和 time.ParseInLocation 。两种方式,他们的差异比较大。...

    2023-03-09

系统教程栏目

栏目热门教程

人气教程排行

站长推荐

热门系统下载