Python lxml库的简单介绍及基本使用讲解_Python

Python lxml库的简单介绍及基本使用讲解

2021-08-17 00:23pinuscembra Python

lxml是XML和HTML的解析器，其主要功能是解析和提取XML和HTML中的数据，本文重点给大家介绍Python lxml库的简单介绍及基本使用讲解，感兴趣的朋友跟随小编一起看看吧

1.lxml库介绍

lxml是xml和html的解析器，其主要功能是解析和提取xml和html中的数据；lxml和正则一样，也是用c语言实现的，是一款高性能的python html、xml解析器，也可以利用xpath语法，来定位特定的元素及节点信息

html是超文本标记语言，主要用于显示数据，他的焦点是数据的外观
xml是可扩展标记语言，主要用于传输和存储数据，他的焦点是数据的内容

2.安装lxml方法

方法1:
在cmd运行窗口中输入:pip install lxml

Python lxml库的简单介绍及基本使用讲解

方法2：
在pycharm中下载
file–setting–project–project interpreter–点击右上角的“+”—
第1步

Python lxml库的简单介绍及基本使用讲解

第2步

Python lxml库的简单介绍及基本使用讲解

第3步

Python lxml库的简单介绍及基本使用讲解

方法3：
进入这个网站进行下载：https://lxml.de/index.html

Python lxml库的简单介绍及基本使用讲解

3.基本使用

我们可以利用他解析html代码，并且在解析html代码的时候，如果html代码不规范或者不完整，lxml解析器会自动修复或补全代码，从而提高效率

实例1：
解析html代码块

				?

									#提取html中的数据

									from lxml import etree

									text = '''

									<html>

									    <div class="clearfix">

									    <div class="nav_com">

									     <ul>

									       <li class="active"><a href="/" rel="external nofollow" >推荐</a></li>

									       <li class=""><a href="/nav/python" rel="external nofollow" >python</a></li>

									       <li class=""><a href="/nav/java" rel="external nofollow" >java</a></li>

									       <li class=""><a href="/nav/web" rel="external nofollow" >前端</a></li>

									       <li class=""><a href="/nav/arch" rel="external nofollow" >架构</a></li>

									       <li class=""><a href="/nav/db" rel="external nofollow" >数据库</a></li>

									       <li class=""><a href="/nav/5g" rel="external nofollow" >5g</a></li>

									       <li class=""><a href="/nav/game" rel="external nofollow" >游戏开发</a></li>

									       <li class=""><a href="/nav/mobile" rel="external nofollow" >移动开发</a></li>

									       <li class=""><a href="/nav/ops" rel="external nofollow" >运维</a></li>

									     </ul>

									    </div>

									    </div>

									</html>>

									</html>>

									'''

									#将字符串解析为html文档

									html = etree.html(text)

									#print(html)

									#将字符串序列化为html

									result = etree.tostring(html).decode('utf-8')

									print(result)

实例2：
读取并解析html文件

				?

									#将html文件进行解析

									from lxml import etree

									#将html文件进行读取

									html = etree.parse('data.html')

									#将html内容序列化

									result = etree.tostring(html).decode('utf-8')

									print(result)