BeautifulSoup库

库: BeautifulSoup

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它可以高效的将文档解析成树结构,然后提供方法进行提取、搜索、修改等操作,结合爬虫一起使用效果更佳。

安装:

1
2
$ pip install beautifulsoup4
$ pip install lxml

基本使用:

1
2
3
4
5
from bs4 import BeautifulSoup
soup = BeautifulSoup(open("index.html"))
soup = BeautifulSoup("<html>data</html>")

详细文档: http://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/

吴羽舒 wechat
欢迎您扫一扫上面的微信公众号,订阅我的博客!