首页 > Python > Python网页处理库之Beautiful Soup

Python网页处理库之Beautiful Soup

Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据
官方文档链接: http://beautifulsoup.readthedocs.io/zh_CN/latest/

安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 import bs4 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)

可以利用 pip 或者 easy_install 来安装,以下两种方法均可
easy_install beautifulsoup4
pip install beautifulsoup4

然后推荐安装安装 lxml 及或 html5lib 这两个库

解析器-使用方法-优势-劣势
Python标准库:
BeautifulSoup(markup, “html.parser”)

Python的内置标准库
执行速度适中
文档容错能力强

Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差

lxml HTML 解析器:
BeautifulSoup(markup, “lxml”)

速度快
文档容错能力强

需要安装C语言库

lxml XML 解析器:
BeautifulSoup(markup, [“lxml”, “xml”])BeautifulSoup(markup, “xml”)

速度快
唯一支持XML的解析器

需要安装C语言库

html5lib:
BeautifulSoup(markup, “html5lib”)

最好的容错性
以浏览器的方式解析文档
生成HTML5格式的文档

速度慢
不依赖外部扩展

使用:

上一篇: 给Cordova build出的apk签名

下一篇: git 修改commit信息