python爬虫beautifulsoup4系列2-白红宇

python爬虫beautifulsoup4系列2

阅读量：472 次

发布时间：2019-03-06

本文共 1486 字，大约阅读时间需要 4 分钟。

BeautifulSoup入门：从基础到实践

一、读取HTML页面

首先，我们需要一个简单的HTML页面。将以下代码复制到一个文件中，保存为example.html：

yoyo ketang

yoyoketang

这里是我的微信公众号：yoyoketang fiddler, python, selenium; 快来关注吧！

将这个文件和脚本放在同一个文件夹下，使用Python的open函数读取HTML文件：

with open('example.html', 'r', encoding='utf-8') as f:    content = f.read()print(content)

二、解析器：html.parser

BeautifulSoup的BeautifulSoup类可以接收一个解析器参数。传入'html.parser'即可，无需额外安装：

from bs4 import BeautifulSouphtml_content = """    
       
       
       yoyo ketang    
        yoyoketang
    这里是我的微信公众号：yoyoketang        fiddler,        python,        selenium;        快来关注吧！    
"""soup = BeautifulSoup(html_content, 'html.parser')print(soup.prettify())

三、BeautifulSoup对象的类型

BeautifulSoup将HTML解析为四种主要对象：

Tag：标签对象，如<p class="title">。

NavigableString：文本对象，如这里是我的微信公众号：yoyoketang。

BeautifulSoup：整个文档对象。

Comment：注释对象，如。

四、Tag对象

获取标签：通过.find_all()方法查找标签，如查找<p>标签：

tags = soup.find_all('p')for tag in tags:    print(tag.name)

访问属性：使用.attrs获取标签属性，如class和id：

tag = soup.find('a', class_='sister')print(tag.attrs)

获取文本：使用.text属性提取标签内的文本内容：

print(tag.text)

五、实战案例：爬取糗事百科首页段子

from bs4 import BeautifulSoupimport requestsurl = 'https://www.qiushibaike.com/'response = requests.get(url)html = response.textsoup = BeautifulSoup(html, 'html.parser')duanzi_list = soup.find_all('div', class_='content')for duanzi in duanzi_list:    print(duanzi.find('span').text)