本文共 1513 字,大约阅读时间需要 5 分钟。
首先,我们需要一个简单的HTML页面。将以下代码复制到一个文件中,保存为example.html:
yoyo ketang yoyoketang
这里是我的微信公众号:yoyoketang
fiddler, python, selenium; 快来关注吧!
将这个文件和脚本放在同一个文件夹下,使用Python的open函数读取HTML文件:
with open('example.html', 'r', encoding='utf-8') as f: content = f.read()print(content) BeautifulSoup的BeautifulSoup类可以接收一个解析器参数。传入'html.parser'即可,无需额外安装:
from bs4 import BeautifulSouphtml_content = """yoyo ketang yoyoketang
这里是我的微信公众号:yoyoketang
fiddler, python, selenium; 快来关注吧! """soup = BeautifulSoup(html_content, 'html.parser')print(soup.prettify())
BeautifulSoup将HTML解析为四种主要对象:
<p class="title">。这里是我的微信公众号:yoyoketang。<!-- for HTML5 -->。.find_all()方法查找标签,如查找<p>标签:tags = soup.find_all('p')for tag in tags: print(tag.name) .attrs获取标签属性,如class和id:tag = soup.find('a', class_='sister')print(tag.attrs) .text属性提取标签内的文本内容:print(tag.text)
from bs4 import BeautifulSoupimport requestsurl = 'https://www.qiushibaike.com/'response = requests.get(url)html = response.textsoup = BeautifulSoup(html, 'html.parser')duanzi_list = soup.find_all('div', class_='content')for duanzi in duanzi_list: print(duanzi.find('span').text) 欢迎加入Python接口自动化交流群:226296743