python完整爬虫程序

import requests  
from bs4 import BeautifulSoup  
  
# 定义目标网页的URL  
url = 'https://www.example.com'  
  
# 发送GET请求获取网页内容  
response = requests.get(url)  
  
# 解析网页内容  
soup = BeautifulSoup(response.text, 'html.parser')  
  
# 输出网页标题和链接列表  
print('网页标题：', soup.title.string)  
print('链接列表：', soup.find_all('a'))  
  
# 遍历所有链接并输出链接文本和链接URL  
for link in soup.find_all('a'):  
    print('链接文本：', link.text)  
    print('链接URL：', link.get('href'))

这个程序使用了requests库和BeautifulSoup库来发送HTTP请求和解析HTML。它首先发送GET请求获取目标网页的内容，然后使用BeautifulSoup将网页内容解析为树状结构，以便于后续的处理。在解析网页内容后，程序输出了网页的标题和链接列表，并遍历了所有链接并输出了链接文本和链接URL。

Post Views: 21