爬取百度热搜榜及数据分析与可视化处理

爬取百度热搜榜及数据分析与可视化处理

2024-10-31 13:42

import requests
	import re
	import pandas as pd
	#请求网页
	headers = { 'User-Agent': '5498'}
	response = requests.get('https://tophub.today/n/Jb0vmloB1G',headers=headers)
	html=response.text
	#print(html)
	#解析网页与抓取信息
	urls = re.findall('<a href=https://www.cnblogs.com/Zlj258258/p/.*? target="_blank" .*?>(.*?)</a>',html)[3:13]
	redu = re.findall('<td>(.*?)</td>',html)[0:10]
	a = []#创建空列表
	for i in range(10):
	a.append([i+1,urls[i],redu[i][:-1]])
	#完成创建
	#使用pandans保存数据
	from pandas.core.frame import Dataframe
	dict = pd.Dataframe(a,columns = ['排名','标题','热度(单位:万)'])
	data = pd.Dataframe(dict)
	print(data)
	#生成CSV文件
	filename="百度热搜榜.csv"
	data.to_csv(filename,index=False)
#删除无效列与行
#df.drop('标题', axis=1, inplace = True)
#df.head()

#重复值处理

爬取百度热搜榜及数据分析与可视化处理

print(df.duplicated())

#检查是否有空值
print(df['热度'].isnull().value_counts())

#异常值处理
print(df.describe())

# 将数据统计信息打印出来

print(df.describe())

(1) from sklearn.linear_model import LinearRegression

X = df.drop("标题",axis=1)
predict_model = LinearRegression()
predict_model.fit(X,df['热度'])
print("回归系数为:",predict_model.coef_)

#绘制排名与热度的回归图

以上就是本篇文章【爬取百度热搜榜及数据分析与可视化处理】的全部内容了，欢迎阅览！文章地址：http://syank.xrbh.cn/quote/369.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页迅博思语资讯移动站 http://kaire.xrbh.cn/ , 查看更多