热门推荐
爬取百度热搜榜及数据分析与可视化处理
2024-10-31 13:42
import requests
	import re
	import pandas as pd
	#请求网页
	headers = { 'User-Agent': '5498'}
	response = requests.get('https://tophub.today/n/Jb0vmloB1G',headers=headers)
	html=response.text
	#print(html)
	#解析网页与抓取信息
	urls = re.findall('<a href=https://www.cnblogs.com/Zlj258258/p/.*? target="_blank" .*?>(.*?)</a>',html)[3:13]
	redu = re.findall('<td>(.*?)</td>',html)[0:10]
	a = []#创建空列表
	for i in range(10):
	a.append([i+1,urls[i],redu[i][:-1]])
	#完成创建
	#使用pandans保存数据
	from pandas.core.frame import Dataframe
	dict = pd.Dataframe(a,columns = ['排名','标题','热度(单位:万)'])
	data = pd.Dataframe(dict)
	print(data)
	#生成CSV文件
	filename="百度热搜榜.csv"
	data.to_csv(filename,index=False)
#删除无效列与行
#df.drop('标题', axis=1, inplace = True)
#df.head() 

  #重复值处理

爬取百度热搜榜及数据分析与可视化处理

  print(df.duplicated())

 #检查是否有空值
  print(df['热度'].isnull().value_counts())

  #异常值处理
  print(df.describe())

  

  # 将数据统计信息打印出来

   print(df.describe())

  (1) from sklearn.linear_model import LinearRegression

  X = df.drop("标题",axis=1)
  predict_model = LinearRegression()
  predict_model.fit(X,df['热度'])
  print("回归系数为:",predict_model.coef_)

 #绘制排名与热度的回归图

    以上就是本篇文章【爬取百度热搜榜及数据分析与可视化处理】的全部内容了,欢迎阅览 ! 文章地址:http://syank.xrbh.cn/quote/369.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://kaire.xrbh.cn/ , 查看更多