Skip to content

链家网、拉勾网、豆瓣影评爬虫与简单数据分析

Notifications You must be signed in to change notification settings

fennuDetudou/web_crawler

Repository files navigation

web_crawler

链家爬虫——静态网页爬虫

爬虫部分

链家租房爬虫脚本,有三个参数

  • --city:城市的名称
  • --file: 想要保存的文件名称
  • --database: 布尔值,是否保存到数据库

分析部分

包括统计学分析以及文本部分的分析

统计分析

针对价格分析

  • 均价分析
  • 分区域租金分析
  • 分区域价格区间统计
  • 区域租金可视化

文本分析

主要是针对商家描述分析

  • 分词
  • 停用词去除
  • textrank权重高频词汇展示
  • 词云

拉勾网爬虫——ajax爬虫

链家租房爬虫脚本,有三个参数

  • --work:想要爬取的职位名称
  • --file: 想要保存的文件名称
  • --db: 数据库名,默认不保存

豆瓣影评爬虫——selenium模拟浏览器

爬虫部分

  • 豆瓣爬虫,以蚁人为例,稍改即可爬取其他电影影评
  • 添加了模拟登陆,通过在控制台输入账户密码模拟登陆
  • 当登陆次数过多,需要验证码时,可以手动输入验证码,登陆

分析部分

  • 文本分析为主

About

链家网、拉勾网、豆瓣影评爬虫与简单数据分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published