链家租房爬虫脚本,有三个参数
- --city:城市的名称
- --file: 想要保存的文件名称
- --database: 布尔值,是否保存到数据库
包括统计学分析以及文本部分的分析
针对价格分析
- 均价分析
- 分区域租金分析
- 分区域价格区间统计
- 区域租金可视化
主要是针对商家描述分析
- 分词
- 停用词去除
- textrank权重高频词汇展示
- 词云
链家租房爬虫脚本,有三个参数
- --work:想要爬取的职位名称
- --file: 想要保存的文件名称
- --db: 数据库名,默认不保存
- 豆瓣爬虫,以蚁人为例,稍改即可爬取其他电影影评
- 添加了模拟登陆,通过在控制台输入账户密码模拟登陆
- 当登陆次数过多,需要验证码时,可以手动输入验证码,登陆
- 文本分析为主