豆瓣租房爬虫是一款收集房源信息的软件。专门给豆瓣集团用的,最近豆瓣集团查询非常年轻的人租房信息。有很多价格优惠的优质房源,这个工具允许用户在设置关键词和价格后自动抓取和收集房源信息。
过程也相对简单:
配置网址;爬行;
配置需要解析的信息元素,用XPATH完成;
配置代理;
配置监控周期、最大页数、并发数等。
运行爬虫,等待抓取,根据配置定期自动抓取;
启动web服务,前台搜索排序;
第二,设置理想价格,排除关键词。
第三,点击抓取获取列表信息,等待软件获取带有相关关键词的列表。
4.用typora软件打开抓取的MD文件,查看列表信息。
首先,在某个区域搜索租房,比如在北京租房
点击一个群往上爬,比如第一个:在北京租房
将页面拉到底部。有一个超链接,可以进行更多的小组讨论。点击它
复制地址栏中的地址(从/组到最后)并粘贴到软件设置豆瓣组链接中
有时粘贴到软件中会崩溃。我不知道为什么。我建议删除软件中原来的链接,重新粘贴进去。
将start=后的数字50更改为%d
完成
如何设置排除关键词?
排除关键字是标题和内容。只要关键词出现,租赁信息就会被排除。
例如,默认为关键字“仅限女性”。只要租房信息中包含女生入住受限,关键词“限女生”就不会往上爬。
多个关键字由|分隔。请注意,它们是英文的。
比如:限女性|短租|全租。这三个关键词设置好之后,只要标题和内容出现,软件就不会抓取。
关于确定标题中的价格
使用常规的{ 4 } b来识别标题中的价格信息,不可能抓取低于1000元的信息。
关于爬行结果的排序
先按价格从小到大排序,价格相同时按发帖时间排序。