网络精灵是一款采集软件,可以帮助用户快速采集网页数据。该软件可以根据用户需求智能采集页面。软件提供可视化采集功能,让用户可以看到软件的采集情况和采集到的网页内容。除了收集,软件还可以直接下载网页数据。
1.采集强度
支持JS解析、POST分页、登录集合、跨层集合。对于困难的收藏页面有成熟的解决方案。
2.快速
多任务可以同时运行,每个任务可以设置多个线程,保证运行效率。
3.规模
支持任务的多级分类和批量管理。支持云服务器的分布式部署,配合管理员团队。
4.过程
支持定时采集,定时自动开始任务。通过二次开发,可以实现流量信息的采集和处理。
5.稳定操作
系统运行稳定,要求“0 bug”。目标网页修改后自动通知管理员。
6.准确
定制任务后,采集准确率可以达到100%,即不会遗漏任何一个任务。
放大和缩小范围时的视觉采集配置:
1.提取下一个网址:默认为连续*,按Ctrl为单*。
2.循环采集:按Shift键支持连续*号
3.当有多个*符号时,突出显示它们
视觉采集配置,操作细节:
1.显示完整的XPath:选择后,当前元素不会被取消,而是直接切换。
2.废除选项:复制XPath时覆盖现有内容,改为:复制XPath时按Shift键覆盖现有内容
3.Gecko内核:如果切换回xulrunner_60.0.26,在较低版本xulrunner_45.0.34中COM依然会断开,体验太差
修复错误:
1.循环收集:在整个数据或“关键规则”收集失败后,多次回收URL
2.切换动态层:从当前层切换到动态层时,如果动态层使用“模拟点击”但当前层不使用,会导致“提取下一层XPath出错”。