章鱼收集器的最新官方版本是专业的网络数据收集器。章鱼收集器可以帮助用户轻松从网站收集数据,章鱼收集器可以自定义收集过程。而且章鱼采集器采集效率高,保证时效性。
函数声明
简易采集
简单收藏模式是用数百个主流网站数据源搭建的,比如JD.COM、天猫、大众点评等热门收藏网站。只需参照模板设置参数,即可快速获取网站公共数据。
智能采集
章鱼收藏可以根据不同的网站提供多种网页收藏策略和配套资源,并且可以定制、组合使用、自动处理。从而帮助整个采集过程实现数据的完整性和稳定性。
云采集
5000多台云服务器支持的云采集可连续运行7*24小时,无需专人值守即可实现定时采集,灵活契合业务场景,帮助您提高采集效率,保证数据时效性。
API接口
通过Octopus API,可以轻松获取Octopus任务信息和采集到的数据,灵活调度任务,如远程控制任务的启动和停止,高效实现数据采集和归档。基于强大的API系统,还可以与公司各种内部管理平台无缝对接,实现各种业务自动化。
自定义采集
根据不同用户的收藏需求,Octopus可以提供自动生成爬虫的自定义模式,可以批量准确识别各种网页元素,并具备翻页、下拉、ajax、页面滚动、条件判断等多种功能。支持不同网页结构的复杂网站集合,满足各种集合应用场景。
便捷定时功能
只需点击几个步骤的设置,就可以实现采集任务的定时控制。无论是单次采集的定时设置,还是预设的某一天或每周每月的定时采集,都可以同时自由设置多个任务,并根据需要组合多个选定的时间,灵活分配自己的采集任务。
全自动数据格式化
Octopus内置了强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、空格移除、前缀或后缀添加、日期和时间格式化、HTML转码等诸多功能。无需人工干预即可获得所需格式的数据。
多层级采集
许多主流新闻和电子商务网站包括一级产品列表页面、二级产品详细信息页面和三级评论详细信息页面。无论网站有多少级,八达通都可以无限级采集数据,满足各种业务的采集需求。
支持网站登录后采集
八达通内置了采集和登录模块,只需配置目标网站的账号密码,即可采集登录数据。同时,章鱼还有收集饼干的定制功能。第一次登录后,可以自动记住cookies,避免了多次输入密码的繁琐过程,支持收藏更多网站。