CrawlWorm Picture是一款非常方便的图片抓取工具,可以根据用户提供的网站抓取数据图片。主要用于图片的抓取,使用起来非常方便。可以根据自己想要的图片设置搜索参数,抓取后可以根据关键词对图片进行分类存储。
本软件属于网络应用软件,是Windows平台上使用的网络图像抓取工具。其主要功能是根据提供的网址对网页源代码进行分析,获取网站图片资源,并实现简单分类存储在数据库和硬盘中。
(1)该技术需要与SQL Server数据库一起使用
(2)获取图片
获取图片时,用户需要输入要抓取的根URL,这里的根URL需要保证存在。如果不存在,会提示web源代码获取失败,导致任务启动失败。
(3)搜索参数设置
在搜索参数设置时,需要仔细考虑各种参数之间的约束关系,以下情况需要说明。
如果搜索深度设置太大,需要将捕获数据容量设置得更大,否则任务会因为捕获容量不足而被迫停止捕获。
如果您可以确保网络连接正常,请选择不使用代理服务器。因为使用了代理服务器,所以如果代理服务器在任务执行过程中出现故障或者停止活动,就需要重新选择代理服务器,更换代理服务器会花费很多时间。
在选择开始执行时间时,很难将执行时间设置得太长,因为设置太长会使任务等待很长时间,所以建议只在任务很少的时候设置。
(4)关键词管理
在关键词管理中,需要注意的是,在添加主关键词的时候,要同时添加一个与主关键词同名的子关键词,因为在对图片进行分类的时候,会先比较子关键词,只有子关键词匹配之后,才能确定它们的分类归属。
另外需要注意的是,删除主关键词时,与其相关的所有子关键词都会一起删除。
(5)多任务处理
考虑到任务的资源消耗,将同时要执行的任务数设置为5,超过5个的任务只能处于等待状态,完成后只能执行5个要执行的任务。