八爪鱼采集器自定义怎么用 自定模块教程
在上一轮使用八爪鱼采集器模板爬取数据的实践后,相信大家对这款工具已经有了较为深入的了解。或许有人会问,我们真的只能依赖预设的模板来获取数据吗?当然不是。八爪鱼采集器还提供了一套强大的自定义采集功能,让用户能够根据自己的需求去抓取特定数据。相较于预设模块,自定义功能虽然操作上稍微复杂一些,但能够抓取到更加贴合个人需求的数据。下面,本文将为大家详细介绍八爪鱼采集器自定义模块的使用教程。
安装教程:[八爪鱼采集器安装教程]
新手教程:[八爪鱼采集器新手教程]
步骤一
启动并登录您的八爪鱼采集器,进入主界面。点击“新建”选项下的“新建任务组”,创建一个新的任务组。
点击确定,完成新组的创建。
步骤二
创建好任务组后,点击“新建”下的“自定义任务”,进入自定义任务界面。
在界面上,您可以搜索并复制想要爬取的网页链接。
将复制的链接粘贴到网址栏,将任务组设置为先前创建的组,然后点击“保存设置”。
步骤三
保存设置后,会跳转到爬取界面。软件会自动识别网页中可爬取的部分,等待时间因网络速度而异。
识别完成后,您会看到许多数据,其中不乏无用信息,需要您进行筛选。
将光标移动到表格字段上,会出现两个图标,笔图标用于更改字段名,垃圾桶用于删除字段。
您可以根据需要删除或更改字段名,本文中仅保留了部分字段。
步骤四
设置好字段后,您可以将注意力转向上图中的小框。首个不可选,我们可以忽略。
采集前滚动页面加载更多数据:许多网站采用动态页面,部分内容在加载时不会显示,只有下拉时才会逐渐展示。这个功能就是为了防止这种情况。
翻页并采集多页数据:设置爬取多页,不勾选仅爬取当前页。
点击列表中XXX并采集下一级页面:这个功能可以让我们爬取子页面内的内容。
这里我们仅勾选前两项,然后点击“生成采集设置”。
版权声明:以上内容作者已申请原创保护,未经允许不得转载,侵权必究!授权事宜、对本内容有异议或投诉,敬请联系网站管理员,我们将尽快回复您,谢谢合作!