配置任务以提取 Google 地图上的坐标

 

打开 Octoparse 来创建任务。点击“+”号进入“高级模式”。在框中输入 URL,然后 vb 数据库 按“保存”继续。

现在我们已经成功创建了一个新任务。问题是,Google 地图无法在其内置浏览器中正确 使用浏览器模拟器测试你的设计 加载。为什么?这是因为 Google 地图不适应当前浏览器的用户代理。

  • 要解决此问题,请单击图标。找到“User-agent Switcher

 

  • 。选择Firefox 45.0,然后点击“保存”选项。Octoparse 将自动重新加载网页。
  • 网页加载完成后,我们只需单击内置浏览器即可开始提取。单击名称,“操作提示”面板将显示您可以采取的选项。选择“从选定项目中提取文本”。
  • 您现在应该注意到摘录已成功创建并添加到底层工作流中。我们可以从右上角的设置区域更改字段的名称,输入所需的名称。
  • 进入提取字段,在底部找到“添加默认字段”。点击打开下拉菜单,选择“添加当前页面信息”,选择“网页网址”。
  • 现在网页URL已经成功添加到数据字段。这太棒了!当然,我们需要修改 URL 形状来修剪多余的部分并获取精确的坐标。
  • 点击底部的“自定义”图标(小铅笔)。选择“优化提取的数据”。然后点击 英国电话号码 “添加步骤”按钮。这将带您进入一个功能列表,您可以从中选择用于清理数据的功能。本例中,我们选择“与正则表达式匹配”。你应该到这里来。
  • 这使您可以通过编写正则表达式以任何您想要的方式修改数据。正则表达式是描述搜索模式的特殊文本字符串。由于大多数人难以编写表达式,我们可以使用内置的 RegEx 工具来帮助我们。点击“尝试 RegEx 工具”按钮。
  • 请注意,我们要提取“@”符号之后但在第二个逗号之前的部分。选中“以…开头”框,然后输入“@”。这告诉 RegEx 您想要符号后面的部分。同样,选中“结尾为”框,然后输入“,1”。由于“@”后面有两个逗号,我们最好定义我们想要哪个逗号。只需添加小数点后面的数字,在本例中,添加数字“1”。这告诉 RegEx 您想要逗号和数字 1 之前的部分。单击“生成”按钮,正则表达式应该能够显示在框中。
  • 现在只需单击“匹配”按钮即可确认我们是否已正确设置。生成右边对应的表达式。繁荣!这正是我们想要的。现在继续并单击“应用”,然后单击“确定”进行确认。

运行 Google 地图任务

完毕!你已经完成了。让我们运行爬虫并看看它是否有效。点击“开始提取”,选择“本地提取”。

视频:从 Google 地图提取商店信息

现在,如果您有 1000 个地址需要搜索怎么办?不用担心,Octoparse 允许您在设置任务时输​​入超过 10,000 个 URL。如果您对设置爬虫有任何疑问,请联系。 Octoparse 经过专业设计,可指导您从初学者成为网络抓取专家。我们在这里帮助您成为网络抓取艺术的大师。

 

发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注

滚动至顶部