我想抓取页面并检查相应页面中的超链接,然后跟踪这些超链接并从页面捕获数据
请您参考如下方法:
通常,浏览器 JavaScript 只能在其来源域内抓取,因为抓取页面将通过 Ajax 完成。 , 受 Same-Origin Policy 限制.
如果运行爬虫脚本的页面在 www.example.com 上,那么该脚本可以爬取 www.example.com 上的所有页面,但不能爬取任何其他来源的页面(除非某些极端情况适用,例如,为另一台服务器上的页面设置了 Access-Control-Allow-Origin header )。
如果您真的想在浏览器 JS 中编写一个功能齐全的爬虫,您可以编写一个浏览器扩展:例如,Chrome extensions是使用特殊权限运行的打包 Web 应用程序,包括 cross-origin Ajax .这种方法的困难在于,如果您想支持多种浏览器,您将不得不编写多个版本的爬虫。 (如果爬虫仅供个人使用,那可能不是问题。)






