侧边栏壁纸
博主头像
另起一行(hang)博主等级

胡编一通,乱写一气

  • 累计撰写 28 篇文章
  • 累计创建 29 个标签
  • 累计收到 1 条评论

目 录CONTENT

文章目录

日常研究 | 网站类目爬取技巧

Wissy
2019-07-11 / 0 评论 / 0 点赞 / 49 阅读 / 1273 字

网站类目爬取技巧

我们在爬取网站的时候,经常因为找不到类目入口需要人工整理类目元数据,再输入到爬虫程序里面,这边介绍的方法目前有两种,1. 获取 JS 对象里面的数据,2. 通过 url 分析,后续在补充

JS 对象里面包含的数据

以京东手机触屏版为例, 打开首页类目的页面

https://so.m.jd.com/webportal/channel/m_category?searchFrom=bysearchbox

我们分析的 JS 的事件 event 都在 document 文件内部,所有我们我们将 html 文件下载到本地并格式化
这个 JS 的文档就是我们想要的数据

# 这样也可以导出JS对象成Json数组
JSON.stringify(window.bigpipe.componentData.m1.data.json)

通过获取类目 URL

这些原理都是很简单,首先都是要 选择​元素,然后 观察​事件的 event,分析 JS 代码

0
  1. 支付宝打赏

    qrcode alipay
  2. 微信打赏

    qrcode weixin

评论区