银子弹

About industrial design engineering..

Tag: selenium

[爬虫1] 爬取阿里某宝的司法拍卖数据

升级到了 selenium 4.16 版本, 不需要 chromedriver.exe文件了 以下开头采用 chrome remote dev tools 方法, 多个chrome 远程调用他, 并且执行. 打开chrome并打开URL2也就是某宝司法拍卖的地址了 其中 url 起始页 实际可以使用 https://sf.taobao.com/list/0____%B9%E3%B6%AB.htm 对应的是广东区 定位到每一个法拍的数据, 可以发现, 缩略图的地址应该是: 但是实际抓取 attribute href 获得是 g.alicdn.com/s.gif 检查, 对 img 这个标签抓取 outterHTML 的 atriibute 得到 所以实际的缩略图url的attribute 应该是 data-ks-lazyload. 实际测试 有可能是 src, 也有可能是 data-ks-lazyload. 其他问题 – 目前还没办法找到 a tag 里面 正确的 href 实际的 […]

Read More