[爬虫1] 爬取阿里某宝的司法拍卖数据

升级到了 selenium 4.16 版本, 不需要 chromedriver.exe文件了

以下开头采用 chrome remote dev tools 方法, 多个chrome 远程调用他, 并且执行.

打开chrome并打开URL2也就是某宝司法拍卖的地址了

url2 = "https://sf.taobao.com/item_list.htm?spm=a213w.3064813.a214dqe.20.469d3fe7hMFfbz&city=&province=%B9%E3%B6%AB&auction_start_seg=-1"

remote = '127.0.0.1:15021'
# driver = webdriver.Chrome()  #注释掉,换做下面的
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", remote)
# chrome_driver = "F:\git-code\my_pyLib\chromedriver.exe"

driver = webdriver.Chrome(options = chrome_options)

print (f"shoud be connected now, openning {url2}, waiting 60 to stop ..")

driver.switch_to.new_window('tab')
main_wd_handle = driver.current_window_handle   

driver.get(url2)
Read more: [爬虫1] 爬取阿里某宝的司法拍卖数据

其中 url 起始页 实际可以使用 https://sf.taobao.com/list/0____%B9%E3%B6%AB.htm 对应的是广东区

定位到每一个法拍的数据, 可以发现, 缩略图的地址应该是:

但是实际抓取 attribute href 获得是 g.alicdn.com/s.gif

检查, 对 img 这个标签抓取 outterHTML 的 atriibute 得到

<img class="pic" src="//g.alicdn.com/s.gif" data-ks-lazyload="//img.alicdn.com/bao/uploaded/i3/2209930427874/O1CN01eQkala282LUAtFKxa_!!2209930427874-2-paimai_gov.png_300x1000" alt="(破)伊思德(中国)有限公司对翟延军的债权 - 拍卖">

所以实际的缩略图url的attribute 应该是 data-ks-lazyload.

实际测试 有可能是 src, 也有可能是 data-ks-lazyload.

其他问题 – 目前还没办法找到 a tag 里面 正确的 href

实际的 href 是:

https://sf-item.taobao.com/sf_item/753708695302.htm?spm=a213w.7398504.paiList.1.60524566xlNyJs&track_id=ef8bd133-3758-4b8a-a9b8-239cac0adba7

对应的tag

<a class="link-wrap" href="//sf-item.taobao.com/sf_item/753708695302.htm?spm=a213w.7398504.paiList.1.60524566xlNyJs&amp;track_id=ef8bd133-3758-4b8a-a9b8-239cac0adba7" target="_blank" data-index="0" data-spm-anchor-id="a213w.7398504.paiList.1">

sf-item.taobao.com/sf_item/753708695302.htm?spm=a213w.7398504.paiList.1.60524566xlNyJs&amp;track_id=ef8bd133-3758-4b8a-a9b8-239cac0adba7

抓取 href attribute 获得是:

<a class="link-wrap" href="//sf-item.taobao.com/sf_item/756842965878.htm?track_id=ad0d4360-38e1-487e-914b-befba3ad0037" target="_blank" data-index="46">

sf-item.taobao.com/sf_item/756842965878.htm?track_id=ad0d4360-38e1-487e-914b-befba3ad0037

少了一截 spm, 找不到attribute data-spm-anchor 不知道是干啥用的 暂时不管了