由于近年来淘宝的反爬措施逐渐完善,爬取难度变大,在爬取时必须要登录之后才能查看相关的商品信息,淘宝数据是通过动态加载的方式显示的,所以本文使用selenium模拟浏览器操作爬取商品页详情信息。
需要提取安装和selenuim和浏览器驱动chromedriver,由于chorme浏览器的自动更新,所以导致我的chrome浏览器版本和chromedriver版本不一致,所以使用了 chromedriver_path=r’C:ProgramFilesGoogleChromeApplicationchromedriver.exe’
browser = webdriver.Chrome(executable_path=chromedriver_path) 的方法成功加载了浏览器,在爬取淘宝美食的时候需要手动扫码等陆才可以保证爬取的顺利进行,最终成功爬取2733条记录。
在mongodb Compass看到以下数据: 在mongodb的bin目录下使用命令:mongoexport -d taobao -c meishi.food -f _id,price,deal,title,shop,location–csv -o https://blog.csdn.net/weixin_44804615/article/details/D:/kesci.淘宝美食.csv 得到下表: 使用jupyter notebook读取数据 具体的清洗目标,这里以第一列数据为例: