引言
记录一点昨天现学现卖爬取以太妖怪的代码,以前觉得爬虫很复杂,现在再想,还是挺简单的。
思路很清新,主要就是读取网页信息将网页代码全部拿出来,然后用正则表达式去匹配自己想要的内容。 然后把需要的保存到本地即可。
稍微复杂一点的可能是中文编码问题,比如爬下来的名字乱码,需要写个函数重新转换一下。 (这个编码转换网上也能找到很多源码)
还有点问题的是,有的网站稍微限制爬虫,所以我们爬取时可能需要伪装成chrome或者firefox浏览器, 这个也很容易实现。 不过这个网页没有这个问题。
最后一个问题是,动态网站和静态网站的问题,需要模拟登录, 这个上学期帮一个同学做一键评测脚本时遇到过。 也可以解决。 这里网站一部分数据是静态,另一部分数据是动态,需要登录才能爬取。。 有时间再尝试爬去动态部分。。
源码共享
以下是源码信息,主要是爬取网站所有神兽图片保存本地,同时以图片名的方式保存神兽归属人信息和神兽编号。当然也把信息print
出来了。
这里作者将网站xxxx掉了。防止不必要问题。
结语
学以致用的感觉,真好;如果还能赚钱,那就更好了。