今年想看的书单越积累越长,优先级也处于不断调整的状态。 最近业余时间阅读了两本爬虫的书籍,也写了一些爬虫代码。

最近两三周算是重温了爬虫的知识,几年前写过一些网页抓取的程序,感觉挺好玩的,那时主要是工作中需要用到,爬取网络中的游戏安装包和微博数据等。使用的技术也比较原生,没有使用Scrapy等框架。最近两周大概看了Scrapy的官方文档和两本书:《Learning Scrapy》《用Python写网络爬虫》,不仅对巩固了对之前掌握的知识的熟悉程度,也初步了解了Scrapy这个强大的框架。也抓取了豆瓣电影中所有的视频信息和日本乐天电商网站的部分信息。对爬虫中会遇到的问题有了更深的认识和相应的解决方案的熟稔。

看书是温习和学习最高效同时最系统的方式,当然,技术离不开代码实践,看书+实践是最有效的学习方式。继续坚持学习!

以后业余时间可以利用Scrapy爬一些自己感兴趣的数据来玩了。最好是配合Python数据处理和分析,以及自己感兴趣的机器学习的内容。

此前由于优先级调整的关系暂停的阅读和学习计划该继续执行了。

It is never too late to learn. Practice makes perfect.