对 http://bestcbooks.com/ 这个网站的书籍进行爬取
(爬取资源分享在结尾)
下面是通过一个URL获得其对应网页源码的方法
传入一个 url 返回其源码 (获得源码后,对源码进行解析,获得页面中其他的书籍地址和当前页面的书籍的百度网盘的链接,因为这个网站分享的书籍都是用网盘分享的)。
其实这里要讲的方法是按页面逐个去寻找书籍,还有一种比较暴力的是根据宽度优先遍历,找到所有的链接,不管是不是书籍的,然后再进行筛选。
宽度优先遍历可以看之前的一篇 http://www.cnblogs.com/LexMoon/p/javaMyClawler.html
1 public static String getBookUrlCode(String url) throws IOException { 棋牌游戏开发出售商家怎样入驻微信小程序凡科快图登录入口个人博客自我介绍上海有几个区最好俄罗斯电商平台ozon中文网络编辑是做什么的cms免费源码广州注册公司如何经营苏州it外包服务有限公司和责任公司的区别oa系统是什么意思啊网络架构书籍湛江公司做网站南庄九江网站建设看网站的关键词全球最新军事新闻石家庄站全景图个人年终总结ppt模板下载房地产网站推荐东莞推广优化关键词优化工业设计是机械类还是设计类网站建设广告词教育机构网站建设河南省建筑业协会官网江门招聘网最新招聘网页制作三剑客是指什么中企动力科技股份有限公司待遇手机制作app工具公司运营管理系统纳税服务平台