下载安卓APP箭头
箭头给我发消息

客服QQ:3315713922

通过python分布式开发 网页数据抓取(一)——设计

作者:课课家教育     来源: http://www.kokojia.com点击数:1137发布时间: 2016-01-08 14:06:17

标签: python数据库设计

大神带你学编程,欢迎选课

  这几天做一个小项目,分给我的模块是对于BOKECC体系网站的抓取。

  从来没有用过Python,这次来尝一下鲜,感觉还行~

  BOKECC就是一个视频网站的解决方案,我的任务很简单,就是给定一个网址,我来抓取对应页面上的数据内容。

  整个系统采用分布式架构,我来负责做爬虫节点。

  

通过python进行分布式网页数据抓取(一)——设计_python_课课家

 

  简单来说就是整个系统可分布式部署,每个节点接收来自控制者的远程调用,独立完成任务,并向上级汇报完成情况。

  这里采用暴露WebService的方式来提供接口。

  BOKECC体系网站有非常多个,通过进行实际情况调研,发现各个页面在数据上有所不同(但大同小异),为了省事,我决定只用一套代码来爬取所有对应站点。那就要求我们的代码具有通用性。

  另外,客户端要实现0配置,爬取的结果写入数据库。(数据库配置参与也应该由控制者——WEB接口调用者来决定)。所以我们在节点上维护一个数据库连接池。

  大致流程如下:

  

 

  在实际编码过程中也没有严格遵守此流程,进行了相应的扩展,不过大体如上。

  日志记录设计

  

  技术选型:

  开发平台: WindowsXP

  部署平台: 跨平台

  编程语言:python2.5

  IDE+plug-in:MyEclipse 7.0 + pydev

  具体使用的python技术:

  

  下面一节将进入正式编码阶段。  (课课家

赞(35)
踩(2)
分享到:
华为认证网络工程师 HCIE直播课视频教程