第一步、数据源分析 & 元数据构建
通过对既有数据源进行分类整理、栏目划分、字段拆解,形成一个完整的数据源分析报告,以及对采集到的信息数据进行智能分析最终通过数据源的分析,发现数据之间的关系、规律和取值范围,为数据采用任务做准备。
第二步、编写爬虫 & 任务调度
挂载每个采集爬虫程序,通过实时任务调度系统对微服务进行任务调度,实时数据采集,实时错误监控。
第三步、数据清洗 & 数据导出
编写数据清洗正则,对多源异构数据进行清洗和合并操作,将采集的数据打包导出或者API形式对接到业务平台。
爬虫任务可增加、删除、修改;同时可以手工启动或停止爬虫程序,设置每个爬虫程序的定时启动、停止时间。