1、需求

采集任务构造入库。实现200多个网站的标题、时间、内容等信息的采集信息配置,并插入mysql中。

image.png

2、实现步骤

步骤1:人工实现Excel表格配置。

定义好唯一索引,如第一列的序号。好处:
1)序号可以成为mysql中的索引。
2)序号规定后,可以实现分布式,1个人4个小时。真正可以实现4个人1小时完成任务。(真正的分布式)
这点,非常重要。
关于索引,实践表明,对于每个网站入口唯一值的定义unique索引,能更进一步防止冲突,确保唯一。

步骤2:将表格存入到txt中。

在linux环境下,进行dos2unix格式转换,确保utf-8编码,确保没有乱码。

步骤3:脚本实现一键构造sql语句。

3、脚本源码

#!/bin/shP2P_CONFIG_FILE=./ _config.txtONE_LINE=./output/conf

收藏 打印