转载请注明出处:http://blog.csdn.net/l1028386804/article/details/79056976
一、场景描述
数据源准备工作详见博文《Python之——自动上传本地log文件到HDFS(基于Hadoop 2.5.2)》。
网站访问流量作为衡量一个站点的价值、热度的重要标准,另外,在CDN服务中心流量会涉及计费,如何快速准确分析当前站点的流量数据至关重要。本实例精确到分钟统计网站访问流量,原理是在mapper操作时将Web日志中小时的每分钟作为key,将对应的发送字节数作为value, 在reducer操作时对相同key做累加(sum)统计。
二、实现MapReduce
【/usr/local/python/source/httpflow.py】
三、生成MapReduce任务
运行如下命令:
此时打印的日志如下: 可以看出,打印出了结果,此时我们通过命令: 查看生成的结果文件: 然后我们通过命令 查看输出的结果如下: 可见输出了结果。 最后建议将分析结果数据定期入库MySQL,生成相应的数据报表。