python日志简单分析实战

2019-05-27

从运营的角度如果一个只做内容的网站只看访问量是不够的，还需要关注用户打开的那些网站地址最多，打开的地址越多表明这个文章就是热点文章，最开始的自动标热功能就是这么来的，所以一般公司都会有详细的后台统计系统，不过对我们一般人来说，如果只是自己搭建个小站，实在没必要去再开发个系统，当然用第三方的统计系统也能解决问题，关键就看你放不放心了，比如我的小站www.mindg.cn ，假如我要看每天打开的链接地址最多的是那些？其实不用借助任何第三方系统，自己写个脚本也就实现了，代码如下：

importcollections

logfile =open("logfile.log", "r")

clean_log=[]

for line inlogfile:

    try:

       clean_log.append(line[line.index("GET")+4:line.index("HTTP")])

    except:

        pass

counter =collections.Counter(clean_log)

for count incounter.most_common(50):

    print(str(count[1]) + " " + str(count[0]))

logfile.close()

注意哟，我这是分析的apache日志，其实分析什么不重要，重要的是思路和python模块的灵活运用，所以今天来讲解下collections模块的用法，脚本解释，首先打开你的日志，定义一个列表，通过切片将访问的地址加入到列表中，Counter类的目的是用来计算值出现的次数，它是一个无序的容器类型，以字典的键值对形式存储，其中元素作为key，其计数作为value，counter.most_common(),返回一个列表，需要一个参数n,如果n没有被指定，则返回所有元素。当多个元素计数值相同时，按照字母序排列，这里指定是50，表示要找访问50次的地址，然后就是print出来，最后关闭文件，脚本结束，这篇就到这里，欢迎转发。