ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

4-网站日志分析案例-日志数据统计分析

2021-12-28 11:59:57  阅读:193  来源: 互联网

标签:统计分析 05 30 hive 案例 2015 日志 logtable


文章目录

4-网站日志分析案例-日志数据统计分析

一、环境准备与数据导入

1.开启hadoop

如果在lsn等虚拟环境中开启需要先执行格式化

hadoop namenode -format

启动Hadoop

start-dfs.sh
start-yarn.sh

查看是否启动

jps

2.导入数据

将数据上传到hadoop集群所在节点

创建hdfs目录

hadoop fs -mkdir -p /sx/cleandlog

将数据上传到hdfs上,并重命名为log2015_05_30

hadoop fs -put /home/ubuntu/Code/part-r-00000 /sx/log2015_05_30

二、借助Hive进行统计

1.1 准备工作:建立分区表

HIVE
为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。这里我们选择分区表,以日期作为分区的指标,建表语句如下:(这里关键之处就在于确定映射的HDFS位置,我这里是/project/techbbs/cleaned即清洗后的数据存放的位置)

hive>CREATE EXTERNAL TABLE logtable (ip string, atime string, url string) PARTITIONED BY (logdate string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LOCATION '/sx/cleandlog';

建立了分区表之后,就需要增加一个分区,增加分区的语句如下:(这里主要针对20150530这一天的日志进行分区)

hive>ALTER TABLE logtable ADD PARTITION(logdate='2015_05_30') LOCATION '/sx/cleanedlog/2015_05_30'; 

hive>LOAD DATA INPATH '/sx/log2015_05_30' INTO TABLE logtable PARTITION (logdate ='2015_05_30');

1.2 使用HQL统计关键指标

(1)关键指标之一:PV量

页面浏览量即为PV(Page View),是指所有用户浏览页面的总和,一个独立用户每打开一个页面就被记录1 次。这里,我们只需要统计日志中的记录个数即可,HQL代码如下:

hive>CREATE TABLE logtable_pv_2015_05_30 AS SELECT COUNT(1) AS PV FROM logtable WHERE logdate='2015_05_30';

select * from logtable_pv_2015_05_30;

在这里插入图片描述

(2)关键指标之二:注册用户数

该论坛的用户注册页面为member.php,而当用户点击注册时请求的又是member.php?mod=register的url。因此,这里我们只需要统计出日志中访问的URL是member.php?mod=register的即可,HQL代码如下:

hive>CREATE TABLE logtable_reguser_2015_05_30 AS SELECT COUNT(1) AS REGUSER FROM logtable WHERE logdate='2015_05_30' AND INSTR(url,'member.php?mod=register')>0;  

select * from logtable_reguser_2015_05_30;

在这里插入图片描述

(3)关键指标之三:独立IP数

一天之内,访问网站的不同独立 IP 个数加和。其中同一IP无论访问了几个页面,独立IP 数均为1。因此,这里我们只需要统计日志中处理的独立IP数即可,在SQL中我们可以通过DISTINCT关键字,在HQL中也是通过这个关键字:

hive>CREATE TABLE logtable_ip_2015_05_30 AS SELECT COUNT(DISTINCT ip) AS IP FROM logtable WHERE logdate='2015_05_30';

select * from logtable_ip_2015_05_30 ;

在这里插入图片描述

(4)关键指标之四:跳出用户数

只浏览了一个页面便离开了网站的访问次数,即只浏览了一个页面便不再访问的访问次数。这里,我们可以通过用户的IP进行分组,如果分组后的记录数只有一条,那么即为跳出用户。将这些用户的数量相加,就得出了跳出用户数,HQL代码如下:

hive>CREATE TABLE logtable_jumper_2015_05_30 AS SELECT COUNT(1) AS jumper FROM (SELECT COUNT(ip) AS times FROM logtable WHERE logdate='2015_05_30' GROUP BY ip HAVING times=1) e;

select * from logtable_jumper_2015_05_30 ;

PS:跳出率是指只浏览了一个页面便离开了网站的访问次数占总的访问次数的百分比,即只浏览了一个页面的访问次数 / 全部的访问次数汇总。这里,我们可以将这里得出的跳出用户数/PV数即可得到跳出率。

在这里插入图片描述

(5)将所有关键指标放入一张汇总表中以便于通过Sqoop导出到MySQL

为了方便通过Sqoop统一导出到MySQL,这里我们借助一张汇总表将刚刚统计到的结果整合起来,通过表连接结合,HQL代码如下:

hive>CREATE TABLE logtable_2015_05_30 AS SELECT '2015_05_30', a.pv, b.reguser, c.ip, d.jumper FROM logtable_pv_2015_05_30 a JOIN logtable_reguser_2015_05_30 b ON 1=1 JOIN logtable_ip_2015_05_30 c ON 1=1 JOIN logtable_jumper_2015_05_30 d ON 1=1;

select * from logtable_2015_05_30 ;

在这里插入图片描述

使用Sqoop导入到MySQL以及可视化展示部分不再介绍,详细可参考
https://www.cnblogs.com/edisonchou/p/4464349.html

总结

本文为网站日志分析案例的第4部分,基于MR清洗后的数据导入HIVE中,然后进行统计分析。

标签:统计分析,05,30,hive,案例,2015,日志,logtable
来源: https://blog.csdn.net/m0_38139250/article/details/122187454

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有