Hive实战—求北上广深等地知名商场的日均到访

前端之家收集整理的这篇文章主要介绍了Hive实战—求北上广深等地知名商场的日均到访前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

《Hive实战—求北上广深等地知名商场的日均到访》要点:
本文介绍了Hive实战—求北上广深等地知名商场的日均到访,希望对您有用。如果有疑问,可以联系我们。

《Hive实战—求北上广深等地知名商场的日均到访》是否对您有启发,欢迎查看更多与《Hive实战—求北上广深等地知名商场的日均到访》相关教程,学精学透。编程之家PHP学院为您提供精彩教程。

Hive实战—求北上广深等地知名商场的日均到访

Apache Hive logo

Hive实战-求北上广深等地知名商场的日均到访

# 输入数据

有商场数据如下:

id name

1 北京-华联商厦

2 北京-朝阳大悦城

3 武汉-武商摩尔城

4 武汉-光谷世界城

5 青岛-海信广场

6 重庆-龙湖天街

7 上海-晶品购物中心

8 深圳-龙华九方购物中心

9 广州-中港皮具城

......

# 数据传到能执行hdfs命令所在服务器

scp id_name.txt zyl@hive_svc:/home/zyl/data

# 选择Hive所使用库

use zyl_product;

# 创建外部分区表,添加分区

create external table tmp_id_name_tab (mallid string,mallname string)

PARTITIONED BY(dt String)

row format delimited fields terminated by '\t'

stored as textfile location '/user/zyl/tmp_id_name_tab/init_Meta';

ALTER TABLE tmp_id_name_tab

ADD PARTITION (dt='zsy_20171018_01')

location '/user/zyl/tmp_id_name_tab/zsy_20171018/01';

# 数据传到Hive外部表分区zsy_20171018_01所在的HDFS上

hdfs dfs -put id_name.txt /user/zyl/tmp_id_name_tab/zsy_20171018/01

# 查看是否有数据(要确保有数据)

select * from tmp_id_name_tab a where a.dt = 'zsy_20171018_01' limit 10;

# 商场日均平均数

select mallid,mallname,ceil(avg(cnt)) avg_ceil from

(

select mallid,day,count(1) cnt from

(

select /*+mapjoin(b)*/mallid,personid from zyl_product.mall_probe_data a

join

(select mallid,mallname from zyl_product.tmp_id_name_tab a where a.dt = 'zsy_20171018_01') b

on (a.buildingid = b.id)

) a group by id,day

) a

group by id,mallname

Hive实战—求北上广深等地知名商场的日均到访

代码截图

# 简单说明

1.表简要介绍

mall_probe_data表是基础数据,里面有商场id、persoinid、日期等

2.sql思路介绍

先用mapjoin在内存中装载id映射表(zyl_product库tmp_id_name_tab表),然后求商场每天的去重到访数,最后求商场日均到访数并向上取整.

难道没人发现bug吗?

需要去重按天对mac去重,加上group by mallid,personid

修复版如下:

# 商场日均平均数

select mallid,ceil(avg(cnt)) avg_ceil from

(

select mallid,count(1) cnt from

(

select /*+mapjoin(b)*/mallid,personid from zyl_product.mall_probe_data a

join

(select mallid,mallname from zyl_product.tmp_id_name_tab a where a.dt = 'zsy_20171018_01') b

on (a.buildingid = b.id)

group by mallid,personid

) a group by id,day

) a

group by id,mallname

Hive实战—求北上广深等地知名商场的日均到访

猜你在找的Apache相关文章