3.3 数据分析

我们的数据已经完整的采集到了 HBase 集群中,这次我们需要对采集到的数据进行分析,统计出我们想要的结果。

注意,在分析的过程中,我们不一定会采取一个业务指标对应一个 mapreduce-job 的方式,

如果情景允许,我们会采取一个 mapreduce 分析多个业务指标的方式来进行任务。

具体何时采用哪种方式,我们后续会详细探讨。

业务指标:

  • 用户每天通话个数统计,通话时长统计。
  • 用户每月通话个数统计,通话时长统计。
  • 用户每年通话个数统计, 通话时长统计.

理论上来说, 我们把 HBase 的数据直接存入到 Mysql 中, 将来查询的时候使用 Mysql 的统计功能是可以完成这样的任务的, 但是需要实时统计, 肯定影响用户的查询速度.

我们现在要做的是, 把这些指标都提前使用 MapReduce 统计好, 然后把统计好的指标数据直接存入到 Mysql 中, 将来查询的只需要做简单的查询就可以了, 不需要做统计. 这样可以大大的提高查询的速度, 提高用户体验.

Copyright © 尚硅谷大数据 2019 all right reserved,powered by Gitbook
该文件最后修订时间: 2018-12-27 20:52:29

results matching ""

    No results matching ""