7.1 Kafka 和 Flume 集成
在企业中必须要清楚流式数据采集框架 flume 和 kafka 的定位是什么:
flume:
cloudera公司研发:
适合多个生产者;
适合下游数据消费者不多的情况;
适合数据安全性要求不高的操作;
适合与Hadoop生态圈对接的操作。
kafka:linkedin公司研发:
适合数据下游消费众多的情况;
适合数据安全性要求较高的操作,支持replication。
因此我们常用的一种模型是:
总结
线上数据 --> flume --> kafka --> flume(根据情景增删该流程) --> HDFS