关于大数据及应用的描述，不正确的是（）

2023-08-25

A.Fume属于Apache的顶级项目，他是一款高性能，高可用的分布式日志手机系统
B.MapRaduce模式的主要思想是自动将一个大的计算（如程序）拆解成Map（映射）和Reduce（化简）
C.Kafka架构分为两层，即生产者（Producer）和消费者（Consumer）,他们之间可以直接发送消息
D.与Hadoop相比，Spark的中间数据存放在内存中，对于迭代运算而言，效率更高

参考答案：C

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。
MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。概念“Map:（映射）”和“Reduce（归约）”，和它们的主要思想，都是从函数式编程语言里借来的。:它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上，从而实现对'HDFS和HBase上的海量数据分析
Kafka是一种高吞吐量的分布式发布订阅消息系统
Producer
负责发布消息到Kafka broker
Consumer
消息消费者，向Kafka broker读取消息的客户端。
Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab（加州大学伯克利分校的AMP实验室）所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark是一种与Hadoop相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使Spark在某些工作负载方面表现得更加优越，换句话说，Spark启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。
Spark是在Scala语言中实现的，它将Scala用作其应用程序框架。与Hadoop不同，Spark和Scala能够紧密集成，其中的Scala可以像操作本地集合对象一样轻松地操作分布式数据集。
尽管创建Spark是为了支持分布式数据集上的迭代作业，但是实际上它是对Hadoop的补充，可以在Hadoop文件系统中并行运行。通过名为Mesos的第三方集群框架可以支持此行为。Spark由加州大学伯克利分校AMP实验室（Algorithms,Machines,and People Lab）开发，可用来构建大型的、低延迟的数据分析应用程序。