题目内容（请给出正确答案）

[单选题]

在MapReduce中Shuffle的主要作用是（)。

A.将数据进行拆分

B.对映射后的数据进行排序,然后输入到Reducer

C.经过映射后的输出数据会被排序，然后每个映射器会进行分区

D.通过实现自定义的Partitioner来指定哪些数据进入哪个Reducer

查看答案

如果结果不匹配，请联系老师获取答案

您可能会需要：

重置密码查看订单联系客服

安装优题宝APP，拍照搜题省时又省心！

更多“在MapReduce中Shuffle的主要作用是()。”相关的问题

第1题

试述MapReduce的工作流程（需包括提交任务、Map、Shuffle 、Reduce 的过程)。

点击查看答案

第2题

MapReduce过程中,以下属于Shuffle机制的是？（)

A.Copy

B.Partition

C.Combine

D.Sort/Merge

点击查看答案

第3题

在开发大数据计算服务的MapReduce时，可以使用JobClient类中的接口提交MapReduce作业。目前提交方式支持（) 。

A.远程提交

B.本地提交

C.阻塞方式

D.非阻塞方式

点击查看答案

第4题

关于spark中RDD说法错误的是：（)。

A.宽依赖指的是多个子RDD的分区会依赖同一个父RDD的分区，关系是一对多

B.窄依赖指的是每一个父RDD的分区最多被子RDD的一个分区使用，是一对一的

C.宽依赖中会有shuffle的产生

D.窄依赖中会有shuffle的产生

点击查看答案

第5题

下列哪些Hadoop涉及Shuffle的参数是作用于map端的？（）

A.io.sort.mb

B.mapred.compress.map.output

C.mapred.map.output.compression.codec

D.io.sort.spill.percent

点击查看答案

第6题

编号为0，1，…,15的16个处理器，用单级互连网络互连，当用Shuffle（Shuffle)互连函数时，第13号处理器连至的处理器号数是（)

A.7

B.11

C.13

D.14

点击查看答案

第7题

MapReduce执行过程中，数据存储位置不是在GFS上的是（)A、Map处理结果 B、Reduce处理结果C、日志

MapReduce执行过程中，数据存储位置不是在GFS上的是()

A、Map处理结果 B、Reduce处理结果

C、日志

点击查看答案

第8题

大数据计算服务(MaxCompute，原ODPS)提供了MapReduce编程接口，用户可以使用MapReduce提供的SDK编写程序处理大数据计算服务的中的数据。目前提供了()语言的SDK。

A.Perl

B.C++

C.Python

D.Java

点击查看答案

第9题

并行处理机有16个处理单元，编号为0-15，采用shuffle单级网络互连，与13号处理单元相连的处理单元编号是（)

A.15

B.11

C.9

D.7

点击查看答案

第10题

Hadoop中，下列说法正确的三项是（)。

A.Partitioner负责控制map输出结果key的分割

B.Reporter用于MapReduce应用程序报告进度

C.OutputCollector收集Mapper或Reducer输出数据

D.Reduce的数目不可以是0

点击查看答案

第11题

在大数据计算服务(MaxCompute，原ODPS)中，使用MapReduce开发一个分词程序，即输入为保存在表中的多篇文章(每篇文章一行纪录)，参考一个字典文件(该文件会经常更新)进行分词。简而言之，在执行该程序的时候，既需要输入待分词的文章(已经保存在表中了)，又需要输入字典(为经常变动的本地文件)，以下最合理的解决方案为：()。

A.将这个字典与源代码一起进行打包，直接执行即可

B.每次都将字典文件作为资源上传到大数据计算服务上，然后MR中通过资源的方式来访问

C.将字典打包jar包，使用jar命令执行MR程序时，通过resources参数指定该jar包

D.将字典文件保存在本地，在MR中通过访问本地最新的字典文件实现

点击查看答案