大数据的Hadoop架构体系

作者：IT技术百货来源：今日头条点击数：1332发布时间： 2019-09-28 15:46:05

标签：大数据数据分析数据管理

面试系列：深入理解Hadoop架构体系。大数据技术的战略意义不在于掌握庞大的数据信息，而在于对这些含有意义的数据进行专业化处理。换而言之，如果把大数据比作一种产业，那么这种产业实现盈利的关键，在于提高对数据的“加工能力”，通过“加工”实现数据的“增值”。

Hadoop架构体系面试题：HDFS的进程构成及其作用;nameNode进程：负责对外展示文件的层级结构、管理客户端对文件的访问(如：打开、关闭、重命名等)、决定文件block与dataNode的对应关系等。

Hadoop组件简介

官方文档组织的非常清晰，主要由以下四个组件组成:HDFS、map-reduce、yarn、hadoop-common

hdfs架构

HDFS

分布式文件存储系统，主要特点是：

可以运行在普通低成本硬件之上
并且具备高容错性(硬件容错)
适合高吞吐量的大数据存储，但并不强调低延迟
适合一次写，多次读的场景，不支持随机读写;

map-reduce

map-reduce是一个计算框架，绝大部分的数据处理都可以转化为map、reduce组合，然后利用map-reduce框架进行计算、处理;

yarn

资源管理器，核心的思想时将资源的调度管理与资源监控分割为两个进程，其中一个是ResourceManager，另一个是NodeManager，前者负责资源的分配、后者负责资源监控;

common

hdfs、map-reduce所需要的公共库;

面试题

HDFS的进程构成及其作用;
nameNode进程：负责对外展示文件的层级结构、管理客户端对文件的访问(如：打开、关闭、重命名等)、决定文件block与dataNode的对应关系;
secondNameNode进程：从名字来看，应该是nameNode的back up，然而并不是，其主要作用是协助nameNode管理editLog;
dataNode：主要负责数据存储以及客户端的读写请求以及block的创建、删除等;

详细解释map过程的细节：

map过程主要是实现key-value集合到key-value集合的映射，可以实一对一、一对多、多对多映射;
详细过程是：map -> group -> sorted -> partitioned
group：相同的key放到一起;
sorted：按照key进行排序
partition：对key进行分区，最终分区数量一般等于task数量;

详细解释reduce过程细节：

首先是shuffle，即从map端拉取数据到reducer端;
之后是group，也就是相同的key可能来自于不同的map，所以需要group
之后是sort过程(再map阶段排序的基础之上，进行归并排序即可)
最后是second sort(用户自定义，如果没有自定义则不执行)
最后是reduce过程。

setCombinerClass的作用：

在map端先进行一部分reduce工作，主要优点是减少shuffle成本;但也有一定的局限性，仅仅适用于reduce的输入和输出数据类型相同时;

简单介绍Federation架构：

Federation架构通过多个独立的NameNode实现集群的横向扩展，主要解决了HDFS的吞吐量及承载量受限于单个nameNode，并且无法根据namespace做隔离的弊端。

在存储层，各个nameNode共用统一的DataNode

从技术上看，大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理，必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

踩(0)

分享到：

上一篇：大数据的数据分析的有哪几种思维？

关注微信公众号，可下载APP应用。

大数据的Hadoop架构体系

面试题

利用Kettle+FineBI+MySQL构建电商运营分析报表可视化平台视频教程

大数据从入门到精通（徐培成亲授）视频教程

Kettle从入门到精通视频教程

Hadoop大数据从入门到精通（行业最强，备javaee）视频教程

基于Flink流处理的动态实时电商实时分析系统视频教程

2022下半年信息系统项目管理师上午综合知识真题及答案解析

2022下半年信息系统项目管理师下午案例分析真题及答案解析

2022下半年系统集成项目管理工程师上午真题及答案解析

2022下半年系统集成项目管理工程师下午真题及答案解析

2022下半年网络工程师上午真题及答案解析

粤ICP备13047178号粤公网安备44010602001432号

广州挪贤计算机科技有限公司版权所有

Copyright @ 2013-2023 KokoJia.com Inc. All Rights Reserved.

客服热线：

9:00~19:00

关注微信公众号，可下载APP应用。

大数据的Hadoop架构体系

面试题

利用Kettle+FineBI+MySQL构建电商运营分析报表可视化平台视频教程

大数据从入门到精通（徐培成亲授）视频教程

Kettle从入门到精通视频教程

Hadoop大数据从入门到精通（行业最强，备javaee）视频教程

基于Flink流处理的动态实时电商实时分析系统视频教程

2022下半年信息系统项目管理师上午综合知识真题及答案解析

2022下半年信息系统项目管理师下午案例分析真题及答案解析

2022下半年系统集成项目管理工程师上午真题及答案解析

2022下半年系统集成项目管理工程师下午真题及答案解析

2022下半年网络工程师上午真题及答案解析

粤ICP备13047178号 粤公网安备44010602001432号

广州挪贤计算机科技有限公司 版权所有

Copyright @ 2013-2023 KokoJia.com Inc. All Rights Reserved.

客服热线：

9:00~19:00

粤ICP备13047178号粤公网安备44010602001432号

广州挪贤计算机科技有限公司版权所有