hadoop,hive,hbase知识串讲复习篇

一晃三年多,2014年5月,那时候还是hadoop人才一票难求的时候。开始自学hadoop,看视频,记笔记,搭建伪分布式集群,做项目;2014年9月,通过几层面试,进去CAS实习,做流式计算(hadoop,spark)的探究,写综述,写论文;2015年6月,在一家大数据公司实习,使用hive,hadoop接触广告数据;2015年12月,使用hadoop做招聘数据。一直到现在,偶尔会接触到hadoop。只能说,没有最深,只有不断的用到,再熟悉。而这一整个过程,世界久了,难免会记忆不牢靠啊。 然我写的都给我自个看的。

全文文字几乎没有,全是图片。

1

2

3

4

5

6

Derby数据库是一个纯用Java实现的内存数据库

hive存储方式:

7

hive的内存调优:

8

9

10

11

12

13

Hadoop的序列化格式:Writable

14

15

16

partitioner,适用于二次排序场景,分组,排序。

17

shuffle:

18

19

20

21

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务 HBase利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。

22

23



版权申明

知识共享许可协议
本作品采用知识共享署名-非商业性使用 4.0 国际许可协议进行许可。 转载文章请注明原文出处。

天道酬勤
评分4.8/5 based on 20