一晃三年多,2014年5月,那时候还是hadoop人才一票难求的时候。开始自学hadoop,看视频,记笔记,搭建伪分布式集群,做项目;2014年9月,通过几层面试,进去CAS实习,做流式计算(hadoop,spark)的探究,写综述,写论文;2015年6月,在一家大数据公司实习,使用hive,hadoop接触广告数据;2015年12月,使用hadoop做招聘数据。一直到现在,偶尔会接触到hadoop。只能说,没有最深,只有不断的用到,再熟悉。而这一整个过程,世界久了,难免会记忆不牢靠啊。 然我写的都给我自个看的。
全文文字几乎没有,全是图片。
Derby数据库是一个纯用Java实现的内存数据库
hive存储方式:
hive的内存调优:
Hadoop的序列化格式:Writable
partitioner,适用于二次排序场景,分组,排序。
shuffle:
ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务 HBase利用HadoopHDFS作为其文件存储系统,利用HadoopMapReduce来处理HBase中的海量数据,利用Zookeeper作为协调工具。