在郑州大数据培训学习的过程,随着Java阶段的结束,我们迎来了Hadoop阶段,再度投入到了紧张的学习。新的知识点非常多,学习的方式也和之前的Java阶段有所区别,代码的比重显著降低。我们绝大多数时间是用来在虚拟机上操作配置Hadoop生态圈组件,这个过程十分麻烦但也十分重要,作为未来公司里的数据处理者,将这些工具的操作方式熟记于心是最基本的要求。
Hadoop是一种分析和处理大数据的软件平台,是Appach的一个用Java语言所实现的开源软件的加框,在大量计算机组成的集群当中实现了对于海量的数据进行的分布式计算。Hadoop的框架最核心的设计是:HDFS和MapReduce,HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算。
目前学习的最多是关于mapper和reduce人的算法,进行一些日志数据数据的筛选和一些数据库文件的处理。关于mapper和reduce人的底层的原理,我有了更加详细的的认识,对于hadoop的处理机制也有了更多的了解。
yarn资源调度管理分配是指MRappmaster根于yarn获得的文件信息,对文件进行了分配,产生多个maptask,每个会对一定的数据进行算法的处理,并且会在底层进行排序,处理过得数据会存入内存的缓冲区,达到一定的阈值的时候,就会直接进行磁盘的序列化。
huffle的处理中,每个处理好的数据都会携带预先的信息找到自己对应的reduce人,把key相同的放在一起,每次reduce都会把相同key的value值进行相加,并**通过添加到从context进行输出总的来说,大数据前期学习处理各种数据的时候,最关键是需要培养自己的处理数据思想,只有具备了对于数据的分析处理能力,才能更加懂得如何清洗数据,并最终获得我们自己想要的大数据。
不管怎样,学习一样新东西,我喜欢这样的顺序:先依葫芦画瓢,一步一步行将其运行起来。在学习大数据方面还有很多很多的知识需要我们去慢慢的学习了解,在学习的路途上是没有尽头的,所以就让我们继续努力的去学习,再努力点。 |