Hadoop HBase Hive Mahout 全系列教程
最近在 实验楼 实习,写了些东西。最先接触的是 Hadoop 系列,但我接手的时候是从 HBase 开始写的。不过,首先要学习的就是 Hadoop。
Hadoop
首先是 Hadoop 的教程,这里有几个关于 Hadoop 的文章。
HBase
其次是 HBase 的相关课程。HBase 是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的 BigTable 建模,实现的编程语言为 Java。它是 Apache 软件基金会的 Hadoop 项目的一部分,运行于 HDFS 文件系统之上,为 Hadoop 提供类似于 BigTable 规模的服务,可以存储海量稀疏的数据,并具备一定的容错性、高可靠性及伸缩性。主要应用场景是实时随机读写超大规模的数据。
注意 Hadoop 和 HBase 的版本问题,不过使用实验楼的虚拟环境你可以不用担心这个问题,因为环境都是我们搭建好了的,直接使用即可,免费又方便。
直接进入并开始动手实验 HBase 系列课程 . 后续的课程也可以直接使用实验楼的虚拟环境。
Hive
接着是 Hive 的相关课程。Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能。还可以将 sql 语句转换为 MapReduce 任务运行。
直接进入并开始动手实验 Hive 教程 .
Mahout
然后是 Mahout 的相关课程。Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,Mahout 目前在各种推荐系统中用得挺多的,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。
直接进入并开始动手实验 Mahout 教程 .
Mahout 推荐系统
最后介绍一个基于 Mahout 的推荐系统,它针对问答网站上的问答数据,使用 Mahout 来分析再给出推荐结果,即推荐用户他可能愿意回答的问题。
直接进入并开始动手实验 问答网站推荐系统 .