HENNG

Hadoop HBase Hive Mahout 全系列教程

最近在 实验楼 实习,写了些东西。最先接触的是 Hadoop 系列,但我接手的时候是从 HBase 开始写的。不过,首先要学习的就是 Hadoop。

  • Hadoop

首先是 Hadoop 的教程,这里有几个关于 Hadoop 的文章。

1、Hadoop部署及管理

2、Hadoop2.6.0伪分布环境搭建

  • HBase

其次是 HBase 的相关课程。HBase 是一个开源的非关系型分布式数据库(NoSQL),它参考了谷歌的 BigTable 建模,实现的编程语言为 Java。它是 Apache 软件基金会的 Hadoop 项目的一部分,运行于 HDFS 文件系统之上,为 Hadoop 提供类似于 BigTable 规模的服务,可以存储海量稀疏的数据,并具备一定的容错性、高可靠性及伸缩性。主要应用场景是实时随机读写超大规模的数据。

注意 Hadoop 和 HBase 的版本问题,不过使用实验楼的虚拟环境你可以不用担心这个问题,因为环境都是我们搭建好了的,直接使用即可,免费又方便。

直接进入并开始动手实验 HBase 系列课程 . 后续的课程也可以直接使用实验楼的虚拟环境。

  • Hive

接着是 Hive 的相关课程。Hive 是一个基于 Hadoop 文件系统之上的数据仓库架构。它可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能。还可以将 sql 语句转换为 MapReduce 任务运行。

直接进入并开始动手实验 Hive 教程 .

  • Mahout

然后是 Mahout 的相关课程。Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目,Mahout 目前在各种推荐系统中用得挺多的,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。

直接进入并开始动手实验 Mahout 教程 .

  • Mahout 推荐系统

最后介绍一个基于 Mahout 的推荐系统,它针对问答网站上的问答数据,使用 Mahout 来分析再给出推荐结果,即推荐用户他可能愿意回答的问题。

直接进入并开始动手实验 问答网站推荐系统 .