hbase原理分析

1. 介绍

HBase是一个构建在HDFS上的分布式列存储系统,基于Google BigTable模型开发的,是典型的key/value系统。支持海量结构化数据存储、横向扩展、高可用

2. hbase数据模型

hbase以表的方式在HBase存储数据的。表是由行和列构成的,所有的列是从属于某一个列族的。行和列的交叉点称之为cell,cell是版本化的。cell的内容是不可分割的字节数组。

表的行键也是一段字节数组,所以任何东西都可以保存进去,不论是字符串或者数字。HBase的表是按key排序的,排序方式之针对字节的。所有的表都必须要有主键-key.

2.1 概念视图......

mapreduce,storm和spark开源分布式计算框架比较

1. 概览

目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm; 这三个框架各有优势,现在都属于 Apache 基金会下的顶级项目,下文将对三个框架的特点与适用场景进行分析,以便开发者能快速选择适合自己的框架进行开发。

Hadoop MapReduce 是三者中出现最早,知名度最大的分布式计算框架,最早由 Google Lab 开发,使用者遍布全球(Hadoop PoweredBy);主要适用于大批量的集群任务,由于是批量执行,故时效性偏低,原生支持 Java 语言开发 MapReduce ,其它语言需要使用到 Hado......

hadoop核心组件hdfs和mapreduce原理浅析

,fen#1. hadoop介绍

1.1 hadoop介绍

核心设计:MapReduce计算框架和HDFS分布式文件系统

定位:基于磁盘的批量处理,例如日志分析、数据挖掘、机器学习

1.2 hadoop特性

横向扩展好,可以组建大集群,计算能力很强

分布式存储

多副本存放数据,增加可用性

顺序读性能较好,随机读效率不行

基于本地计算,节点对自己计算机上的部分数据进行计算。(移动计算比移动数据更经济,因为节点的部分数据可以不占用IO带宽)

网络带宽是瓶颈

1.3 为什么要用hadoop?

通过MapReduce计算框架,程序员通过实现Map和Reduce......