阿里分布式数据库服务实践(笔记)

1.介绍

阿里的沈洵在youku分享了一系列技术讲座视频,表示对这种分享精神表示感谢。本文仅仅做为笔记使用

2.基本介绍

DRDS分布式数据库引擎起源于cobra(已经开源,点击查看)和TDDL。

主要复用了cobar proxy中两块重要代码:

Server 协议层

Sql解析器

cobar更加侧重服务解析、SQL解析,而TDDL则侧重支持分布式的连接和聚集操作

DRDS相比TDDL的优势:

简化配置,像操作一个数据库一样操作分布式数据库

单机数据库问题:

容量瓶颈

事务数瓶颈

读取瓶颈

经验:良好的架构设计优化远......

mapreduce,storm和spark开源分布式计算框架比较

1. 概览

目前流行的分布式计算框架主要有 Hadoop MapReduce, Spark Streaming, Storm; 这三个框架各有优势,现在都属于 Apache 基金会下的顶级项目,下文将对三个框架的特点与适用场景进行分析,以便开发者能快速选择适合自己的框架进行开发。

Hadoop MapReduce 是三者中出现最早,知名度最大的分布式计算框架,最早由 Google Lab 开发,使用者遍布全球(Hadoop PoweredBy);主要适用于大批量的集群任务,由于是批量执行,故时效性偏低,原生支持 Java 语言开发 MapReduce ,其它语言需要使用到 Hado......

hadoop核心组件hdfs和mapreduce原理浅析

,fen#1. hadoop介绍

1.1 hadoop介绍

核心设计:MapReduce计算框架和HDFS分布式文件系统

定位:基于磁盘的批量处理,例如日志分析、数据挖掘、机器学习

1.2 hadoop特性

横向扩展好,可以组建大集群,计算能力很强

分布式存储

多副本存放数据,增加可用性

顺序读性能较好,随机读效率不行

基于本地计算,节点对自己计算机上的部分数据进行计算。(移动计算比移动数据更经济,因为节点的部分数据可以不占用IO带宽)

网络带宽是瓶颈

1.3 为什么要用hadoop?

通过MapReduce计算框架,程序员通过实现Map和Reduce......