MapReduce架构能够满足“先存储后处理”的离线批量计算需求,但存在局限性,最大的问题是时延过大,难以适用于机器学习迭代、流处理等实时计算任务,也不适合针对大规模图数据等特定数据结构的快速运算。如Yahoo提出的S4系统、 Twitter的Storm系统是针对“边到达边计算”的实时流计算框架,可在一个时间窗口上对数据流进行在线实时分析,已经在实时广告、微博等系统中得到应用。2010年Google公布的Dremel系统是一种交互分析引擎,几秒钟就可完成PB级数据查询操作。基于新的统一资源管理层开发适应特 ......