摘要: 1.概述 在分布式系统中,负载均衡是一个非常重要的功能,在HBase中通过Region的数量来实现负载均衡,HBase中可以通过hbase.master.loadbalancer.class来实现自定义负载均衡算法。下面将为大家剖析HBase负载均衡的相关内容以及性能指标。 2.内容 在HBase系阅读全文
posted @ 2018-07-01 04:10 哥不是小萝莉 阅读(196) 评论(0) 编辑
摘要: 1.概述 大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔阅读全文
posted @ 2018-06-22 20:52 哥不是小萝莉 阅读(124) 评论(2) 编辑
摘要: 1.概述 在Kafka0.9版本之前,Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址,例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。拿到Kafka Broker地址后,连接到Kafk阅读全文
posted @ 2018-06-17 03:08 哥不是小萝莉 阅读(281) 评论(1) 编辑
摘要: 1.概述 接着上一篇博客的内容,继续介绍Hadoop3的其他新特性。其内容包含:优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Container、MapReduce任务级别本地优化、支持多个NameNode、部分默认服务端口被改变、支持文件系统连接器、DataN阅读全文
posted @ 2018-05-12 12:55 哥不是小萝莉 阅读(331) 评论(0) 编辑
摘要: 1.概述 目前从Hadoop官网的Wiki来看,稳定版本已经发行到Hadoop2.9.0,最新版本为Hadoop3.1.0,查阅JIRA,社区已经着手迭代Hadoop3.2.0。那么,今天笔者就带着大家来剖析一下Hadoop3,看看它给我们带来了哪些新特性。 2. 内容 从功能上来说,Hadoop3阅读全文
posted @ 2018-04-14 03:53 哥不是小萝莉 阅读(669) 评论(0) 编辑
摘要: 1.概述 Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容,它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来的资源开销(能够节省80%左右的CPU资源)。今天来阅读全文
posted @ 2018-03-11 02:42 哥不是小萝莉 阅读(1590) 评论(1) 编辑
摘要: 1.概述 客户端读写数据是先从HBase Master获取RegionServer的元数据信息,比如Region地址信息。在执行数据写操作时,HBase会先写MetaStore,为什么会写到MetaStore。本篇博客将为读者剖析HBase MetaStore和Compaction的详细内容。 2.阅读全文
posted @ 2018-02-10 17:21 哥不是小萝莉 阅读(336) 评论(0) 编辑
摘要: 1. 概述 Apache Kylin?是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 2. 内容 在集成Kylin到CDH Hadoop环境中时,发现新版阅读全文
posted @ 2018-01-13 15:45 哥不是小萝莉 阅读(668) 评论(0) 编辑
摘要: 1.概述 HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储。所以,对于结构化的SQL语言查询,HBase自身并没有接口支持。在大数据应用中,虽然也有SQL查询引擎可以查询HBase,比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现,依然是调用了HB阅读全文
posted @ 2017-12-10 12:21 哥不是小萝莉 阅读(820) 评论(0) 编辑
摘要: 1.概述 在HBase-1.1.0之前,HBase集群中资源都是全量的。用户、表这些都是没有限制的,看似完美实则隐患较大。今天,笔者就给大家剖析一下HBase的流量限制和表的负载均衡。 2.内容 也许有同学有疑问,为啥要做流量限制,无限制全量跑不是更好吗?举个例子,比如今天的双十一日,数据流量是非常阅读全文
posted @ 2017-11-11 20:55 哥不是小萝莉 阅读(1010) 评论(0) 编辑
摘要: 1.概述 在大数据应用场景中,处理数据分析方面,由于开发者的水平不一样,使用的编程语言也不尽相同,可能会涉及到R、Python、Java、Scala等,数据计算模型也估计不一样,可能涉及的有Spark、Hive、Flink、Kylin等等。本篇博客笔者给大家介绍的内容并不是告诉大家如何去使用。在《Z阅读全文
posted @ 2017-10-15 03:26 哥不是小萝莉 阅读(1368) 评论(1) 编辑
摘要: 1.概述 Kafka Streams 是一个用来处理流式数据的库,属于Java类库,它并不是一个流处理框架,和Storm,Spark Streaming这类流处理框架是明显不一样的。那这样一个库是做什么的,能应用到哪些场合,如何使用。笔者今天就给大家来一一剖析这些内容。 2.内容 首先,我们研究这样阅读全文
posted @ 2017-09-14 11:10 哥不是小萝莉 阅读(2668) 评论(0) 编辑
摘要: 1.概述 Kafka 快速稳定的发展,得到越来越多开发者和使用者的青睐。它的流行得益于它底层的设计和操作简单,存储系统高效,以及充分利用磁盘顺序读写等特性,和其实时在线的业务场景。对于Kafka来说,它是一个分布式的,可分区的,多副本,多订阅者的,基于Zookeeper统一协调的分布式日志系统。常见阅读全文
posted @ 2017-08-09 16:19 哥不是小萝莉 阅读(1056) 评论(2) 编辑
摘要: 1.概述 我们在了解分布式选举算法之前,我们需要这样一种算法产生的背景。在一个分布式系统中,因为各种意外的因素,有的服务器可能会崩?;虮涞貌豢煽?,它就不能和其他服务器达成一致状态。因而这样就需要一种Consensus协议,来确保服务器的容错性,也就是说即使系统中有一两个服务器节点Crash,也不会影阅读全文
posted @ 2017-07-16 13:37 哥不是小萝莉 阅读(1344) 评论(0) 编辑
摘要: 1.概述 目前,随着大数据的浪潮,Kafka 被越来越多的企业所认可,如今的Kafka已发展到0.10.x,其优秀的特性也带给我们解决实际业务的方案。对于数据分流来说,既可以分流到离线存储平台(HDFS),离线计算平台(Hive仓库),也可以分流实时流水计算(Storm,Spark)等,同样也可以分阅读全文
posted @ 2017-06-10 14:19 哥不是小萝莉 阅读(6822) 评论(1) 编辑
摘要: 1.概述 在对Kafka使用层面掌握后,进一步提升分析其源码是极有必要的。纵观Kafka源码工程结构,不算太复杂,代码量也不算大。分析研究其实现细节难度不算太大。今天笔者给大家分析的是其核心处理???,core???。 2.内容 首先,我们需要对Kafka的工程结构有一个整体的认知度,Kafka 大家最阅读全文
posted @ 2017-05-06 18:14 哥不是小萝莉 阅读(4730) 评论(0) 编辑
摘要: 1.概述 在大数据的浪潮之下,技术的更新迭代十分频繁。受技术开源的影响,大数据开发者提供了十分丰富的工具。但也因为如此,增加了开发者选择合适工具的难度。在大数据处理一些问题的时候,往往使用的技术是多样化的。这完全取决于业务需求,比如进行批处理的MapReduce,实时流处理的Flink,以及SQL交阅读全文
posted @ 2017-04-09 16:14 哥不是小萝莉 阅读(5312) 评论(0) 编辑
摘要: 1.概述 在《Kafka 消息监控 - Kafka Eagle》一文中,简单的介绍了 Kafka Eagle这款监控工具的作用,截图预览,以及使用详情。今天笔者通过其源码来解读实现细节。目前该项目已托管于 Github 之上,作者编写了使用手册,告知使用者如何安装,部署,启动该系统。但对于实现的细节阅读全文
posted @ 2017-03-07 10:56 哥不是小萝莉 阅读(2740) 评论(16) 编辑
摘要: 1.概述 Apache Arrow 是 Apache 基金会全新孵化的一个顶级项目。它设计的目的在于作为一个跨平台的数据层,来加快大数据分析项目的运行速度。 2.内容 现在大数据处理模型很多,用户在应用大数据分析时,除了将 Hadoop 等大数据平台作为一个存储和批处理平台之外,同样也得关注系统的扩阅读全文
posted @ 2017-02-05 16:04 哥不是小萝莉 阅读(2588) 评论(1) 编辑
摘要: 1.概述 目前,Kafka 官网最新版[0.10.1.1],已默认将消费的 offset 迁入到了 Kafka 一个名为 __consumer_offsets 的Topic中。其实,早在 0.8.2.2 版本,已支持存入消费的 offset 到Topic中,只是那时候默认是将消费的 offset 存阅读全文
posted @ 2017-01-09 20:26 哥不是小萝莉 阅读(7578) 评论(0) 编辑
摘要: 1.概述 在分布式系统中,负载均衡是一个非常重要的功能,在HBase中通过Region的数量来实现负载均衡,HBase中可以通过hbase.master.loadbalancer.class来实现自定义负载均衡算法。下面将为大家剖析HBase负载均衡的相关内容以及性能指标。 2.内容 在HBase系阅读全文
posted @ 2018-07-01 04:10 哥不是小萝莉 阅读(196) 评论(0) 编辑
摘要: 1.概述 大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔阅读全文
posted @ 2018-06-22 20:52 哥不是小萝莉 阅读(124) 评论(2) 编辑
摘要: 1.概述 在Kafka0.9版本之前,Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址,例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。拿到Kafka Broker地址后,连接到Kafk阅读全文
posted @ 2018-06-17 03:08 哥不是小萝莉 阅读(281) 评论(1) 编辑
摘要: 1.概述 接着上一篇博客的内容,继续介绍Hadoop3的其他新特性。其内容包含:优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Container、MapReduce任务级别本地优化、支持多个NameNode、部分默认服务端口被改变、支持文件系统连接器、DataN阅读全文
posted @ 2018-05-12 12:55 哥不是小萝莉 阅读(331) 评论(0) 编辑
摘要: 1.概述 目前从Hadoop官网的Wiki来看,稳定版本已经发行到Hadoop2.9.0,最新版本为Hadoop3.1.0,查阅JIRA,社区已经着手迭代Hadoop3.2.0。那么,今天笔者就带着大家来剖析一下Hadoop3,看看它给我们带来了哪些新特性。 2. 内容 从功能上来说,Hadoop3阅读全文
posted @ 2018-04-14 03:53 哥不是小萝莉 阅读(669) 评论(0) 编辑
摘要: 1.概述 Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容,它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来的资源开销(能够节省80%左右的CPU资源)。今天来阅读全文
posted @ 2018-03-11 02:42 哥不是小萝莉 阅读(1590) 评论(1) 编辑
摘要: 1.概述 客户端读写数据是先从HBase Master获取RegionServer的元数据信息,比如Region地址信息。在执行数据写操作时,HBase会先写MetaStore,为什么会写到MetaStore。本篇博客将为读者剖析HBase MetaStore和Compaction的详细内容。 2.阅读全文
posted @ 2018-02-10 17:21 哥不是小萝莉 阅读(336) 评论(0) 编辑
摘要: 1. 概述 Apache Kylin?是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。 2. 内容 在集成Kylin到CDH Hadoop环境中时,发现新版阅读全文
posted @ 2018-01-13 15:45 哥不是小萝莉 阅读(668) 评论(0) 编辑
摘要: 1.概述 HBase的存储结构和关系型数据库不一样,HBase面向半结构化数据进行存储。所以,对于结构化的SQL语言查询,HBase自身并没有接口支持。在大数据应用中,虽然也有SQL查询引擎可以查询HBase,比如Phoenix、Drill这类。但是阅读这类SQL查询引擎的底层实现,依然是调用了HB阅读全文
posted @ 2017-12-10 12:21 哥不是小萝莉 阅读(820) 评论(0) 编辑
摘要: 1.概述 在HBase-1.1.0之前,HBase集群中资源都是全量的。用户、表这些都是没有限制的,看似完美实则隐患较大。今天,笔者就给大家剖析一下HBase的流量限制和表的负载均衡。 2.内容 也许有同学有疑问,为啥要做流量限制,无限制全量跑不是更好吗?举个例子,比如今天的双十一日,数据流量是非常阅读全文
posted @ 2017-11-11 20:55 哥不是小萝莉 阅读(1010) 评论(0) 北京赛车pk10软件计划手机版下载
  • 独家视频:十九大要开啦! 2018-09-10
  • 国地税怎么又合并了呢 一般来看 这是种集中资源的举动 2018-09-10
  • 视频:太原蒙山景区举办首届蒙山春节庙会 2018-08-14
  • 美媒:解放军已成为现代化军队 目光已越过大西洋 2018-08-14
  • 市人大常委会召开党组会议传达学习全国两会精神张轩主持并讲话 2018-08-04