摘要: 1.概述 Hadoop3已经发布很久了,迭代集成的一些新特性也是很有用的。截止本篇博客书写为止,Hadoop发布了3.2.0。接下来,笔者就为大家分享一下在使用Hadoop3中遇到到一些问题,以及解决方法。 2.内容 2.1 基础软件包 在使用这些组件时,我们需要做一些准备工作,内容如下: Hado阅读全文
posted @ 2019-04-23 00:19 哥不是小萝莉 阅读(615) 评论(0) 编辑
摘要: 1.概述 Kafka的使用场景非常广泛,一些实时流数据业务场景,均依赖Kafka来做数据分流。而在分布式应用场景中,数据迁移是一个比较常见的问题。关于Kafka集群数据如何迁移,今天笔者将为大家详细介绍。 2.内容 本篇博客为大家介绍两种迁移场景,分别是同集群数据迁移、跨集群数据迁移。如下图所示: 阅读全文
posted @ 2019-03-18 11:28 哥不是小萝莉 阅读(579) 评论(0) 编辑
摘要: 1.概述 在流数据应用场景中,往往会通过Flink消费Kafka中的数据,然后将这些数据进行结构化到HDFS上,再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后,将消费后的数据结构化到Hive数据仓库中。 2.内容 Hive能够识别很多类型的文件,阅读全文
posted @ 2019-02-24 16:47 哥不是小萝莉 阅读(901) 评论(0) 编辑
摘要: 1.概述 Apache官方发布HBase2已经有一段时间了,HBase2中包含了许多个Features,从官方JIRA来看,大约有4500+个ISSUES(查看地址),从版本上来看是一个非常大的版本了。本篇博客将为大家介绍HBase2的新特性,以及如何在实战中与Flink、Kafka等组件进行整合。阅读全文
posted @ 2019-01-09 18:08 哥不是小萝莉 阅读(1621) 评论(0) 编辑
摘要: 1.概述 在分布式实时数据流场景下,随着数据量的增长,对Kafka集群的性能和稳定性的要求也很高。本篇博客将从生产者和消费者两方面来做性能测试,针对具体的业务和数据量,来调优Kafka集群。 2.内容 2.1 测试环境 本次测试的环境信息由三台物理机组成,具体信息如下所示: 2.2 测试工具 Kaf阅读全文
posted @ 2018-12-09 22:37 哥不是小萝莉 阅读(1085) 评论(0) 编辑
摘要: 1.概述 对于数据的转发,Kafka是一个不错的选择。Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS、HBase等。如果不想使用Kafka API编写代码去消费Kafka Topic,也是有组件可以去集成消费阅读全文
posted @ 2018-11-19 17:12 哥不是小萝莉 阅读(2309) 评论(0) 编辑
摘要: 1.为什么写这本书? 我建立了一个qq群,有很多人在群里面学习和交流,经常有人问我一些Kafka的知识,我可以感受他们对技术的热情,这是一群刚走出校门,或者工作经验较少,又或是一些转型的开发新人,他们希望通过自学提高自己的开发能力,但是又没有学习渠道和正确的方法,于是我写了这本书。 2.开始写作 2阅读全文
posted @ 2018-11-10 17:25 哥不是小萝莉 阅读(1292) 评论(4) 编辑
摘要: 1.概述 平时在使用Kafka的时候,可能关注的更多的是Kafka系统层面的。今天来给大家剖析一下Kafka的控制器,了解一下Kafka控制器的选举流程。 2.内容 Kafka控制器,其实就是一个Kafka系统的Broker。它除了具有一般Broker的功能之外,还具有选举主题分区Leader节点的阅读全文
posted @ 2018-10-21 21:15 哥不是小萝莉 阅读(905) 评论(3) 编辑
摘要: 1.概述 HBase中表的基本单位是Region,日常在调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region,今天笔者就来和大家分享一下Region合并的一些问题和解决方法。 2.内容 在分析合并Region之前,我们先来了解一下Region阅读全文
posted @ 2018-09-15 00:59 哥不是小萝莉 阅读(2146) 评论(0) 编辑
摘要: 1.概述 在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式,在导入数据的过程中,如果数据量过大,可能耗时会比较严重或者占用HBase集群资源较多(如磁盘IO、H阅读全文
posted @ 2018-08-19 17:29 哥不是小萝莉 阅读(5516) 评论(0) 编辑
摘要: 1.概述 在《HBase查询优化》一文中,介绍了基于HBase层面的读取优化。由于HBase的实际数据是以HFile的形式,存储在HDFS上。那么,HDFS层面也有它自己的优化点,即:Short-Circuit Local Reads。本篇博客笔者将从HDFS层面来进行优化,从而间接的提升HBase阅读全文
posted @ 2018-08-12 13:45 哥不是小萝莉 阅读(1013) 评论(0) 编辑
摘要: 1.概述 HBase是一个实时的非关系型数据库,用来存储海量数据。但是,在实际使用场景中,在使用HBase API查询HBase中的数据时,有时会发现数据查询会很慢。本篇博客将从客户端优化和服务端优化两个方面来介绍,如何提高查询HBase的效率。 2.内容 这里,我们先给大家介绍如何从客户端优化查询阅读全文
posted @ 2018-08-05 13:54 哥不是小萝莉 阅读(3341) 评论(1) 编辑
摘要: 1.概述 最近有同学留言反馈了使用Kafka监控工具Kafka Eagle的一些问题,这里笔者特意整理了这些问题。并且希望通过这篇博客来解答这些同学的在使用Kafka Eagle的时候遇到的一些困惑,同时也给出一些定位分析Kafka Eagle异常的时的解决办法。 2.内容 2.1 背景 在使用Ka阅读全文
posted @ 2018-07-27 01:02 哥不是小萝莉 阅读(5727) 评论(3) 编辑
摘要: 1.概述 在分布式系统中,负载均衡是一个非常重要的功能,在HBase中通过Region的数量来实现负载均衡,HBase中可以通过hbase.master.loadbalancer.class来实现自定义负载均衡算法。下面将为大家剖析HBase负载均衡的相关内容以及性能指标。 2.内容 在HBase系阅读全文
posted @ 2018-07-01 04:10 哥不是小萝莉 阅读(1812) 评论(2) 编辑
摘要: 1.概述 大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔阅读全文
posted @ 2018-06-22 20:52 哥不是小萝莉 阅读(1878) 评论(2) 编辑
摘要: 1.概述 在Kafka0.9版本之前,Kafka集群时没有安全机制的。Kafka Client应用可以通过连接Zookeeper地址,例如zk1:2181:zk2:2181,zk3:2181等。来获取存储在Zookeeper中的Kafka元数据信息。拿到Kafka Broker地址后,连接到Kafk阅读全文
posted @ 2018-06-17 03:08 哥不是小萝莉 阅读(3685) 评论(2) 编辑
摘要: 1.概述 接着上一篇博客的内容,继续介绍Hadoop3的其他新特性。其内容包含:优化Hadoop Shell脚本、重构Hadoop Client Jar包、支持等待Container、MapReduce任务级别本地优化、支持多个NameNode、部分默认服务端口被改变、支持文件系统连接器、DataN阅读全文
posted @ 2018-05-12 12:55 哥不是小萝莉 阅读(2014) 评论(2) 编辑
摘要: 1.概述 目前从Hadoop官网的Wiki来看,稳定版本已经发行到Hadoop2.9.0,最新版本为Hadoop3.1.0,查阅JIRA,社区已经着手迭代Hadoop3.2.0。那么,今天笔者就带着大家来剖析一下Hadoop3,看看它给我们带来了哪些新特性。 2. 内容 从功能上来说,Hadoop3阅读全文
posted @ 2018-04-14 03:53 哥不是小萝莉 阅读(4045) 评论(0) 编辑
摘要: 1.概述 Apache Ignite和Apache Arrow很类似,属于大数据范畴中的内存分布式管理系统。在《Apache Arrow 内存数据》中介绍了Arrow的相关内容,它统一了大数据领域各个生态系统的数据格式,避免了序列化和反序列化所带来的资源开销(能够节省80%左右的CPU资源)。今天来阅读全文
posted @ 2018-03-11 02:42 哥不是小萝莉 阅读(8973) 评论(1) 编辑
摘要: 1.概述 客户端读写数据是先从Zookeeper中获取RegionServer的元数据信息,比如Region地址信息。在执行数据写操作时,HBase会先写MemStore,为什么会写到MemStore。本篇博客将为读者剖析HBase MemStore和Compaction的详细内容。 2.内容 HB阅读全文
posted @ 2018-02-10 17:21 哥不是小萝莉 阅读(1295) 评论(0) 编辑
摘要: 1.概述 Hadoop3已经发布很久了,迭代集成的一些新特性也是很有用的。截止本篇博客书写为止,Hadoop发布了3.2.0。接下来,笔者就为大家分享一下在使用Hadoop3中遇到到一些问题,以及解决方法。 2.内容 2.1 基础软件包 在使用这些组件时,我们需要做一些准备工作,内容如下: Hado阅读全文
posted @ 2019-04-23 00:19 哥不是小萝莉 阅读(615) 评论(0) 编辑
摘要: 1.概述 Kafka的使用场景非常广泛,一些实时流数据业务场景,均依赖Kafka来做数据分流。而在分布式应用场景中,数据迁移是一个比较常见的问题。关于Kafka集群数据如何迁移,今天笔者将为大家详细介绍。 2.内容 本篇博客为大家介绍两种迁移场景,分别是同集群数据迁移、跨集群数据迁移。如下图所示: 阅读全文
posted @ 2019-03-18 11:28 哥不是小萝莉 阅读(579) 评论(0) 编辑
摘要: 1.概述 在流数据应用场景中,往往会通过Flink消费Kafka中的数据,然后将这些数据进行结构化到HDFS上,再通过Hive加载这些文件供后续业务分析。今天笔者为大家分析如何使用Flink消费Kafka的数据后,将消费后的数据结构化到Hive数据仓库中。 2.内容 Hive能够识别很多类型的文件,阅读全文
posted @ 2019-02-24 16:47 哥不是小萝莉 阅读(901) 评论(0) 编辑
摘要: 1.概述 Apache官方发布HBase2已经有一段时间了,HBase2中包含了许多个Features,从官方JIRA来看,大约有4500+个ISSUES(查看地址),从版本上来看是一个非常大的版本了。本篇博客将为大家介绍HBase2的新特性,以及如何在实战中与Flink、Kafka等组件进行整合。阅读全文
posted @ 2019-01-09 18:08 哥不是小萝莉 阅读(1621) 评论(0) 编辑
摘要: 1.概述 在分布式实时数据流场景下,随着数据量的增长,对Kafka集群的性能和稳定性的要求也很高。本篇博客将从生产者和消费者两方面来做性能测试,针对具体的业务和数据量,来调优Kafka集群。 2.内容 2.1 测试环境 本次测试的环境信息由三台物理机组成,具体信息如下所示: 2.2 测试工具 Kaf阅读全文
posted @ 2018-12-09 22:37 哥不是小萝莉 阅读(1085) 评论(0) 编辑
摘要: 1.概述 对于数据的转发,Kafka是一个不错的选择。Kafka能够装载数据到消息队列,然后等待其他业务场景去消费这些数据,Kafka的应用接口API非常的丰富,支持各种存储介质,例如HDFS、HBase等。如果不想使用Kafka API编写代码去消费Kafka Topic,也是有组件可以去集成消费阅读全文
posted @ 2018-11-19 17:12 哥不是小萝莉 阅读(2309) 评论(0) 编辑
摘要: 1.为什么写这本书? 我建立了一个qq群,有很多人在群里面学习和交流,经常有人问我一些Kafka的知识,我可以感受他们对技术的热情,这是一群刚走出校门,或者工作经验较少,又或是一些转型的开发新人,他们希望通过自学提高自己的开发能力,但是又没有学习渠道和正确的方法,于是我写了这本书。 2.开始写作 2阅读全文
posted @ 2018-11-10 17:25 哥不是小萝莉 阅读(1292) 评论(4) 编辑
摘要: 1.概述 平时在使用Kafka的时候,可能关注的更多的是Kafka系统层面的。今天来给大家剖析一下Kafka的控制器,了解一下Kafka控制器的选举流程。 2.内容 Kafka控制器,其实就是一个Kafka系统的Broker。它除了具有一般Broker的功能之外,还具有选举主题分区Leader节点的阅读全文
posted @ 2018-10-21 21:15 哥不是小萝莉 阅读(905) 评论(3) 编辑
摘要: 1.概述 HBase中表的基本单位是Region,日常在调用HBase API操作一个表时,交互的数据也会以Region的形式进行呈现。一个表可以有若干个Region,今天笔者就来和大家分享一下Region合并的一些问题和解决方法。 2.内容 在分析合并Region之前,我们先来了解一下Region阅读全文
posted @ 2018-09-15 00:59 哥不是小萝莉 阅读(2146) 评论(0) 编辑
摘要: 1.概述 在进行数据传输中,批量加载数据到HBase集群有多种方式,比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式,在导入数据的过程中,如果数据量过大,可能耗时会比较严重或者占用HBase集群资源较多(如磁盘IO、H阅读全文
posted @ 2018-08-19 17:29 哥不是小萝莉 阅读(5516) 评论(0) 北京赛车pk10软件计划手机版下载
  • 周国平:男女之爱已经很强烈了,但亲子之爱更强烈 2019-05-22
  • 君弘精益精牌讲师投资课 2019-05-22
  • 弹幕评论别降低了审美品位 2019-05-20
  • 人民网评:掌握核心技术,才不会被卡脖子 2019-05-05
  • 燕山谭客.blog的博客—强国博客—人民网 2019-05-04
  • 陕西国防工业职业技术学院百名大学生志愿者敬老院慰问孤寡老人陕西国防工业职业技术学院百名大学生志愿者敬老院慰问-陕西教育新闻 2019-05-04
  • 天津市环境保护突出问题边督边改公开信息 2019-04-29
  • 自作多情。先将台湾收回来再说也不迟啊。 2019-04-25
  • 【世界杯·望俄打卦】突尼斯VS英格兰 2019-04-25
  • 紫光阁中共中央国家机关工作委员会 2019-04-19
  • 学习贯彻落实十九大精神 2019-04-16
  • 全国啦啦操联赛临汾站开幕 2019-03-31
  • 讴歌新时代 讴歌新西藏——国家艺术基金2017年度传播交流推广项目民族音乐会《西藏春天》巡演启动 2019-03-31
  • 【访民情 惠民生 聚民心】吾其村“双膜瓜”为精准脱贫助力 2019-03-29
  • 努比亚Z17(尊享版全网通)参数 2019-03-29
  • 624| 175| 77| 658| 796| 931| 487| 737| 276| 89|