9.3、Inceptor-SQL使用

浏览: 353 2018年01月30日
简介Inceptor是一种交互式分析引擎,本质是一种SQL翻译器。Inceptor中一共可以操作五种类型的表结构:1. 普通文本表(TXT表)2. 分区表(分单值分区和范围分区)3. 分桶表4. ORC表(Hive ORC格式)5. ORC事务表(可进行增删改查操作,必须建立分桶表和外表,且两个...

9.2、Transwarp Manager的安装

浏览: 338 2018年01月15日
安装前准备修改/etc/hosts文件内容 在/etc/hosts文件中添加主机名,添加在最后一行,如192.168.1.200 dhc-1(注意hostname不支持使用'_','.'),配置完成后可以互相ping下,如果ping不通,请检查/etc/hosts文件和静态IP的设置关闭防...

9.1、ubuntu14.04下关于CDH5离线安装教程

浏览: 296 2018年01月10日
在安装一系列的安装包之前,首先要解决的是ubuntu14.04的无密码传输的root用户的权限问题。1. 修改 root 密码sudo passwd root1.1如果使用普通用户安装时,首先创建用户和用户组:sudo addgroup cdhsudo adduser -ingroup cdh ...

离线安装Cloudera Manager 5和CDH5(5.2.3)

浏览: 333 2018年01月08日
CDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在...

Hadoop与Spark的区别

浏览: 346 2017年12月21日
概述 谈到大数据,相信大家对Hadoop和Apache Spark这两个名字并不陌生。但我们往往对它们的理解只是提留在字面上,并没有对它们进行深入的思考,下面不妨跟我一块看下它们究竟有什么异同。解决问题的层面不一样 首先,Hadoop和Apache Spark两者都是大数...

7.11、Hbase 数据备份及恢复

浏览: 373 2017年12月19日
1 简介 若在生产环境中使用HBase,必须了解备份HBase的各种可选方案和操作方法.备份HBase时的难点是其待备份的数据集可能非常巨大,因此备份方案必须有很高的效果.HBase备份方案必须即能够伸缩至对数百TB的存储容量进行备份,又能够在一个合理的时间范围内完成数据恢复的工作....

7.10、使用管理工具

浏览: 327 2017年12月17日
每个人都希望自已的HBASE管理员能够让集群运行流畅,存储大量的数据,并且能同时,迅速和可靠地处理几百万的并发请求.对于管理员来说,让HBASE中海量数据一直保持可存取,易管理和便于查询是一项至关重要的任务.除了对于你运行的集群要有扎实的了解之外,你所使用的工具也同样重要.HBASE自带了一些管...

7.9、通过PutAPI的方法来导出数据

浏览: 280 2017年12月15日
概述HBase本身提供了很多种数据导入的方式,通常有两种常用方式:1、使用HBase提供的TableOutputFormat,原理是通过一个Mapreduce作业将数据导入HBase2、另一种方式就是使用HBase原生Client API这两种方式由于需要频繁的与数据所存储的RegionServ...

Spark 基于YARN的部署方案

浏览: 382 2017年12月09日
安装基于YARN的部署方案 软件环境:Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64)Hadoop: 2.6.0Spark: 1.6.02. 环境准备修改主机名我们将搭建1个Master,2个Slave的集群方案。首先修改主机名nan...

7.8、HBASE 数据迁移

浏览: 352 2017年12月07日
概述将数据移到Hbase的方法有以下几种:使用Hbase的Put API使用HBase的批量加载工具使用自定义的MapReduce方法使用HBase的Put API是最直接的方法.这种方法的使用并不难学,但大多数情况下,它并非总是最有效的方法.特别是在有一大批数据需要移入Hbase并且对移入都是...

7.7、整合SQL引擎层

浏览: 374 2017年11月08日
1、NOSQL(Not only SQL 非关系型数据库)的特性之一是不使用SQL作为查询语言,本节简单介绍NOSQL定义,为何NOSQL 上定义SQL引擎,以及现有基于HBASE的SQL引擎的具体实现2、NOSQL是不同于传统关系型数据库的数据库系统的统称.两者有很多显著的不同点,其中最重要的...

7.6、HBASE基于Java开发

浏览: 431 2017年11月01日
使用Java操作HBASE(增删查改)package com.chu;import java.io.IOException;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configu...

7.5、Hive与Hbase的区别

浏览: 322 2017年10月29日
1 两者分别是什么? Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询...

7.4、HBASE 安装疑难杂症

浏览: 355 2017年10月26日
错误表现-SLF4J: Class path contains multiple SLF4J bindings. 错误表现:SLF4J: Class path contains multiple SLF4J bindings.SLF4J: Found binding in [jar:file:/...

7.3、HBASE与传统数据库的区别

浏览: 441 2017年10月25日
1 主要区别1、Hbase适合大量插入同时又有读的情况2、Hbase的瓶颈是硬盘传输速度,Oracle的瓶颈是硬盘寻道时间。Hbase本质上只有一种操作,就是插入,其更新操作是插入一个带有新的时间戳的行,而删除是插入一个带有插入标记的行。其主要操作是收集内存中一批数据,然后批量的写入硬盘,所以其...

7.2、HBASE常用的Shell命令

浏览: 434 2017年10月12日
一 表的管理1进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase...

7.1、HBASE的伪分布安装与分布式安装

浏览: 420 2017年10月10日
一 伪分布式安装1.下载解压给权限可以从官方下载地址下载 HBase 最新版本,推荐 stable目录下的二进制版本。我下载的是 hbase-1.1.3-bin.tar.gz 。确保你下载的版本与你现存的 Hadoop 版本兼容(兼容列表)以及支持的JDK版本(从HBase 1.0.x 已经不支...

HBASE

浏览: 396 2017年10月09日
一 引子在说Hase是个啥家伙之前,首先我们来看看两个概念,面向行存储和面向列存储。面向行存储,我相信大伙儿应该都清楚,我们熟悉的RDBMS就是此种类型的,面向行存储的数据库主要适合于事务性要求严格场合,或者说面向行存储的存储系统适合OLTP,但是根据CAP理论(参考:CAP理论参考),传统的R...

6.5、DataX性能对比

浏览: 519 2017年09月27日
sqoop主要特点1、可以将关系型数据库中的数据导入hdfs、hive或者hbase等hadoop组件中,也可将hadoop组件中的数据导入到关系型数据库中;2、sqoop在导入导出数据时,充分采用了map-reduce计算框架,根据输入条件生成一个map-reduce作业,在hadoop集群中...

6.4、Sqooq2综合实例

浏览: 292 2017年09月25日
数据库基本操作命令1 选择数据库命令Mysql:现在我用一个例子讲解sqoop2的具体使用方法,数据准备,有一个mysql的表叫worker,里面有三条数据,我们要将其导入hadoop,这是建表语句登录方式:#直接本地登录 root:123456#mysql -u root -p mysql> ...