2016-04-20

Kafka为什么如此的快

Kafka是分布式的消息系统，需要处理海量的消息，Kafka的设计初衷是把所有消息都写入速度低容量大的硬盘，以此来换取更强的存储能力，但是实际上，使用硬盘并没有带来过性能的损失，这究竟为何？ Kafka主要使用以下几种方式实现了超高吞吐率的顺序读写Kafka的消息是不断追加到文件中的，这个特性使它可以充分利用磁盘的顺序读写能力。顺序读写降低了硬盘磁头的寻道时间，只需要很少的扇区旋转时间，所以速度

2016-04-08

Kakfa Consumer使用技巧

high-level consumer一种high-level版本，比较简单不用关心offset, 会自动的读zookeeper中该Consumer group的last offset不过要注意一些注意事项，对于多个partition和多个consumer 如果consumer比partition多，是浪费，因为kafka的设计是在一个partition上是不允许并发的，所以consumer数

2016-04-06

Linux常用命令

端口占用查看1$>netstat –apn | grep 8080 磁盘占用情况12$>df -h$>du -h --max-depth=1 / 关闭页交互空间1234567##方法1$>vim /etc/sysctl.conf$>sudo sysctl vm.swappiness=0##方法2$>vim /etc/fstab##注释掉LABEL_lswap行$

2016-03-23

HBase常用命令

进入Hbase Shell 1$HBASE_HOME/bin/hbase shell 查看表 1hbase(main)> list 查看表结构 123# 语法：describe <table># 例如：查看表t1的结构hbase(main)> describe 't1' 创建表结构 123# 语法：create <table>, {NAME =

2016-03-17

ES优化

内存和打开的文件数如果你的elasticsearch运行在专用服务器上，经验值是分配一半内存给elasticsearch。另一半用于系统缓存，这东西也很重要的。你可以通过修改ES_HEAP_SIZE环境变量来改变这个设定。在启动elasticsearch之前把这个变量改到你的预期值。另一个选择上球该elasticsearch的ES_JAVA_OPTS变量，这个变量是在启动脚本(elastics

2016-03-16

CDH_5.X_CentOS安装

概述Cloudera企业级数据中心的安装主要分为4个步骤：集群服务器配置，包括安装操作系统、关闭防火墙、同步服务器时钟等；安装Cloudera管理器；安装CDH集群；集群完整性检查，包括HDFS文件系统、MapReduce、Hive等是否可以正常运行。准备工作集群规模5个节点 1234567Cloudera管理器节点: 172.31.46.113CDH节点: 172.3

2016-03-16

cloudera相关说明

相关目录 /var/log/cloudera-scm-installer : 安装日志目录。 /var/log/* : 相关日志文件（相关服务的及CM的）。 /usr/share/cmf/ : 程序安装目录。 /usr/lib64/cmf/ : Agent程序代码。 /var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。 /usr/bin/postgres

2016-03-14

cloudera-scm-server dead but pid file exists

问题: 系统磁盘或者内存问题导致cloudera server挂掉，启动异常。进程已死，pid文件存在。1234# service cloudera-scm-server start$> Starting cloudera-scm-server: [ OK ]# service cloudera-scm-server status

2016-03-02

Storm安装配置

我们使用3台机器搭建Storm集群:123192.168.4.142 h1192.168.4.143 h2192.168.4.144 h3 首先要保证zookeeper集群正常运行，假设zk也同样部署在h1, h2, h3机器上，端口为为默认的2181。然后，在h1节点上，执行如下命令安装：12345$> cd /usr/local/$> wget http://mirro

2016-03-02

Kafka安装配置

我们使用3台机器搭建Kafka集群：123192.168.4.142 h1192.168.4.143 h2192.168.4.144 h3 在安装Kafka集群之前，这里没有使用Kafka自带的Zookeeper，而是独立安装了一个Zookeeper集群，也是使用这3台机器，保证Zookeeper集群正常运行。首先，在h1上准备Kafka安装文件，执行如下命令：12345$> c

Tag: 大数据