Tag: 大数据

Kafka为什么如此的快

Kafka是分布式的消息系统,需要处理海量的消息,Kafka的设计初衷是把所有消息都写入速度低容量大的硬盘,以此来换取更强的存储能力,但是实际上,使用硬盘并没有带来过性能的损失,这究竟为何? Kafka主要使用以下几种方式实现了超高吞吐率的 顺序读写Kafka的消息是不断追加到文件中的,这个特性使它可以充分利用磁盘的顺序读写能力。顺序读写降低了硬盘磁头的寻道时间,只需要很少的扇区旋转时间,所以速度

Kakfa Consumer使用技巧

high-level consumer一种high-level版本,比较简单不用关心offset, 会自动的读zookeeper中该Consumer group的last offset不过要注意一些注意事项,对于多个partition和多个consumer 如果consumer比partition多,是浪费,因为kafka的设计是在一个partition上是不允许并发的,所以consumer数

Linux常用命令

端口占用查看1$>netstat –apn | grep 8080 磁盘占用情况12$>df -h$>du -h --max-depth=1 / 关闭页交互空间1234567##方法1$>vim /etc/sysctl.conf$>sudo sysctl vm.swappiness=0##方法2$>vim /etc/fstab##注释掉LABEL_lswap行$

HBase常用命令

进入Hbase Shell 1$HBASE_HOME/bin/hbase shell 查看表 1hbase(main)> list 查看表结构 123# 语法:describe <table># 例如:查看表t1的结构hbase(main)> describe 't1' 创建表结构 123# 语法:create <table>, {NAME =

ES优化

内存和打开的文件数如果你的elasticsearch运行在专用服务器上,经验值是分配一半内存给elasticsearch。另一半用于系统缓存,这东西也很重要的。 你可以通过修改ES_HEAP_SIZE环境变量来改变这个设定。在启动elasticsearch之前把这个变量改到你的预期值。 另一个选择上球该elasticsearch的ES_JAVA_OPTS变量,这个变量是在启动脚本(elastics

CDH_5.X_CentOS安装

概述Cloudera企业级数据中心的安装主要分为4个步骤: 集群服务器配置,包括安装操作系统、关闭防火墙、同步服务器时钟等; 安装Cloudera管理器; 安装CDH集群; 集群完整性检查,包括HDFS文件系统、MapReduce、Hive等是否可以正常运行。 准备工作 集群规模5个节点 1234567Cloudera管理器节点: 172.31.46.113CDH节点: 172.3

cloudera相关说明

相关目录 /var/log/cloudera-scm-installer : 安装日志目录。 /var/log/* : 相关日志文件(相关服务的及CM的)。 /usr/share/cmf/ : 程序安装目录。 /usr/lib64/cmf/ : Agent程序代码。 /var/lib/cloudera-scm-server-db/data : 内嵌数据库目录。 /usr/bin/postgres

cloudera-scm-server dead but pid file exists

问题: 系统磁盘或者内存问题导致cloudera server挂掉,启动异常。进程已死,pid文件存在。1234# service cloudera-scm-server start$> Starting cloudera-scm-server: [ OK ]# service cloudera-scm-server status

Storm安装配置

我们使用3台机器搭建Storm集群:123192.168.4.142 h1192.168.4.143 h2192.168.4.144 h3 首先要保证zookeeper集群正常运行,假设zk也同样部署在h1, h2, h3机器上,端口为为默认的2181。然后,在h1节点上,执行如下命令安装:12345$> cd /usr/local/$> wget http://mirro

Kafka安装配置

我们使用3台机器搭建Kafka集群:123192.168.4.142 h1192.168.4.143 h2192.168.4.144 h3 在安装Kafka集群之前,这里没有使用Kafka自带的Zookeeper,而是独立安装了一个Zookeeper集群,也是使用这3台机器,保证Zookeeper集群正常运行。首先,在h1上准备Kafka安装文件,执行如下命令:12345$> c