大数据开发命令大全

文章目录

1 Linux（vi/vim）

kafka-topics --zookeeper xxxxxx:2181 --create --replication-factor --partitions 1 --topic topic_name 说明： --topic 定义topic名 --replication-factor 定义副本数 --partitions 定义分区数

kafka-console-consumer --bootstrap-server xxxxxx:9092 --topic topic_name 注：可选 --from-beginning：会把主题中以往所有的数据都读取出来 --whitelist '.*' ：消费所有的topic --property print.key=true：显示key进行消费 --partition 0：指定分区消费 --offset：指定起始偏移量消费

{ "partitions": [ { "topic": "topic_name", "partition": 0, "offset": 1024 } ], "version": 1 }

#!/bin/bash HIVE_LOG_DIR=$HIVE_HOME/logs mkdir -p $HIVE_LOG_DIR #检查进程是否运行正常，参数1为进程名，参数2为进程端口 function check_process() { pid=$(ps -ef 2>/dev/null | grep -v grep | grep -i $1 | awk '{print $2}') ppid=$(netstat -nltp 2>/dev/null | grep $2 | awk '{print $7}' | cut -d '/' -f 1) echo $pid [[ "$pid" =~ "$ppid" ]] && [ "$ppid" ] && return 0 || return 1 } function hive_start() { metapid=$(check_process HiveMetastore 9083) cmd="nohup hive --service metastore >$HIVE_LOG_DIR/metastore.log 2>&1 &" cmd=$cmd" sleep4; hdfs dfsadmin -safemode wait >/dev/null 2>&1" [ -z "$metapid" ] && eval $cmd || echo "Metastroe服务已启动" server2pid=$(check_process HiveServer2 10000) cmd="nohup hive --service hiveserver2 >$HIVE_LOG_DIR/hiveServer2.log 2>&1 &" [ -z "$server2pid" ] && eval $cmd || echo "HiveServer2服务已启动" } function hive_stop() { metapid=$(check_process HiveMetastore 9083) [ "$metapid" ] && kill $metapid || echo "Metastore服务未启动" server2pid=$(check_process HiveServer2 10000) [ "$server2pid" ] && kill $server2pid || echo "HiveServer2服务未启动" } case $1 in "start") hive_start ;; "stop") hive_stop ;; "restart") hive_stop sleep 2 hive_start ;; "status") check_process HiveMetastore 9083 >/dev/null && echo "Metastore服务运行正常" || echo "Metastore服务运行异常" check_process HiveServer2 10000 >/dev/null && echo "HiveServer2服务运行正常" || echo "HiveServer2服务运行异常" ;; *) echo Invalid Args! echo 'Usage: '$(basename $0)' start|stop|restart|status' ;; esac

select user_id,,pay_time,money, lag(pay_time,1,'1970-01-01') over(PARTITION by name order by pay_time) prev_time, lead(pay_time,1,'1970-01-01') over(PARTITION by name order by pay_time) next_time from or_order;

select FIRST_VALUE(pay_time) over( partition by user_id,month(pay_time) order by pay_time rows between UNBOUNDED PRECEDING and UNBOUNDED FOLLOWING ) first_time, LAST_VALUE(pay_time) over(partition by user_id,month(pay_time) order by pay_time rows between UNBOUNDED PRECEDING and UNBOUNDED FOLLOWING ) last_time from or_order;

Linux（vi/vim）

一般模式

编辑模式

指令模式

压缩和解压

gzip/gunzip 压缩

zip/unzip 压缩

tar 打包

RPM

Shell

输入/输出重定向

脚本编辑

Hadoop

启动类命令

hadoop fs/hdfs dfs 命令

yarn命令

Zookeeper

启动命令

基本操作

四字母命令

Kafka

查看当前服务器中的所有topic

创建topic

删除topic

生产者

消费者

查看某个Topic的详情

修改分区数

查看某个消费者组信息

删除消费者组

重置offset

leader重新选举

查询kafka版本信息

增删改配置

持续批量拉取消息

删除指定分区的消息

查看Broker磁盘信息

Hive

启动类

常用交互命令

SQL类(特殊的)

内置函数

窗口函数

4个By

排序函数

日期函数

Redis

启动类

key

String

List

Set

Hash

zset(Sorted set)

Flink

启动

run

info

list

stop

cancel(弱化)

savepoint