首页
归档
相册
随笔
专栏
实验室
Quick Reference
IT Tools
Regex Vis
Photopea
朋友圈
友情链接
更多
关于作者
另起一行(hang)
累计撰写
30
篇文章
累计创建
34
个标签
累计收到
1
条评论
栏目
首页
归档
相册
随笔
专栏
实验室
Quick Reference
IT Tools
Regex Vis
Photopea
朋友圈
友情链接
更多
关于作者
目 录
CONTENT
以下是
数据工程
相关的文章
2017-09-27
置顶
持续更新 | 数工常用片段
一、SQL 书写技巧 1.1 常用函数 统计学相关 分位数 percentile:percentile(col, p) col 是要计算的列(值必须为 int 类型),p 的取值为 0-1,若为 0.5,那么就是 2 分位数,即中位数。 percentile_approx:percentile_ap
2017-09-27
87
0
0
数据工程
2024-09-13
数工总结 | 组件调优
常见的大数据组件优化方法,包括 Hadoop 生态圈(MR、Hive)批流处理平台(Spark、Flink)
2024-09-13
60
0
0
数据工程
2024-04-20
数工技术 | LSM
介绍 12356
2024-04-20
71
0
0
数据工程
2021-10-16
数工总结 | Kafka 知识点
一、版本差异 kafka 0.8的新特性: 1.在0.8之前,当一个服务器出现问题的时候,没有不被消费的数据将丢失,0.8的分区提供了数据的复制和备份,确保至少有一份数据是可用的 2.以前,生产者的消息会阻塞,直到这个消息被复制到所有的副本中,但是生产者可以配置是否提交到单一的服务器。 3.kafk
2021-10-16
46
0
0
数据工程
2021-08-05
数工总结 | ElasticSearch 知识点
一、介绍 越来越多的公司使用ELK技术栈做为日志分析平台,ELK是三个工具的简称,即Logstash+ElasticSearch+Kibana, 其中以ElasticSearch(es)为核心(存储数据和查询数据),Logstash收集数据,Kibana进行数据展示,具体流程就是使用Logstash
2021-08-05
52
0
2
数据工程
2019-07-11
外部转载 | 大数据常见错误解决方案
错误锦集 1、用./bin/spark-shell启动spark时遇到异常:java.net.BindException: Can’t assign requested address: Service ‘sparkDriver’ failed after 16 retries! 解决方法:add
2019-07-11
74
0
0
数据工程
2018-02-04
数工总结 | Spark 知识点
一、Shuffle Spark Shuffle的历史 1.1 以前 Hash Shuffle 1.1.x 添加 Sort Shuffle 1.5.x 添加 Unsafe Shuffle 1.6.x 合并 Unsafe Shuffle和Sort Shuffle 2.0.x 移除 Hash Shuffl
2018-02-04
41
0
0
数据工程
2017-09-25
数工总结 | WebHDFS REST API
配置说明 master webhdfs端口:50070 dataNode webhdfs端口:70075 创建文件并写入数据 创建HDFS文件 curl -i -X PUT "http://masterHost:masterPort/webhdfs/v1/文件夹?op=CREATE" 获取
2017-09-25
30
0
0
数据工程
2017-06-03
数工总结 | Solr 知识点
使用 Tika 在中支持 pdf 和 doc搜索 下载solr https://mirrors.tuna.tsinghua.edu.cn/apache/lucene/solr/6.5.1/solr-6.5.1.tgz 点击去Solr主页 配置一个普通的solr core wget https://
2017-06-03
42
0
0
数据工程