登录
登录 注册新账号
注册
已有账号登录
干货 | 吃透Elasticsearch 堆内存
1、什么是堆内存? Java 中的堆是 JVM 所管理的最大的一块内存空间,主要用于存放各种类的实例对象。 在 Java 中,堆被划分成两个不同的区域: 新生代 、 老年代 。 新生代 又被划分为三个区域 Eden、 From Survivor、 To Survivor。 这样划分的目的是为了使 JVM 能够更好的管理堆内存中的对象,包括内存的分配以及回收。 2、堆内存的
Elasticsearch6.X 去重详解
1、题记 Elasticsearch有没有类似mysql的distinct的去重功能呢? 1)如何去重计数? 类似mysql: select distinct from my_table; 2)如何获取去重结果。 类似mysql:SELECT DISTINCT name,age FROM users; 2、需求 1)对ES的检索结果进行去重统计计数。 2)对ES的检索结
Elasticsearch 6.X 新类型Join深入详解
0、ES6.X 一对多、多对多的数据该如何存储和实现呢? 引出问题: 某头条新闻APP新闻内容和新闻评论是1对多的关系? 在ES6.X该如何存储、如何进行高效检索、聚合操作呢? 相信阅读本文,你就能得到答案! 1、ES6.X 新类型Join 产生背景 Mysql中多表关联,我们可以通过left join 或者Join等实现; ES5.X版本,借助父子文档实现多表关联,类似数据
干货 |《从Lucene到Elasticsearch全文检索实战》拆解实践
1、题记 2018年3月初,萌生了一个想法:对Elasticsearch相关的技术书籍做拆解阅读,该想法源自非计算机领域红火已久的【樊登读书会】、得到的每天听本书、XX拆书帮等。 目前市面上Elasticsearch的中文书籍就那么基本,针对ES5.X以上的三本左右;国外翻译有几本,都是针对ES1.X,2.X版本,其中《深入理解Elasticsearch》还算比较经典。 拆书的目的: 1
Elasticsearch实战 | 必要的时候,还得空间换时间!
1、应用场景 实时数据流通过kafka后,根据业务需求,一部分直接借助kafkaconnector入Elasticsearch不同的索引中。 另外一部分,则需要先做聚类、分类处理,将聚合出的分类结果存入ES集群的聚类索引中。如下图所示: 业务系统的分层结构可分为:接入层、数据处理层、数据存储层、接口层。 那么问题来了? 我们需要基于聚合(数据处理层)的结果实现检索和聚合分析操作
Elasticsearch索引增量统计及定时邮件实现
0、需求 随着ELKStack在应用系统中的数据规模的急剧增长,每天千万级别数据量(存储大小:10000000\10k1024102495.37GB,假设单条数据10kB,实际远大于10KB)的累积成为日常需求。 如何以相对简单的图形化效果展示数据的增量呢? 本文给出思路和实现。 1、问题分解 1.1 ES集群的数据量统计 ES自带的命令行统计举例: curl l
Elasticsearch聚合优化 | 聚合速度提升5倍!
1、聚合为什么慢? 大多数时候对单个字段的聚合查询还是非常快的, 但是当需要同时聚合多个字段时,就可能会产生大量的分组,最终结果就是占用 Elasticsearch大量内存,从而导致 OOM 的情况发生。 实践应用发现,以下情况都会比较慢: 1)待聚合文档数比较多(千万、亿、十亿甚至更多); 2)聚合条件比较复杂(多重条件聚合); 3)全量聚合(翻页的场景用)。 2、聚合优
week08
显示统计占用系统内存最多的进程,并排序。 ``` ps eo uid,pid,ppid,tty,time,cmd,%mem sort%mem|head UID PID PPID TT TIME CMD %MEM 107 3007 1 ? 00:03:57 usrlibexe
Elasticsearch实战 | match_phrase搜不出来,怎么办?
1、问题抛出 某个词组在Elasitcsearch中的某个document中存在,就一定通过某种匹配方式把它搜出来。 举例: title公路局正在治理解放大道路面积水问题。 输入关键词:道路,能否搜索到这个document呢? 实际应用中可能需要: 1)检索关键词理解、解放、道路、理解放大,都能搜出这篇文档。 2)单个的字拆分治、水太多
Elasticsearch聚合后分页深入详解
1、Elasticsearch支持聚合后分页吗,为什么? 不支持,看看Elasticsearch员工如何解读。 这个问题,2014年在github上有很长的讨论。究其为什么ES不支持聚合后分页?可概括如下: 1)性能角度聚合分页会在大量的记录中产生性能问题。 2)正确性角度聚合的文档计数不准确。 所以奇怪的事情可能会发生,如第二页的第一项具有比第一页的最后一
浅谈linux相关知识
浅谈linux相关知识 一、文件管理 1、文件系统从根目录下开始,用表示;以 . 开头的文件为隐藏文件或文件夹;文件名最长255个字节。 2、标准Linux文件系统(如ext4),文件名称大小写敏感,但是并不是说linux 系统对文件名大小写敏感,当linux 系统挂在fat 文件系统的时候,同样的不敏感,所以文件名大小写是对文件系统格式敏感,并非linux系统敏感。(注:win
实战 | Elasticsearch打造知识库检索系统
题记 源自死磕Elasticsearch技术群里的讨论问题: 我想用es做个类似于知识库的东西,所以需要索引一些pdf、word之类的文件,这个你之前有试过吗?能给个方向吗? 我的思考如下: 1、pdf、Office类的文档如何被ES索引? 更确切的说,pdf、Office类文档(word,ppt,excel等)如何导入ES中。 如图所示: 问题转嫁为:如何将O
干货 |《深入理解Elasticsearch》读书笔记
题记 由于之前已经梳理过Elasticsearch基础概念且在项目中实战过Elasticsearch的增删改查、聚类、排序等相关操作,对ES算是有了一定的认知。 但是,仍然对于一些底层的原理认知模糊,特买来《深入理解Elasticsearch》过了一遍,将书中一些细节知识点结合官网文档梳理如下。 14章偏应用,跟着敲一遍代码基本就能理解原理。 59章偏理论一些。 第5章 分
实战 | Elasticsearch实现类Google高级检索
少废话,说正事。 一、高级检索的功能点 通过高级搜索配置搜索项,能更准确的过滤掉不相干信息,获取最想要的检索信息。 以Google搜索为例(截取核心片段): 二、高级检索拆分 1、包含以下全部的关键词: 需要分词处理; 若需要指定字段,则使用matchQuery实现; 若无需指定字段的全文检索,则使用queryStringQuery实现; 2、包含以下的
干货 | Elasticsearch 集群健康值红色终极解决方案
题记 Elasticsearch当清理缓存( echo 3 \ procsysvmdrop_caches )的时候,出现 如下集群健康值:red,红色预警状态,同时部分分片都成为灰色。 查看Elasticsearch启动日志会发现如下: 集群服务超时连接的情况。 bserver: timeout notification from cluster servi
1 2 3 4 5 ... >