Generic placeholder image
闲敲代码、落灯花
What's past is prologue

联系邮箱:email@hezehua.net


联系QQ:1907330840

座右铭

保持热情,持续学习,每日精进

elasticsearch 去重计数

elasticsearch 去重计数

本文与作者在csdn上的博文【elasticsearch 去重计数】保持同步


去重计数不是精确计数,数据量大的情况下会有误差,官方文档说的是,默认的情况下百万级数据会有5%的误差,实测如下:

实际文档数:1924920
在这里插入图片描述

去重计数:1912715在这里插入图片描述

误差率:(1924920 - 1912715)/ 1924920 = 0.006
%0.6的误差率还能接受,如果需要更高的准确度的话,需要调整precision_threshold的值,默认值是100,可选值在0~40000,值越大越准确但是越消耗内存,其内存使用满足公式:precision_threshold * 8 (字节)
,实测设为40000时计数为1926620:
在这里插入图片描述

误差率:(1924920 - 1926620)/ 1924920 = -0.0008
只有%0.08的误差率,在不需要完全准确的计数得情况下,完全可以接受。

猜你喜欢
记一次ElasticSearch 更改 mapping 字段类型的过程
阅读 643

首先,es不支持直接跟那个该mappinng,所以,更改 mapping 实质上是重建索引。 操作步骤如下: 1、为当前这个索引old_index设置一个别名my_index: curl -XPOST localhost:9200/_aliases -d ' { "act...

elasticsearch查询文档数量
阅读 144

查询文档数量时很常见的操作,一般可以直接使用count获取文档数,但是获取到数量信息,在【分页】应用中,意味着需要查询分页然后再查询总数。 有另一种方法,可以让我们在一次查询中获取分页数据并得到总量。 在搜索时,结果中的 hits.total 信息中会包含一个整数值表示文档数,当实际文档数小于10...

Elasticsearch实战:给博客打造全文检索
阅读 114

学习和使用Elasticsearch有一段时间了,项目中大量使用到了es,但对于我来说都是部分或者局部地去使用,所以得找个时间好好整理并且再完整时实践一下es,于是就有了这篇文章,本文将先简单介绍一下使用到的相关技术,然后再整体讲解实战内容。首先系统架构是LNMP,很简单的个人博客网站(逐步前...

Elasticsearch 搜索数组字段
阅读 567

1、搜索 数组字段 tags 中同时存在元素 str_a、str_b{ "query": { "bool": { "filter": [ { "term":...

Elasticsearch 数据写入原理
阅读 111

1、elasticsearch 如何使文档可以被搜索 为了支持全文检索而采用倒排索引,倒排索引包含一个有序列表,列表包含所有文档出现过的词项 ,对于每一个词项,包含了它所有曾出现过文档的列表。 早期的倒排索引,会在文档变化时,重建新的索引,直到完成后替换掉旧的索引,这样新的变化就可以被搜索到。 倒...

Elasticsearch 定制评分(自定义评分)
阅读 90

Elasticsearch 的相似度算法被定义为检索词频率/反向文档频率, TF/IDF 。一. 相关概念:检索词频率:tf词 t 在文档 d 的词频( tf )是该词在文档中出现次数的平方根。tf(t in d) = √frequency检索词在该字段出现的频率?出现频率越高,相关...

Elasticsearch 模糊搜索
阅读 341

Es 实现类似于mysql的模糊搜索: 比如:对字段 keywords 进行 模糊搜索 带“愉”字的文档: { "query": { "bool": { "filter": [ { ...