1. DSL 查询文档

Elasticsearch 的查询依然是基于 JSON 风格的 DSL 来实现的。

1.1. DSL 查询分类

Elasticsearch提供了基于JSON的DSL（Domain Specific Language）来定义查询。常见的查询类型包括：

查询所有：查询出所有数据，一般测试用。例如：match_all
全文检索（full text）查询：利用分词器对用户输入内容分词，然后去倒排索引库中匹配。例如：
- match_query
- multi_match_query
精确查询：根据精确词条值查找数据，一般是查找keyword、数值、日期、boolean等类型字段。例如：
- ids
- range
- term
地理（geo）查询：根据经纬度查询。例如：
- geo_distance
- geo_bounding_box
复合（compound）查询：复合查询可以将上述各种查询条件组合起来，合并查询条件。例如：
- bool
- function_score

查询的语法基本一致：

GET /indexName/_search
{
  "query": {
    "查询类型": {
      "查询条件": "条件值"
    }
  }
}

我们以查询所有为例，其中：

查询类型为match_all
没有查询条件

// 查询所有
GET /indexName/_search
{
  "query": {
    "match_all": {
    }
  }
}

其它查询无非就是查询类型、查询条件的变化。

1.2. 全文检索查询

1.2.1. 使用场景

全文检索查询的基本流程如下：

对用户搜索的内容做分词，得到词条
根据词条去倒排索引库中匹配，得到文档id
根据文档id找到文档，返回给用户

比较常用的场景包括：

商城的输入框搜索
百度输入框搜索

例如京东：

因为是拿着词条去匹配，因此参与搜索的字段也必须是可分词的text类型的字段。

1.2.2. 基本语法

常见的全文检索查询包括：

match查询：单字段查询
multi_match查询：多字段查询，任意一个字段符合条件就算符合查询条件

match查询语法如下：

GET /indexName/_search
{
  "query": {
    "match": {
      "FIELD": "TEXT"
    }
  }
}

multi_match 语法如下：

GET /indexName/_search
{
  "query": {
    "multi_match": {
      "query": "TEXT",
      "fields": ["FIELD1", " FIELD12"]
    }
  }
}

1.2.3. 示例

match查询示例：

multi_match查询示例：

可以看到，两种查询结果是一样的，为什么？

因为我们将brand、name、business值都利用copy_to复制到了all字段中。因此你根据三个字段搜索，和根据all字段搜索效果当然一样了。

但是，搜索字段越多，对查询性能影响越大，因此建议采用copy_to，然后单字段查询的方式。

1.2.4. match_phrase

match_phrase 即短语匹配，查询比较严格，精度较高，一般需要配合 slop 偏移量使用以提高召回率。

比如有 4 条文档：

关注我,系统学编程
系统学编程,关注我
系统编程,关注我
关注我,间隔系统学编程

搜索 关注我,系统学 时只能命中文档 1，而 match 则可以命中所有文档。与 match 相比，match_phrase 更强调多个分词顺序与检索词一致且连续，必须全部完整匹配才能召回。实战中常与 slop 配合使用以调整精度与召回率的平衡。

1.2.5. dis_max

有两条 doc 数据：

POST /book/_doc/1
{
  "body": "elasticsearch filter",
  "title": "elasticsearch basic query"
}

POST /book/_doc/2
{
  "body": "single value search",
  "title": "elasticsearch aggs query"
}

不使用 `dis_max` 查询

得到的结果是：相关性得分中文档 1 高于文档 2（与直觉相反）。

POST /book/_search
{
  "query": {
    "bool": {
      "should": [
        {"match": {"body": "elasticsearch aggs"}},
        {"match": {"title": "elasticsearch aggs"}}
        ]
    }
  }
}

使用 `dis_max` 查询

以最佳匹配子句的得分作为整个文档的相关性得分。

POST /book/_search
{
  "query": {
    "dis_max": {
      "tie_breaker": 0.3,
      "queries": [
        {"match": {"body": "elasticsearch aggs"}},
        {"match": {"title": "elasticsearch aggs"}}
        ]
    }
  }
}

dis_max 查询的得分计算过程：

查询 "elasticsearch aggs" 被拆分为 elasticsearch 和 aggs 两个词条；
对每个子句分别查询同一文档；
文档 1 的 body 和 title 各得 1 分，取最高分，文档 1 最终得 1 分；
文档 2 的 title 命中两个词条得 2 分，body 得 0 分，取最高分，文档 2 最终得 2 分；
最终文档 2 得分高于文档 1，符合预期。

关于 `tie_breaker`

简化公式：score = best_field.score × boost + other_fields × boost.score × tie_breaker

实际计算还需考虑分片、出现位置、文档长度等因素。tie_breaker 的取值需同时兼顾最佳匹配和所有匹配，推荐取 0.1 ~ 0.4；若为 0 则只考虑最佳匹配。

小结

match：根据单字段查询
multi_match：根据多字段查询，参与查询字段越多，查询性能越差

1.3. 精确查询

精确查询一般用于查找 keyword、数值、日期、boolean 等类型字段，不会对搜索条件分词。常见的有：

term：根据词条精确值查询
range：根据值的范围查询

1.3.1. term 查询

精确查询的字段不分词，查询条件也必须是不分词的词条。用户输入的内容必须与字段值完全匹配才认为符合条件；若输入内容过多，反而可能搜索不到数据。

语法说明：

// term查询
GET /indexName/_search
{
  "query": {
    "term": {
      "FIELD": {
        "value": "VALUE"
      }
    }
  }
}

示例：

当我搜索的是精确词条时，能正确查询出结果：

但是，当我搜索的内容不是词条，而是多个词语形成的短语时，反而搜索不到：

1.3.2. range 查询

范围查询，一般应用在对数值类型做范围过滤的时候。比如做价格范围过滤。

基本语法：

// range查询
GET /indexName/_search
{
  "query": {
    "range": {
      "FIELD": {
        "gte": 10, // 这里的gte代表大于等于，gt则代表大于
        "lte": 20 // lte代表小于等于，lt则代表小于
      }
    }
  }
}

示例：

1.3.3. 小结

查询类型	说明
`term`	根据词条精确匹配，用于 `keyword`、数值、布尔、日期类型字段
`range`	根据数值或日期范围查询

1.4. 地理坐标查询

所谓的地理坐标查询，其实就是根据经纬度查询，官方文档：https://www.elastic.co/guide/en/elasticsearch/reference/current/geo-queries.html

常见的使用场景包括：

携程：搜索我附近的酒店
滴滴：搜索我附近的出租车
微信：搜索我附近的人

附近的酒店：

附近的车：

1.4.1. 矩形范围查询

geo_bounding_box 查询：查询坐标落在某个矩形范围内的所有文档。

查询时，需要指定矩形的左上、右下两个点的坐标，然后画出一个矩形，落在该矩形内的都是符合条件的点。

语法如下：

// geo_bounding_box查询
GET /indexName/_search
{
  "query": {
    "bool": {
      "must": [
        {
          "match_all": {}
        }
      ],
      "filter": [
        {
          "geo_bounding_box": {
            "location": {
              # 左上点
              "top_left": {
                "lat": 31.1,
                "lon": 121.5
              },
              # 右下点
              "bottom_right": {
                "lat": 30.9,
                "lon": 121.7
              }
            }
          }
        }
      ]
    }
  }
}

这种并不符合“附近的人”这样的需求，所以我们就不做了。

1.4.2. 附近查询

附近查询（geo_distance）：查询到指定中心点距离小于某个值的所有文档。

换句话来说，在地图上找一个点作为圆心，以指定距离为半径，画一个圆，落在圆内的坐标都算符合条件：

语法说明：

// geo_distance 查询
GET /indexName/_search
{
  "query": {
    "geo_distance": {
      "distance": "15km", // 半径
      "FIELD": "31.21,121.5" // 圆心
    }
  }
}

示例：

我们先搜索陆家嘴附近15km的酒店：

发现共有47家酒店。

然后把半径缩短到3公里：

可以发现，搜索到的酒店数量减少到了5家。

1.5. 复合查询

复合（compound）查询可以将其他简单查询组合起来，实现更复杂的搜索逻辑。常见的有两种：

function_score：算分函数查询，控制文档相关性算分和排名
bool：布尔查询，利用逻辑关系组合多个子查询

1.5.1. 相关性算分

当我们利用match查询时，文档结果会根据与搜索词条的关联度打分（_score），返回结果时按照分值降序排列。

例如，我们搜索 "虹桥如家"，结果如下：

[
  {
    "_score" : 17.850193,
    "_source" : {
      "name" : "虹桥如家酒店真不错",
    }
  },
  {
    "_score" : 12.259849,
    "_source" : {
      "name" : "外滩如家酒店真不错",
    }
  },
  {
    "_score" : 11.91091,
    "_source" : {
      "name" : "迪士尼如家酒店真不错",
    }
  }
]

在elasticsearch中，早期使用的打分算法是TF-IDF算法，公式如下：

在后来的5.1版本升级中，elasticsearch将算法改进为BM25算法，公式如下：

TF-IDF算法有一个缺陷，就是词条频率越高，文档得分也会越高，单个词条对文档影响较大。而BM25则会让单个词条的算分有一个上限，曲线更加平滑：

Elasticsearch 会根据词条和文档的相关度打分，算法有两种：

TF-IDF 算法
BM25 算法（Elasticsearch 5.1 版本后采用）

1.5.2. 算分函数查询

根据相关度打分是合理的，但合理的不一定是产品经理需要的。

以百度为例，你搜索的结果中，并不是相关度越高排名越靠前，而是谁掏的钱多排名就越靠前。如图：

要想为控制相关性算分，就需要利用elasticsearch中的function score 查询了。

语法说明

function_score 查询包含四部分内容：

原始查询（query）：基于条件搜索文档，使用 BM25 算法计算原始算分（query score）
过滤条件（filter）：符合条件的文档才会重新算分
算分函数：对满足 filter 条件的文档执行运算，得到函数算分（function score），有四种：
- weight：函数结果是常量
- field_value_factor：以文档中某字段值作为函数结果
- random_score：以随机数作为函数结果
- script_score：自定义算分函数
运算模式（boost_mode）：函数算分与原始算分的合并方式，包括 multiply（相乘）、replace（替换）、sum、avg、max、min

function_score 的运行流程：

根据原始条件查询文档并计算原始算分（query score）
根据过滤条件筛选文档
对满足过滤条件的文档，基于算分函数计算函数算分（function score）
将原始算分与函数算分按运算模式合并，得到最终相关性算分

因此，其中的关键点是：

过滤条件：决定哪些文档的算分被修改
算分函数：决定函数算分的算法
运算模式：决定最终算分结果

示例

需求：给“如家”这个品牌的酒店排名靠前一些

翻译一下这个需求，转换为之前说的四个要点：

原始条件：不确定，可以任意变化
过滤条件：brand = "如家"
算分函数：可以简单粗暴，直接给固定的算分结果，weight
运算模式：比如求和

因此最终的DSL语句如下：

GET /hotel/_search
{
  "query": {
    "function_score": {
      "query": {  .... }, // 原始查询，可以是任意条件
      "functions": [ // 算分函数
        {
          "filter": { // 满足的条件，品牌必须是如家
            "term": {
              "brand": "如家"
            }
          },
          "weight": 2 // 算分权重为2
        }
      ],
      "boost_mode": "sum" // 加权模式，求和
    }
  }
}

测试，在未添加算分函数时，如家得分如下：

添加了算分函数后，如家得分就提升了：

小结

function_score 查询的三要素：

要素	说明
过滤条件	哪些文档需要加分
算分函数	如何计算 function score
加权方式	function score 与 query score 如何合并

1.5.3. 布尔查询

布尔查询是一个或多个查询子句的组合，子查询的组合方式有：

子句	说明
`must`	必须匹配每个子查询，类似"与"
`should`	选择性匹配子查询，类似"或"
`must_not`	必须不匹配，不参与算分，类似"非"
`filter`	必须匹配，不参与算分

比如在搜索酒店时，除了关键字搜索外，我们还可能根据品牌、价格、城市等字段做过滤：

每一个不同的字段，其查询的条件、方式都不一样，必须是多个不同的查询，而要组合这些查询，就必须用bool查询了。

搜索时，参与打分的字段越多，查询性能越差。多条件查询建议：

搜索框关键字使用 must 查询，参与算分
其他过滤条件使用 filter 查询，不参与算分

语法示例

GET /hotel/_search
{
  "query": {
    "bool": {
      "must": [
        {"term": {"city": "上海" }}
      ],
      "should": [
        {"term": {"brand": "皇冠假日" }},
        {"term": {"brand": "华美达" }}
      ],
      "must_not": [
        { "range": { "price": { "lte": 500 } }}
      ],
      "filter": [
        { "range": {"score": { "gte": 45 } }}
      ]
    }
  }
}

示例

需求：搜索名字包含“如家”，价格不高于400，在坐标31.21,121.5周围10km范围内的酒店。

分析：

名称搜索，属于全文检索查询，应该参与算分。放到must中
价格不高于400，用range查询，属于过滤条件，不参与算分。放到must_not中
周围10km范围内，用geo_distance查询，属于过滤条件，不参与算分。放到filter中

小结

子句	逻辑	参与算分
`must`	"与"	✅
`should`	"或"	✅
`must_not`	"非"	❌
`filter`	"与"	❌

1.6. update_by_query / delete_by_query

1.6.1. update 新增字段

POST device_search_20200716/_update_by_query?conflicts=proceed&timeout=1d&&slices=5
{
   "script": {
   // labels 是一级字段 params是下边定义的，里边存放着二级字段，和二级字段的值
    "source": "ctx._source.put('labels',params.labels)",
    "lang": "painless",
    "params":{
      "labels":{
        "hasSoftType":"1"
      }
    }
  },
   "query": {
    "bool": {
      "must": [
        {
          "exists": {
            "field": "deviceInfo.deviceType"
          }
        }
      ],
      "must_not": [
        {
          "term": {
            "labels.hasSoftType": {
              "value": "1"
            }
          }
        }
      ]
    }
  }
}

1.6.2. update 修改字段

POST device_search_20200716/_update_by_query?conflicts=proceed
{
   "script": {
    "source": "ctx._source['labels'].hasSoftType='2';",
    "lang": "painless"
  },
   "query": {
    "bool": {
      "must": [
        {
          "exists": {
            "field": "deviceInfo.deviceType"
          }
        }
      ],
      "must_not": [
        {
          "term": {
            "labels.hasSoftType": {
              "value": "1"
            }
          }
        }
      ]
    }
  }
}

1.6.3. delete_by_query

POST index_name/_delete_by_query
{
  "query": { //这些是自定义查询条件，根据查询条件去批量删除
    "match": {//请求体跟Search API是一样的
      "message": "some message"
    }
  }
}

2. 搜索结果处理

搜索结果可以按照用户指定的方式处理或展示。

2.1. 排序

Elasticsearch 默认根据相关度算分（_score）排序，也支持自定义排序。可排序的字段类型有：keyword、数值、地理坐标、日期等。

2.1.1. 普通字段排序

keyword、数值、日期类型排序的语法基本一致。

语法：

GET /indexName/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "FIELD": "desc"  // 排序字段、排序方式ASC、DESC
    }
  ]
}

排序条件是一个数组，可以写多个排序条件，按声明顺序依次生效：第一个条件相等时，再按第二个条件排序，以此类推。

示例：

需求描述：酒店数据按照用户评价（score)降序排序，评价相同的按照价格(price)升序排序

2.1.2. 地理坐标排序

地理坐标排序略有不同。

语法说明：

GET /indexName/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
    {
      "_geo_distance" : {
          "FIELD" : "纬度，经度", // 文档中geo_point类型的字段名、目标坐标点
          "order" : "asc", // 排序方式
          "unit" : "km" // 排序的距离单位
      }
    }
  ]
}

这个查询的含义是：

指定一个坐标，作为目标点
计算每一个文档中，指定字段（必须是geo_point类型）的坐标到目标点的距离是多少
根据距离排序

GET /indexName/_search
{
  "query": {
    "match_all": {}
  },
  "sort": [
        {
      "_script": {
        "type": "number",
        "script": {
          "source": """def val = doc['xxx'].value;
                       int slashIndex = val.indexOf('L');
                       return slashIndex;
          """
        },
        "order": "asc"
      }
    }
  ]
}

使用脚本排序：按字段 xxx 中 L 值出现的位置进行排序，位置越靠前则得分越高。

示例：

需求描述：实现对酒店数据按照到你的位置坐标的距离升序排序

提示：获取你的位置的经纬度的方式：https://lbs.amap.com/demo/jsapi-v2/example/map/click-to-get-lnglat/

假设我的位置是：31.034661，121.612282，寻找我周围距离最近的酒店。

2.2. 分页

Elasticsearch 默认只返回 top 10 的数据，通过 from 和 size 参数控制分页：

from：从第几个文档开始（默认 0）
size：总共查询几个文档

类似于 MySQL 的 LIMIT ?, ?。

2.2.1. 基本分页

分页的基本语法如下：

GET /hotel/_search
{
  "query": {
    "match_all": {}
  },
  "from": 0, // 分页开始的位置，默认为0
  "size": 10, // 期望获取的文档总数
  "sort": [
    {"price": "asc"}
  ]
}

2.2.2. 深度分页问题

查询第 990~1000 条数据时：

GET /hotel/_search
{
  "query": {
    "match_all": {}
  },
  "from": 990, // 分页开始的位置，默认为0
  "size": 10, // 期望获取的文档总数
  "sort": [
    {"price": "asc"}
  ]
}

这里查询的是第 990~~1000 条数据，但 Elasticsearch 内部分页时，必须先查询 0~~1000 条，再截取其中的 990~1000 条：

查询 TOP 1000 在单节点模式下影响不大，但在集群模式下问题严重。例如集群有 5 个节点，要查 TOP 1000，并不是每个节点查 200 条就够。因为节点 A 的 TOP 200 在另一个节点可能排到 10000 名之后。因此必须先从每个节点查出 TOP 1000，汇总后重新排名，再截取最终的 TOP 1000。

若查询 9900~10000 的数据，每个节点都需要查询 10000 条再汇总，对内存和 CPU 压力极大，因此 Elasticsearch 会禁止 from + size 超过 10000 的请求。

针对深度分页，ES 提供了两种解决方案（官方文档）：

search_after：分页时需要排序，从上一次的排序值开始查询下一页，官方推荐方式
scroll：将排序后的文档 id 形成快照保存在内存，官方已不推荐使用

2.2.3. 分页方案小结

方案	优点	缺点	适用场景
`from + size`	支持随机翻页	深度分页问题，上限 10000	百度、京东等随机翻页搜索
`search_after`	无查询上限	只能向后逐页，不支持随机翻页	手机下拉滚动翻页
`scroll`	无查询上限	额外内存消耗，非实时	海量数据迁移（ES 7.1 后不推荐）

2.3. 高亮

2.3.1. 高亮原理

在百度、京东搜索时，关键字会变成红色，这叫高亮显示：

高亮显示的实现分为两步：

给文档中所有关键字添加标签，例如 <em> 标签
页面为 <em> 标签编写 CSS 样式

2.3.2. 实现高亮

高亮的语法：

GET /hotel/_search
{
  "query": {
    "match": {
      "FIELD": "TEXT" // 查询条件，高亮一定要使用全文检索查询
    }
  },
  "highlight": {
    "fields": { // 指定要高亮的字段
      "FIELD": {
        "pre_tags": "<em>",  // 用来标记高亮字段的前置标签
        "post_tags": "</em>" // 用来标记高亮字段的后置标签
      }
    }
  }
}

注意：

高亮针对关键字，因此搜索条件必须带有关键字，不能是范围类查询。
默认情况下，高亮字段必须与搜索字段一致，否则无法高亮。
若要对非搜索字段高亮，需添加属性："require_field_match": false

示例：

2.4. 输出结果处理

2.4.1. 格式化输出

在 URL 参数中添加 v 可让输出结果带有表头，例如 GET /_cat/indices?v
添加 pretty=true 可让返回的 JSON 字符串更具可读性，例如 GET /index/_search?pretty=true

2.4.2. 展平配置信息

flat_settings=true 参数可将嵌套的配置信息展平，仅对配置信息查询有效，例如：

GET /test-20201127/_settings?flat_settings=true
返回结果如下：

{
  "test-20201127": {
    "settings": {
      "index.codec": "best_compression",
      "index.creation_date": "1606406411188",
      "index.lifecycle.name": "test-dd",
      "index.mapping.total_fields.limit": "10000",
      "index.merge.policy.max_merged_segment": "128m",
      "index.number_of_replicas": "1",
      "index.number_of_shards": "2",
      "index.priority": "0",
      "index.provided_name": "test-20201127",
      "index.refresh_interval": "1h",
      "index.routing.allocation.total_shards_per_node": "2",
      "index.translog.flush_threshold_size": "1g",
      "index.uuid": "lgc28_OzT6qiJjDp9r5KNA",
      "index.version.created": "7090399"
    }
  }
}

2.4.3. 返回信息过滤

使用 filter_path 参数可过滤返回字段，例如 GET /index/_search?filter_path=-**.blob,-**.blob1。常见用法：

按层级保留字段：filter_path=hits、filter_path=hits.hits、filter_path=hits.hits._source
过滤多个字段用逗号分隔：filter_path=hits.hits,took
单层通配符 *：filter_path=hits.*._source
任意深度通配符 **：filter_path=**._source
排除字段（加减号 -）：filter_path=-**._source

2.4.4. 返回匹配文档数

默认匹配文档数超过 10000 时只显示 10000。使用 track_total_hits=true 可获取真实数量，例如 GET /test-2021*/_search?track_total_hits=true，返回如下：

...
"total": {
  "value": 2843,
  "relation": "eq"
}
...

2.5. DSL 查询小结

查询的 DSL 是一个 JSON 对象，包含以下主要属性：

query：查询条件
from 和 size：分页条件
sort：排序条件
highlight：高亮条件

示例：

3. RestClient 查询文档

文档的查询同样使用 RestHighLevelClient 对象，基本步骤：

准备 Request 对象
准备请求参数
发起请求
解析响应

3.1. 快速入门

以 match_all 查询为例。

3.1.1. 发起查询请求

代码解读：

创建 SearchRequest 对象，指定索引库名
利用 request.source() 构建 DSL（可包含查询、分页、排序、高亮等），query() 方法传入 QueryBuilders.matchAllQuery()
调用 client.search() 发送请求，得到响应

这里关键的API有两个，一个是request.source()，其中包含了查询、排序、分页、高亮等所有功能：

另一个是QueryBuilders，其中包含match、term、function_score、bool等各种查询：

3.1.2. 解析响应

响应结果的解析：

Elasticsearch 返回的结果是一个 JSON，结构如下：

hits：命中结果
- total.value：总条数
- max_score：最高相关性算分
- hits[]：文档数组，每个文档含 _source（原始 JSON 数据）

解析流程：

response.getHits() → SearchHits（最外层 hits）
- getTotalHits().value：总条数
- getHits()：SearchHit[] 文档数组
  - getSourceAsString()：原始 JSON 文档数据

3.1.3. 完整代码

完整代码如下：

@Test
void testMatchAll() throws IOException {
    // 1.准备Request
    SearchRequest request = new SearchRequest("hotel");
    // 2.准备DSL
    request.source()
        .query(QueryBuilders.matchAllQuery());
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);

    // 4.解析响应
    handleResponse(response);
}

private void handleResponse(SearchResponse response) {
    // 4.解析响应
    SearchHits searchHits = response.getHits();
    // 4.1.获取总条数
    long total = searchHits.getTotalHits().value;
    System.out.println("共搜索到" + total + "条数据");
    // 4.2.文档数组
    SearchHit[] hits = searchHits.getHits();
    // 4.3.遍历
    for (SearchHit hit : hits) {
        // 获取文档source
        String json = hit.getSourceAsString();
        // 反序列化
        HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
        System.out.println("hotelDoc = " + hotelDoc);
    }
}

3.1.4. 小结

创建 SearchRequest 对象
利用 QueryBuilders 构建查询条件，传入 request.source().query()
发送请求，得到结果
解析结果（从外到内逐层解析 JSON）

3.2. match 查询

全文检索的 match 和 multi_match 查询与 match_all 的 API 基本一致，差别仅在查询条件部分。

Java 代码差异主要在 request.source().query() 的参数，同样利用 QueryBuilders 提供的方法：

结果解析代码与 match_all 完全一致，可抽取复用。

完整代码如下：

@Test
void testMatch() throws IOException {
    // 1.准备Request
    SearchRequest request = new SearchRequest("hotel");
    // 2.准备DSL
    request.source()
        .query(QueryBuilders.matchQuery("all", "如家"));
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);

}

3.3. 精确查询

精确查询主要有两种：term（词条精确匹配）和 range（范围查询），与其他查询相比，差异同样仅在查询条件的构建：

3.4. 布尔查询

布尔查询用 must、must_not、filter 等方式组合其他查询，代码示例如下：

与其他查询相比，差异仅在查询条件的构建（QueryBuilders），结果解析等代码完全不变。

完整代码如下：

@Test
void testBool() throws IOException {
    // 1.准备Request
    SearchRequest request = new SearchRequest("hotel");
    // 2.准备DSL
    // 2.1.准备BooleanQuery
    BoolQueryBuilder boolQuery = QueryBuilders.boolQuery();
    // 2.2.添加term
    boolQuery.must(QueryBuilders.termQuery("city", "杭州"));
    // 2.3.添加range
    boolQuery.filter(QueryBuilders.rangeQuery("price").lte(250));

    request.source().query(boolQuery);
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);

}

3.5. 排序、分页

排序和分页与 query 同级，同样通过 request.source() 设置：

对应的API如下：

完整代码示例：

@Test
void testPageAndSort() throws IOException {
    // 页码，每页大小
    int page = 1, size = 5;

    // 1.准备Request
    SearchRequest request = new SearchRequest("hotel");
    // 2.准备DSL
    // 2.1.query
    request.source().query(QueryBuilders.matchAllQuery());
    // 2.2.排序 sort
    request.source().sort("price", SortOrder.ASC);
    // 2.3.分页 from、size
    request.source().from((page - 1) * size).size(5);
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);

}

3.6. 高亮

高亮的代码有两处差异：

查询 DSL：除查询条件外，还需添加高亮条件（与 query 同级）
结果解析：除解析 _source 外，还需解析高亮结果

3.6.1. 高亮请求构建

高亮请求的构建API如下：

高亮查询必须使用全文检索查询，并且要有搜索关键字，才能对关键字进行高亮。

完整代码如下：

@Test
void testHighlight() throws IOException {
    // 1.准备Request
    SearchRequest request = new SearchRequest("hotel");
    // 2.准备DSL
    // 2.1.query
    request.source().query(QueryBuilders.matchQuery("all", "如家"));
    // 2.2.高亮
    request.source().highlighter(new HighlightBuilder().field("name").requireFieldMatch(false));
    // 3.发送请求
    SearchResponse response = client.search(request, RequestOptions.DEFAULT);
    // 4.解析响应
    handleResponse(response);

}

3.6.2. 高亮结果解析

高亮结果与文档结果默认分离，解析时需要额外处理：

代码解读：

hit.getSourceAsString() 获取原始 JSON，反序列化为 HotelDoc
hit.getHighlightFields() 获取高亮结果 Map（key 为字段名，value 为 HighlightField）
从 Map 中根据字段名取 HighlightField
调用 getFragments()[0].string() 获取高亮字符串
用高亮结果替换 HotelDoc 中对应字段

完整代码如下：

private void handleResponse(SearchResponse response) {
    // 4.解析响应
    SearchHits searchHits = response.getHits();
    // 4.1.获取总条数
    long total = searchHits.getTotalHits().value;
    System.out.println("共搜索到" + total + "条数据");
    // 4.2.文档数组
    SearchHit[] hits = searchHits.getHits();
    // 4.3.遍历
    for (SearchHit hit : hits) {
        // 获取文档source
        String json = hit.getSourceAsString();
        // 反序列化
        HotelDoc hotelDoc = JSON.parseObject(json, HotelDoc.class);
        // 获取高亮结果
        Map<String, HighlightField> highlightFields = hit.getHighlightFields();
        if (!CollectionUtils.isEmpty(highlightFields)) {
            // 根据字段名获取高亮结果
            HighlightField highlightField = highlightFields.get("name");
            if (highlightField != null) {
                // 获取高亮值
                String name = highlightField.getFragments()[0].string();
                // 覆盖非高亮结果
                hotelDoc.setName(name);
            }
        }
        System.out.println("hotelDoc = " + hotelDoc);
    }
}

1. DSL 查询文档

1.1. DSL 查询分类

1.2. 全文检索查询

1.2.1. 使用场景

1.2.2. 基本语法

1.2.3. 示例

1.2.4. match_phrase

1.2.5. dis_max

不使用 dis_max 查询

使用 dis_max 查询

关于 tie_breaker

小结

1.3. 精确查询

1.3.1. term 查询

1.3.2. range 查询

1.3.3. 小结

1.4. 地理坐标查询

1.4.1. 矩形范围查询

1.4.2. 附近查询

1.5. 复合查询

1.5.1. 相关性算分

1.5.2. 算分函数查询

语法说明

示例

小结

1.5.3. 布尔查询

语法示例

示例

小结

1.6. update_by_query / delete_by_query

1.6.1. update 新增字段

1.6.2. update 修改字段

1.6.3. delete_by_query

2. 搜索结果处理

2.1. 排序

2.1.1. 普通字段排序

2.1.2. 地理坐标排序

2.2. 分页

2.2.1. 基本分页

2.2.2. 深度分页问题

2.2.3. 分页方案小结

2.3. 高亮

2.3.1. 高亮原理

2.3.2. 实现高亮

2.4. 输出结果处理

2.4.1. 格式化输出

2.4.2. 展平配置信息

2.4.3. 返回信息过滤

2.4.4. 返回匹配文档数

2.5. DSL 查询小结

3. RestClient 查询文档

3.1. 快速入门

3.1.1. 发起查询请求

3.1.2. 解析响应

3.1.3. 完整代码

3.1.4. 小结

3.2. match 查询

3.3. 精确查询

3.4. 布尔查询

3.5. 排序、分页

3.6. 高亮

3.6.1. 高亮请求构建

3.6.2. 高亮结果解析

不使用 `dis_max` 查询

使用 `dis_max` 查询

关于 `tie_breaker`