使用通配符查詢(WildcardQuery)可以實現模糊查詢,類似于數據庫中的Like語法,例如查詢文本中包含某個詞或短句的數據。
如果要實現NOT LIKE功能,則WildcardQuery需要和BoolQuery中的mustNotQueries結合使用。更多信息,請參見多條件組合查詢。
功能概述
通配符查詢通過特定的符號實現模糊匹配,能有效提升數據查找的精確度與效率。
使用WildcardQuery功能查詢數據時,您可以使用帶有通配符的字符串進行數據匹配。目前支持星號(*)和問號(?)兩種通配符。其中星號(*)代表任意字符序列,問號(?)代表任意單個字符。查詢字符串支持以星號(*)或問號(?)開頭。例如查詢table*e
,可以匹配到tablestore
。
目前支持用于WildcardQuery的數據類型包括Keyword和FuzzyKeyword。
Keyword類型:字符串基礎數據類型,在中大規模數據上進行WildcardQuery等模糊查詢的性能較差,且性能會隨著數據規模增長而下降。
FuzzyKeyword類型:專門為WildcardQuery等模糊查詢功能優化過的數據類型,在小、中、大規模數據上的查詢性能均會更好更穩定,且性能基本不會隨著數據規模增長而下降。
為了滿足用戶不同場景的模糊匹配需求,多元索引提供了3種不同類型的通配符查詢,具體說明請參見下表。
本文主要介紹基于Keyword類型和FuzzyKeyword類型的WildcardQuery,如果想了解基于Text類型實現模糊查詢的方案,請參見基于分詞的通配符查詢文檔。
數據類型 | 查詢方式 | 優勢 | 劣勢 |
Keyword | WildcardQuery | 兼容Elasticsearch的方式 | 隨著索引數據增多后查詢性能會變差 |
FuzzyKeyword | WildcardQuery | 性能好且穩定,性能基本不會隨著數據規模增長而下降 | 數據會有部分膨脹 |
Text | MatchPhraseQuery | 支持大小寫不敏感 | 數據會有部分膨脹 |
注意事項
不論是Keyword類型還是FuzzyKeyword類型,WildcardQuery中的查詢詞長度均不能超過32個字符。
接口
通配符查詢的接口為Search或者ParallelScan,具體的Query類型為WildcardQuery。
參數
參數 | 描述 |
fieldName | 列名稱。 |
value | 帶有通配符的字符串,字符串長度不能超過32個字符。 |
query | 設置查詢類型為WildcardQuery。 |
getTotalCount | 是否返回匹配的總行數,默認為false,表示不返回。 返回匹配的總行數會影響查詢性能。 |
weight | 查詢權重,用于全文檢索場景中的score排序。查詢時指定列的算分權重,值越大,結果中分數的值會越大。取值范圍為正浮點數。 使用此參數不會影響返回的結果數,只會影響返回的結果中的分數。 |
tableName | 數據表名稱。 |
indexName | 多元索引名稱。 |
columnsToGet | 是否返回所有列,包含returnAll和columns設置。 returnAll默認為false,表示不返回所有列,此時可以通過columns指定返回的列;如果未通過columns指定返回的列,則只返回主鍵列。 當設置returnAll為true時,表示返回所有列。 |
使用方式
您可以使用控制臺、命令行工具或者SDK進行通配符查詢。進行通配符查詢之前,您需要完成如下準備工作。
目前基于FuzzyKeyword類型的WildcardQuery只支持使用表格存儲SDK實現。
使用阿里云賬號或者使用具有表格存儲操作權限的RAM用戶進行操作。如果需要為RAM用戶授權表格存儲操作權限,請參見通過RAM Policy為RAM用戶授權進行配置。
使用SDK方式和命令行工具方式進行操作時,如果當前無可用AccessKey,則需要為阿里云賬號或者RAM用戶創建AccessKey。具體操作,請參見創建AccessKey。
已創建數據表。具體操作,請參見數據表操作。
已為數據表創建多元索引。具體操作,請參見創建多元索引。
使用SDK方式進行操作時,還需要完成初始化Client。具體操作,請參見初始化OTSClient。
使用命令行工具方式進行操作前,還需要完成下載并啟動命令行工具,然后配置接入實例信息并選擇要操作的表。具體操作,請參見下載命令行工具、啟動并配置接入信息和數據表操作。
進入索引管理頁簽。
登錄表格存儲控制臺。
在頁面上方,選擇資源組和地域。
在概覽頁面,單擊實例名稱或在操作列單擊實例管理。
在實例詳情頁簽下的數據表列表頁簽,單擊數據表名稱或在操作列單擊索引管理。
在索引管理頁簽,單擊目標多元索引操作列的搜索。
在查詢數據對話框,查詢數據。
系統默認返回所有列,如需顯示指定屬性列,關閉獲取所有列并輸入需要返回的屬性列,多個屬性列之間用半角逗號(,)隔開。
說明系統默認會返回數據表的主鍵列。
根據需要選擇邏輯操作符為And、Or或者Not。
當選擇邏輯操作符為And時,返回滿足指定條件的數據。當選擇邏輯操作符為Or時,如果配置了單個條件,則返回滿足指定條件的數據;如果配置了多個條件,則返回滿足任意一個條件的數據。當選擇邏輯操作符為Not時,返回不滿足指定條件的數據。
選擇索引字段,單擊添加。
設置索引字段的查詢類型為通配符查詢(WildcardQuery)和輸入帶通配符的值。
系統默認關閉排序功能,如需根據指定字段對返回結果進行排序,打開是否排序開關后,根據需要添加要進行排序的字段并配置排序方式。
系統默認關閉統計功能,如需對指定字段進行數據統計,打開是否統計開關后,根據需要添加要進行統計的字段和配置統計信息。
單擊確定。
符合查詢條件的數據會顯示在索引管理頁簽中。
通過命令行工具執行search
命令使用多元索引查詢數據。更多信息,請參見多元索引。
目前命令行工具僅支持Keyword類型的WildcardQuery,不支持FuzzyKeyword類型。
執行
search
命令使用search_index多元索引查詢表中數據,并返回所有建立索引的列。search -n search_index --return_all_indexed
根據系統提示輸入查詢條件,示例如下:
{ "Offset": -1, "Limit": 10, "Collapse": null, "Sort": null, "GetTotalCount": true, "Token": null, "Query": { "Name": "WildcardQuery", "Query": { "FieldName": "col_keyword", "Value": "hang*u" } } }
您可以通過Java SDK、Go SDK、Python SDK、Node.js SDK、.NET SDK和PHP SDK使用通配符查詢。此處以Java SDK為例介紹通配符查詢的使用。
實際使用時,不論是Keyword類型還是FuzzyKeyword類型,查詢語句是完全相同的,只是查詢列的類型不同。
以下示例用于使用通配符查詢表中Col_Keyword列的值中匹配"hang*u"的數據。
/**
* 使用通配符查詢,查詢表中Col_Keyword列的值中匹配"hang*u"的數據。
* @param client
*/
private static void wildcardQuery(SyncClient client) {
SearchQuery searchQuery = new SearchQuery();
WildcardQuery wildcardQuery = new WildcardQuery(); //設置查詢類型為WildcardQuery。
wildcardQuery.setFieldName("Col_Keyword");
wildcardQuery.setValue("hang*u"); //wildcardQuery支持通配符。
searchQuery.setQuery(wildcardQuery);
//searchQuery.setGetTotalCount(true); //設置返回匹配的總行數。
SearchRequest searchRequest = new SearchRequest("<TABLE_NAME>", "<SEARCH_INDEX_NAME>", searchQuery);
//通過設置columnsToGet參數可以指定返回的列或返回所有列,如果不設置此參數,則默認只返回主鍵列。
//SearchRequest.ColumnsToGet columnsToGet = new SearchRequest.ColumnsToGet();
//columnsToGet.setReturnAll(true); //設置為返回所有列。
//columnsToGet.setColumns(Arrays.asList("ColName1","ColName2")); //設置為返回指定列。
//searchRequest.setColumnsToGet(columnsToGet);
SearchResponse resp = client.search(searchRequest);
//System.out.println("TotalCount: " + resp.getTotalCount()); //打印匹配到的總行數,非返回行數。
System.out.println("Row: " + resp.getRows());
}
計費說明
使用VCU模式(原預留模式)時,使用多元索引查詢數據會消耗VCU的計算資源。使用CU模式(原按量模式)時,使用多元索引查詢數據會消耗讀吞吐量。更多信息,請參見多元索引計量計費。
常見問題
相關文檔
多元索引查詢類型包括精確查詢、多詞精確查詢、全匹配查詢、匹配查詢、短語匹配查詢、前綴查詢、范圍查詢、通配符查詢、基于分詞的通配符查詢、多條件組合查詢、地理位置查詢、嵌套類型查詢、向量檢索介紹與使用和列存在性查詢,您可以選擇合適的查詢類型進行多維度數據查詢。
如果要對結果集進行排序或者翻頁,您可以使用排序和翻頁功能來實現。具體操作,請參見排序和翻頁。
如果要按照某一列對結果集做折疊,使對應類型的數據在結果展示中只出現一次,您可以使用折疊(去重)功能來實現。具體操作,請參見折疊(去重)。
如果要進行數據分析,例如求最值、求和、統計行數等,您可以使用Search接口的統計聚合功能或者SQL查詢來實現。具體操作,請參見統計聚合和SQL查詢。
如果要快速導出數據,而不關心整個結果集的順序時,您可以使用ParallelScan接口和ComputeSplits接口實現多并發導出數據。具體操作,請參見并發導出數據。