日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

向量檢索版介紹

向量檢索版簡介

OpenSearch-向量檢索版是阿里巴巴自主研發的大規模分布式搜索引擎,支持了淘寶、天貓、菜鳥、優酷乃至海外電商在內整個集團的搜索業務,同時也支撐了阿里云上的開放搜索業務。OpenSearch-向量檢索版經過多年的發展,在滿足業務高可用、高時效性、低成本等需求的同時,也沉淀出一套自動化運維系統,使用它用戶可以根據自己的業務特點方便的構建自己的搜索服務。

OpenSearch-向量檢索版架構

image.png

OpenSearch-向量檢索版主要有三部分構成,管控系統、在線系統、數據源。在線系統加載索引,并提供向量檢索服務;數據源用于配置用戶的全量數據導入入口同時支持用戶的實時數據寫入;管控系統為用戶提供自動化運維服務,方便用戶創建集群并對集群進行各種運維操作。

系統架構

在線系統

在用戶視角中在線系統是按表維度進行劃分,用戶可以通過接口單獨查詢每張向量表的數據,也可以對每張表進行單獨管理,比如設置表字段、設置向量索引,配置數據源,控制每張表的實時數據并發等等。

后端的在線系統架構則是由查詢節點和數據節點組成的多行多列的分布式架構:

image.png

  • 查詢節點:它對輸入的查詢請求進行解析、校驗或者改寫,并將解析之后的請求轉發給數據節點執行,收集并合并數據節點返回的結果,加工之后返回給用戶。查詢節點是一個計算型節點,不加載用戶的數據,一般不需要太多的內存,但是當返回的文檔個數較多或者統計產出的條目過多時才會消耗大量內存。如果查詢節點的處理能力達到瓶頸,可以擴充查詢節點的備份數或者擴查詢節點的規格。

  • 數據節點:數據節點加載用戶的索引數據并根據查詢檢索文檔、對文檔進行過濾、統計、排序等操作。數據節點上的索引是可以分片的,分片的含義是對分片字段哈希到[0,65535]之間,將這個區間分成指定的片數(構建索引時指定)。這樣對于數據量較大或者對查詢性能有要求的集群,就可以通過分片提高單次請求的處理性能。如果想提高整個集群的處理能力(比如從支持1000 qps提升到10000 qps)可以通過擴備份的方式進行。擴副本不是只擴一個Searcher節點,而是擴承載所有數據的多個Searcher節點(多個分片要做成完整的[0,65535]區間)。

表之間共享數據節點資源(CPU、內存、磁盤):

image.png

上圖中展示的就是兩張向量表,一個是4分片,一個是1分片,4分片的會根據產出的索引進行均分數據到每個分片中,而1分片的向量表則會形成廣播表在每個數據節點中存儲一份完整的向量表2的索引數據。

數據源

用戶可通過配置數據源將原始數據通過索引重建(全量)的方式,將索引重建后的索引數據導入到在線系統的表中進行數據檢索,數據源和表是一一對應的關系,目前系統支持的數據源有MaxCompute、Saro、API,API是一個空的數據源所有的數據需要用戶通過接口推送到在線系統的表中。

管控系統

管控系統是一個OpenSearch-向量檢索版實例的運維平臺,這個平臺大大節省了我們的運維成本。

數據同步流程

全量流程

OpenSearch-向量檢索版的索引是支持多版本的,每個索引版本都會基于一份原始數據來構建(API數據源默認為空數據),觸發一次索引重建就是全量流程。全量流程是一個非常駐任務,數據處理完成,產出一份全量索引,全量流程結束。產出的全量索引通過全量切換,切換到在線集群提供檢索服務。

多索引版本的支持可以保證數據變更的穩定性,當索引結構變化或者數據結構發生變化時,通過全量產出新的索引是和老版本的索引完全隔離的,如果變更有問題可以及時回滾。

全量索引的產出需要經過數據處理,索引構建,索引合并等流程,在各個階段可以通過設置索引處理的并發度提高全量索引的產出速度。

實時增量流程

全量索引產出后,每個全量版本都會有一個常駐的增量流程,而增量數據同步是通過數據更新節點完成的,

MaxCompute、OSS、API 的數據源都是通過API的方式推送實時增量數據,通過API將增量數據推送到表中,由數據更新節點消費增量數據,最后由數據節點實時構建索引,供用戶查詢。

增量流程是一個常駐任務,每一個表的每一個全量都會對應一個增量流程,可以通過控制數據更新節點的個數來提高實時數據的處理能力。

向量檢索版特性

穩定

向量檢索版底層采用c++實現,經過十多年的發展,支撐了多個核心業務,非常穩定,非常適用于對穩定性要求較高的核心搜索場景。

高效

OpenSearch-向量檢索版是一個分布式搜索引擎,可以高效的支持海量數據的檢索,同時也支持數據的實時更新(秒級生效),非常適用于對查詢耗時敏感、時效性要求高的搜索場景。

低成本

OpenSearch-向量檢索版支持多種索引壓縮策略,同時支持多值索引加載測試,能夠以較低的成本滿足用戶的查詢需求。