日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

什么是向量

本文主要介紹向量的基本概念,包括向量維度、距離度量方式、數據類型等,通過基本概念快速了解什么是向量,以及如何更好地使用向量檢索服務。

向量的基本概念

在AI領域,向量是描述對象特征的抽象表達。以DashScope上的通用文本向量模型為例,通過輸入一段文本,通用文本向量模型會將這段文本變成一個向量,將文本變成向量的過程叫 Embedding

調用示例

輸入文本:“衣服的質量杠杠的,很漂亮,不枉我等了這么久啊,喜歡,以后還來這里買”

import dashscope
from dashscope import TextEmbedding

dashscope.api_key = {YOUR API KEY}

def embed_with_str():
    resp = TextEmbedding.call(
        model=TextEmbedding.Models.text_embedding_v1,
        input='衣服的質量杠杠的,很漂亮,不枉我等了這么久啊,喜歡,以后還來這里買')
    print(resp)


if __name__ == '__main__':
    embed_with_str()

調用輸出

{
  "status_code": 200,
  "request_id": "617b3670-6f9e-9f47-ad57-997ed8aeba6a",
  "code": "",
  "message": "",
  "output": {
    "embeddings": [
      {
        "embedding": [
          0.09393704682588577,
          2.4155092239379883,
          -1.8923076391220093,
          .,
          .,
          .

        ],
        "text_index": 0
      }
    ]
  },
  "usage": {
    "total_tokens": 23
  }
}

在返回中embedding字段中的內容就是一條向量。

 [
    0.09393704682588577,
    2.4155092239379883,
    -1.8923076391220093,
    .,
    .,
    .
]

什么是向量維度和向量數據類型

從上文中可以看出,向量實際上是一串數字的組合,也就是一個數組,這個數組代表了這段文本的特征。向量的維度即為這個數組中元素的個數,例如,這個數組中有100個元素,那么向量就是100維的。仍以DashScope上的通用文本向量為例,通用文本向量返回的向量中都有1536個元素,則向量的維度為1536維,且返回的向量維度是不變的。從通用文本向量的說明文檔中也可以查看向量的維度,如下表所示。

模型中文名

模型英文名

向量維度

單次請求文本最大行數

單行最大輸入字符長度

支持語種

通用文本向量

text-embedding-v1

1536

25

2048

中文、英語、西班牙語、法語、葡萄牙語、印尼語。

而向量的數據類型指的是向量數組中元素的數據類型。還是以DashScope上通用文本向量為例,返回向量的元素均為Float型,則向量的數據類型為Float型。換言之,如果向量為[1,2,3,4],向量中的元素都為整數型,那么這個向量則為4維的INT型向量。

說明

向量的維度和數據類型,取決于您使用的Embedding的模型,不同的Embedding模型,向量的維度和數據類型可能也是不一樣的。

什么是向量的距離度量方式

上文中講到向量實際上是一個數組,那么向量與向量之間的相似性,通常使用向量之間的距離這個參數來衡量。向量檢索服務(DashVector)支持三種典型的距離度量方式。

余弦距離 Cosine

余弦相似度是指兩個向量之間的夾角余弦值,它的計算公式為:

image.png

其中,A B 分別表示兩個向量,n 表示向量的維度,· 表示向量的點積,||A||,||B||分別表示兩個向量的模長。

image.png

而在DashVector中使用余弦距離來表示相似度,余弦距離=1-余弦相似度,所以余弦距離取值范圍為[0, 2],越接近 0 表示越相似,越接近 2 表示越不相似。余弦距離度量的計算公式如下:

image.png

歐式距離 Euclidean

歐幾里得距離是指兩個向量之間的距離,歐式距離越小,表示兩個向量越相似,它的計算公式為:

image.png

其中, A B 分別表示兩個向量,n 表示向量的維度。

image.png

點積 DotProduct

向量的點積相似度是指兩個向量之間的點積值,也稱內積。點積(內積)結果越大,代表越相似,它的計算公式為:

image.png

其中,AB 分別表示兩個向量,n 表示向量的維度。

image.png

常見模型及向量參數設置參考

模型名稱

向量維度

向量數據類型

距離度量方式(建議)

DashScope通用文本向量

1536

Float(32)

Cosine

DashScope OnePeace多模態向量表征

1536

Float(32)

Cosine

OpenAI 文本向量

1536

Float(32)

Cosine

在創建Collection時,可根據您使用的模型,選擇對應的參數。image.png