如何掌握向量数据库

想玩转AI？先搞懂向量数据库！本文深入解析向量数据库，揭秘其在ML中的核心作用，以及如何用 BERT、ResNet 生成 embeddings。精讲 Milvus、Pinecone、Weaviate 三大热门数据库，手把手教你索引、查询、优化，玩转推荐系统、视觉搜索等应用。掌握 ANN 搜索，解锁 AI 新姿势！

译自：How To Master Vector Databases
作者：Tinega Onchari

机器学习 (ML)、人工智能和无尽的数据流正在重塑我们解决问题的方式。但是，在处理图像、音频或文本嵌入等非结构化数据时，传统数据库通常会捉襟见肘。这就是向量数据库的用武之地。它们旨在快速有效地存储、索引和搜索高维向量。

当平台推荐完美的视频、查找相似的产品或以惊人的准确度匹配面孔时，向量数据库很可能在幕后默默地工作。本指南将分解向量数据库的基础知识，探索它们的实际应用，并向您展示如何有效地开始使用它们。

什么是向量数据库？

向量数据库旨在存储和搜索向量，向量也称为多维空间中数据的数字表示。这些向量由 ML 模型创建，用于捕获非结构化数据的关键特征。

例如，可以使用像 BERT 这样的语言模型将一个句子转换为 512 维的向量，而使用 ResNet 可以将图像表示为 2048 维的向量。

这些数据库擅长通过计算向量之间的距离来进行相似性搜索，这使它们非常适合推荐系统、图像检索和异常检测等任务。

为什么要使用向量数据库？

向量数据库在传统数据库无法跟上步伐的领域中大放异彩：

近似最近邻 (ANN)

流行的向量数据库

近年来，为了满足对高维数据管理日益增长的需求，涌现出了几个向量数据库和工具。以下是三个需要注意的重要向量数据库：

Milvus 是一个开源的、高度可扩展的向量数据库，它支持多种索引算法，如 HNSW 和倒排文件索引 (IVF)。您可以将其与 TensorFlow 和 PyTorch 等 ML 框架集成。Pinecone 是一个托管的向量数据库，旨在易于使用，帮助您自动扩展到数百万个向量。它具有与云平台的原生集成，并提供低延迟搜索，而无需基础设施开销。Weaviate 是一个开源向量数据库，非常注重知识图谱。它为语义搜索和 ML 提供原生支持，以及用于轻松集成的 RESTful API。

前提条件：了解嵌入

在深入研究向量数据库之前，掌握向量嵌入的概念至关重要，因为它们构成了这些数据库的基础。

什么是嵌入？

简而言之，嵌入是数据的密集数值表示，例如文本、图像或音频。这些表示是使用 ML 模型生成的，这些模型经过训练可以捕获数据中的底层模式、关系或特征。

嵌入不是处理原始数据，而是允许您将每个数据点表示为一个向量（一个数字列表），可以在数学空间中对其进行分析和比较。这些向量通常是高维的，并编码数据的“本质”。

例如：

像“The cat sat on the mat”这样的句子可以表示为 512 维的向量。狗的照片可以转换为 2048 维的向量，以捕获其视觉特征，如形状、颜色和纹理。

为什么要使用嵌入？

嵌入对于处理传统数据库难以处理的非结构化数据特别强大。它们允许您：

衡量相似度：

对相似数据进行分组：

执行高级任务：

如何创建嵌入？

要生成嵌入，可以使用预训练的 ML 模型或训练自己的模型。以下是不同数据类型的常见示例：

1. 文本嵌入： 像 Hugging Face Transformers、BERT 或 GPT 模型这样的工具通常用于编码文本数据。

输入：一个句子或文档输出：一个固定大小的向量（例如，512 维）代码示例：

from transformers import AutoTokenizer, AutoModelimport torch# Load a pre-trained modeltokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")model = AutoModel.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")# Encode a text inputtext = "Understanding vector embeddings is crucial."inputs = tokenizer(text, return_tensors="pt")embeddings = model(**inputs).last_hidden_state.mean(dim=1)print(embeddings.shape) # Output: torch.Size([1, 384])

2. 图像嵌入： 像 ResNet、EfficientNet 或 VGG 这样的深度学习模型可以从图像中提取视觉特征。

输入：一张图片输出：一个表示视觉模式的向量

3. 像 TensorFlow 或 PyTorch 这样的框架提供了预训练模型，简化了这个过程。

4. 音频嵌入： 像 OpenL3 这样的模型或基于自定义频谱图的神经网络将音频数据表示为向量。

5. 自定义嵌入： 您还可以训练自己的模型，为特定领域的任务生成嵌入（例如，医学影像、DNA 序列或金融数据）。

嵌入的关键特征

1. 固定大小： 嵌入通常是固定维度的，与输入大小无关。

2. 连续表示： 与原始数据不同，嵌入存在于连续向量空间中，使其适用于基于距离的操作。

3. 特定于任务： 嵌入经过定制，可以捕获与特定任务相关的模式（例如，文本的语义相似性或图像的视觉相似性）。

可视化嵌入

高维嵌入可能难以解释，但像 t-distributed stochastic neighbor embedding (t-SNE) 或 Uniform Manifold Approximation and Projection for Dimension Reduction (UMAP) 这样的技术可以帮助在 2D 或 3D 中可视化它们。这些可视化揭示了数据点如何在嵌入空间中聚集和关联。

这是一个在 Python 中使用 t-SNE 可视化文本嵌入的示例：

from sklearn.manifold import TSNEimport matplotlib.pyplot as pltimport numpy as np# Generate sample embeddingsembeddings = np.random.rand(100, 512) # Replace with actual embeddings# Reduce dimensionalitytsne = TSNE(n_components=2, random_state=42)reduced_embeddings = tsne.fit_transform(embeddings)# Plotplt.scatter(reduced_embeddings[:, 0], reduced_embeddings[:, 1])plt.title("t-SNE Visualization of Embeddings")plt.show()

掌握向量数据库：循序渐进

现在您了解了嵌入，让我们深入了解使用向量数据库的步骤。

1. 选择合适的向量数据库

选择错误的向量数据库可能会对您的产品造成灾难性的影响。要为您的用例选择合适的数据库，请考虑以下关键因素和指导。

选择向量数据库时要考虑的因素

用例要求：

是否具有足够的可扩展性？

了解索引技术：

HNSW（分层可导航小世界）：非常适合低延迟的最近邻搜索。IVF（倒排文件索引）：平衡了大型数据集的搜索准确性和速度。PQ（乘积量化）：压缩向量以节省空间，同时保持合理的准确性。

将其与你的技术栈集成：

你需要云端还是自托管？

成本和许可：

如何为你的项目选择最佳数据库

定义你的数据集大小和增长：

对于小型项目，请考虑轻量级和自托管的选项，如 Milvus。对于大型项目，选择可扩展的解决方案，如 Pinecone 或水平扩展。

评估你的查询速度需求：

考虑部署偏好：

测试多个选项：

关注社区和支持服务：

2. 索引和查询你的数据

选择向量数据库后，下一步是索引和查询你的数据。这就是奇迹发生的地方；你的向量被存储、结构化，并可以搜索，用于各种应用，如推荐系统、语义搜索或异常检测。让我们以 Milvus 为例，详细了解这一步骤。

向量数据库中的索引意味着什么？

向量数据库中的索引是指组织高维向量数据，以便能够快速、高效和准确地进行相似性搜索。如果没有适当的索引，在大型数据集中搜索向量可能会变得非常缓慢，使得实时应用几乎不可能实现。

常见的索引技术包括：

HNSW：

IVF：

Flat index：

选择正确的索引方法取决于你的数据集大小、延迟要求和用例。

示例：使用 Milvus 进行索引和查询

以下是如何使用 Milvus 索引和查询你的向量数据。

a. 设置你的 Milvus 环境：如果你没有安装和运行 Milvus，你可以使用 Docker 进行设置：

docker pull milvusdb/milvus:latestdocker run -d --name milvus -p 19530:19530 -p 9091:9091 milvusdb/milvus:latest

这将在你的本地机器上启动一个 Milvus 服务器，准备好接受连接。

b. 通过使用 pymilvus 库连接到 Milvus 以连接到数据库。

from pymilvus import connectionsconnections.connect("default", host="localhost", port="19530")

c. 定义你的数据模式。模式概述了你的向量数据将如何存储。此示例定义了一个集合，其中包含一个整数 ID 和一个 512 维的向量字段：

from pymilvus import FieldSchema, CollectionSchema, Collectionfields = [    FieldSchema(name="id", dtype="INT64", is_primary=True, auto_id=True),    FieldSchema(name="embedding", dtype="FLOAT_VECTOR", dim=512)]schema = CollectionSchema(fields, description="Vector collection")collection = Collection(name="vector_data", schema=schema)

d. 插入数据 - 生成或加载向量嵌入（例如，来自 ML 模型）并将它们插入到集合中。这是一个使用随机向量的示例：

import numpy as npembeddings = np.random.rand(10, 512).tolist()collection.insert([embeddings])print(f"Inserted {len(embeddings)} vectors!")

e. 索引你的数据。插入数据后，你可以选择一种索引方法以进行高效查询。例如，使用 HNSW：

index_params = {"index_type": "HNSW", "metric_type": "L2", "params": {"M": 16, "efConstruction": 500}}collection.create_index(field_name="embedding", index_params=index_params)print("Index created!")

f. 查询你的数据。最后，执行相似性搜索以查找最接近给定查询向量的向量。例如：

results = collection.search(    data=[embeddings[0]],  # Query vector    anns_field="embedding",    param={"metric_type": "L2", "params": {"ef": 50}},    limit=5)for result in results:    print(result)

此代码使用 L2（欧几里得）距离度量检索与查询向量最接近的五个向量。

3. 优化性能

优化向量数据库的性能对于高效处理大规模数据集，同时保持低延迟和高准确性至关重要。无论您是构建推荐系统、进行语义搜索还是检测异常，性能调优都能确保您的应用程序可以扩展并满足用户期望。让我们探讨如何有效地优化您的向量数据库。

a. 选择正确的索引算法

索引算法决定了向量的存储和检索方式，直接影响查询速度和准确性。以下是三个流行的选项：

IVF:

HNSW:

PQ:

重要提示：首先在数据的子集上测试不同的算法，以找到最适合您特定用例的算法。

b. 使用批量操作

在处理大规模数据集时，批量处理可以显着提高性能。与其一次插入或查询一个向量，不如使用批量插入将它们分组处理：

添加数据时，使用批量操作来最大限度地减少开销。大多数向量数据库（如 Milvus 和 Pinecone）都支持一次插入数千个向量，从而减少了花费在网络通信和数据处理上的时间。

import numpy as np# Generate a batch of 10,000 embeddingsbatch_embeddings = np.random.rand(10000, 512).tolist()collection.insert([batch_embeddings])print(f"Inserted {len(batch_embeddings)} vectors in a batch!")

批量查询：同时执行多个查询以减少延迟，尤其是在并行检索多个用户的相似项目等场景中。

它为什么有效：批量操作减少了发送到数据库的请求数量，并利用了底层优化（如并行处理）。

c. 利用硬件加速

对于计算密集型任务（例如构建索引或对高维数据执行查询），使用专用硬件可以显着提高性能。

GPU: 图形处理单元擅长并行计算，使其非常适合加速向量运算（如索引和搜索）。许多现代向量数据库原生支持 GPU 加速。TPU: 张量处理单元（可在 Google Cloud 等平台上使用）也可用于涉及向量计算的专用 ML 工作负载。高性能 CPU: 通过使用多线程功能进行扩展来优化 CPU 使用率，确保服务器可以高效地处理并发查询。

示例：如果您要部署支持 GPU 的 Milvus，请使用 gpu.build_index 配置来启用更快的索引。

d. 监控和调整性能指标

持续的性能监控是确保向量数据库以最佳方式运行的关键。以下是一些需要关注的指标：

查询延迟： 衡量检索单个查询结果所需的时间。对于实时应用程序，目标是亚秒级延迟。索引构建时间： 评估构建索引所需的时间，尤其是在您频繁更新数据集时。内存使用情况： 监控内存消耗以避免瓶颈，尤其是在处理大型数据集或在资源受限的硬件上运行时。

重要提示：使用 Prometheus 等工具或向量数据库中的内置监控功能来跟踪这些指标随时间的变化。

e. 优化搜索参数

调整搜索参数可以进一步提高查询效率，而不会影响准确性。

ef (HNSW):

nprobe (IVF):

nprobe

以下是 Milvus HNSW 索引的示例：

search_params = {"metric_type": "L2", "params": {"ef": 50}}results = collection.search(    data=[query_vector],    anns_field="embedding",    param=search_params,    limit=10)

f. 缓存频繁访问的结果

对于具有重复查询的应用程序（例如，热门产品推荐），实施缓存层以立即提供结果。 Redis 或 Memcached 等工具可以与向量数据库很好地协同工作。

实际应用

向量数据库为各种创新用例提供支持，使其成为现代机器学习和 AI 应用程序不可或缺的一部分。

1. 推荐系统

通过利用向量相似性搜索，提供高度个性化的建议。

电子商务：通过比较相似商品的嵌入，根据用户的浏览历史或购买记录推荐商品。娱乐：通过将用户偏好与内容嵌入进行匹配，推荐电影、音乐或文章。

向量嵌入捕获项目和用户之间细微的关系，提供感觉直观和个性化的推荐。

2. 视觉搜索

使用户能够使用图像而不是文本进行搜索：

零售：允许客户上传照片并找到视觉上相似的产品，例如服装或配饰。医疗保健：将医学图像（如 X 射线或 MRI）与数据库进行比较，以进行模式识别和诊断。

从神经网络中提取的嵌入可以表示图像的视觉特征，即使在庞大的数据集中也能实现精确搜索。

3. 异常检测

实时识别罕见或不寻常的模式。

金融：通过将交易嵌入与典型的行为模式进行比较，检测欺诈交易。IoT 设备：监控传感器数据中的异常情况，这些异常情况可能表明硬件故障或网络安全威胁。

向量距离可以轻松地发现复杂数据集中的异常值，而无需手动创建规则。

4. 自然语言理解

改变机器处理和理解人类语言的方式。

代理

文本嵌入将单词和短语转换为捕获其含义和上下文的数学表示形式。

挑战和未来趋势

尽管向量数据库功能强大，但仍有一些挑战需要解决，并且令人兴奋的趋势正在塑造它们的未来。

挑战

当涉及到管理数十亿个向量同时保持闪电般快速的查询速度时，可扩展性绝非易事。解决方案在于利用先进的索引方法和分布式架构。

混合查询，例如将结构化搜索（例如，“100 美元以下的产品”）与向量相似性搜索相结合，提出了另一个持续存在的挑战。混合搜索引擎的创新正在迅速发展，以应对这种复杂性。

隐私是另一个关键问题。如果没有适当的保护措施，嵌入可能会无意中暴露敏感信息。这就是为什么像差分隐私和加密这样的方法对于确保数据安全至关重要。

未来趋势

索引方面的进步正在通过下一代算法（如可学习索引）改变游戏规则，这些算法将提高查询效率和精度。在硬件方面，人工智能加速器和 GPU 等专用工具正在降低成本，同时显着加快向量数据库操作。随着人工智能通过预训练模型和托管向量数据库服务变得更容易访问，即使是小型团队现在也可以轻松利用基于向量的解决方案的力量。

结论

向量数据库正在重新定义我们处理非结构化数据的方式，从而推动人工智能和机器学习的重大突破。无论您是构建个性化推荐系统、启用语义搜索还是检测异常，利用向量数据库的力量都可以释放新的创新机会。

通过了解基础知识、选择正确的数据库并优化其在实际场景中的使用，您可以充分利用这些前沿工具。随着技术的发展，向量数据库将在塑造人工智能驱动的解决方案方面发挥更大的作用。现在是探索它们的潜力并将您的数据驱动项目提升到新水平的时候了。让我们开始吧！