logo logo
  • 登录

6个开源的矢量数据库

向量数据库是一种专门用于存储和查询向量数据的数据库系统,与传统数据库相比,向量数据库使用向 量化计算,能够高速地处理大规模的复杂数据;并可以处理高维数据,例如图像、音频和视频等,解决传统关系型数据库中的痛点; 同时,向量数据库支持复杂的查询操作,也可以轻松地扩展到多个节点,以处理更大规模的数据。

目录:

  1. Milvus相似性搜索引擎:milvus 21.4k⭐
  2. Qdrant下一代矢量数据库:qdrant 11.7k⭐
  3. Chroma嵌入式数据库:chroma 7.3k⭐
  4. Weaviate矢量数据库:weaviate 6.8k⭐
  5. RediSearch全文搜索引擎:RediSearch 4.6k⭐
  6. Vald分布式向量搜索引擎:vald 1.3k⭐
  7. 更多Github开源项目

矢量数据库简介

向量数据库是一种用于存储、检索和分析向量的数据库。在图片搜索、语音搜索等应用中,不是直接存储和对比原始数据,而是使用向量表示,通常为256/512个浮点数数组。它提供标准的SQL访问接口,同时支持高效的数据组织、检索和分析能力,包括传统数据库管理结构化数据的能力。

向量数据库解决两个主要问题:高效的检索和高效的分析。检索方面主要用于图片搜索,例如人脸、人体、车辆、商品图片等检索,甚至人脸支付。分析方面广泛应用于安全领域,如人脸撞库,通过对比相似案发现场周边的人像等。

与传统数据库相比,向量数据库有以下区别:首先,数据规模远超传统关系型数据库,需处理千亿级别的数据,需要可线性扩展的分布式系统。其次,查询方式不同,向量查询通常是近似查找,要求高计算能力。

目前Github开源的向量数据库项目:

1.Milvus相似性搜索引擎:milvus 21.4k⭐

  • 项目地址:https://github.com/milvus-io/milvus
  • Github趋势榜:
    • 入选2023-06-09周榜,周增⭐489 stars this week
    • 入选2023-05-15月榜,月增⭐1,814 stars this month
  • 开源时间:2019-09-16
  • 最后更新:2023-07-19
  • 主要语言:Go
  • 项目分类:[中间件] [AI]
  • 项目标签:[AI应用] [数据库] [向量搜索] [矢量数据库]
  • 推荐理由:一款开源的、针对海量特征向量的相似性搜索引擎。相比 Faiss 和 SPTAG 这样的算子库,Milvus 提供完整的向量数据更新,索引与查询框架。Milvus 利用 GPU 进行索引加速与查询加速,能大幅提高单机性能。部署使用简单,降低了 AI 应用落地的难度。
  • Star历史曲线:[官网] [使用文档] Star历史曲线

2.Qdrant下一代矢量数据库:qdrant 11.7k⭐

  • 项目地址:https://github.com/qdrant/qdrant
  • Github趋势榜:
    • 入选2023-05-16周榜,周增⭐2,061 stars this week
    • 入选2023-06-05月榜,月增⭐4,275 stars this month
  • 开源时间:2020-05-31
  • 最后更新:2023-07-19
  • 主要语言:Rust
  • 项目分类:[中间件] [AI]
  • 项目标签:[AI应用] [数据库] [向量搜索] [矢量数据库]
  • 推荐理由:一个用于下一代AI应用程序的矢量数据库。它提供了高效的矢量索引和检索功能,支持快速的相似度搜索和相关性计算,适用于各种AI应用领域。 项目流程图
  • Star历史曲线:[官网] [使用文档] [视频介绍] Star历史曲线

3.Chroma嵌入式数据库:chroma 7.3k⭐

  • 项目地址:https://github.com/chroma-core/chroma
  • Github趋势榜:
    • 入选2023-04-18周榜,周增⭐1,049 stars this week
    • 入选2023-05-08月榜,月增⭐3,278 stars this month
  • 开源时间:2022-10-06
  • 最后更新:2023-07-19
  • 主要语言:Python
  • 项目分类:[中间件] [AI]
  • 项目标签:[神经网络] [嵌入数据库] [数据库] [矢量数据库]
  • 推荐理由:Chroma是开源的嵌入数据库。Chroma通过为LLM提供可插入的知识、事实和技能,使构建LLM应用程序变得容易。
  • Star历史曲线:[官网] Star历史曲线

4.Weaviate矢量数据库:weaviate 6.8k⭐

  • 项目地址:https://github.com/weaviate/weaviate
  • 开源时间:2016-03-30
  • 最后更新:2023-07-19
  • 主要语言:Go
  • 项目分类:[中间件] [AI]
  • 项目标签:[神经网络] [数据库] [矢量数据库]
  • 推荐理由:一个开源矢量数据库,它存储对象和矢量,允许将矢量搜索与结构化过滤结合起来,具有云原生数据库的容错性和可伸缩性,所有这些都可以通过GraphQL、REST和各种语言客户端访问。 项目流程图
  • Star历史曲线:[官网] [项目体验] Star历史曲线

5.RediSearch全文搜索引擎:RediSearch 4.6k⭐

  • 项目地址:https://github.com/RediSearch/RediSearch
  • 开源时间:2016-05-05
  • 最后更新:2023-07-18
  • 项目分类:[中间件]
  • 项目标签:[搜索模型] [内存数据库] [NoSQL] [搜索引擎] [数据库] [矢量数据库]
  • 推荐理由:一个基于Redis的全文搜索引擎。它提供了高性能的全文搜索功能,支持复杂的查询和过滤,并且可以无缝地集成到现有的Redis环境中。 项目流程图
  • Star历史曲线:[官网] [使用文档] [视频介绍] Star历史曲线

6.Vald分布式向量搜索引擎:vald 1.3k⭐

  • 项目地址:https://github.com/vdaas/vald
  • 开源时间:2019-07-07
  • 最后更新:2023-07-19
  • 主要语言:Go
  • 项目分类:[中间件] [AI]
  • 项目标签:[神经网络] [搜索引擎] [向量搜索] [矢量数据库]
  • 推荐理由:一个高度可扩展的分布式快速近似最近邻(ANN)密集向量搜索引擎。它具有自动向量索引和索引备份,以及水平缩放功能,可以从数十亿个特征向量数据中进行搜索。它使用最快的人工神经网络算法NGT来搜索邻居。
  • Star历史曲线:[官网] [使用文档] Star历史曲线

更多Github开源项目

以上就是本期的推荐所有项目,如果你喜欢本期的内容,欢迎收藏和关注OpenGithub社区,我们会定期推送优质的开源项目。

Github历史期刊:

  • 周刊汇总:Github精选开源项目周刊,每周一更新
  • 月刊汇总:Github精选开源项目月刊,每月30号更新

更多Github项目关注狐动社公众号/知乎号: 公众号和知乎号