7天開發一個AI Agent應用！秘密武器：一體化數據庫

10月24日 18:50 新浪網 news-china-auto-hilite

明敏發自凹非寺

量子位 | 公眾號 QbitAI

幾個工程師、一個星期，就能做一個AI Agent應用了。

效果be like——

能理解用戶複雜長命令，推薦符合要求的奶茶店。

推薦兩公里內、評分4.5以上、人均消費25元以內乾淨衛生的奶茶店。

要知道，這背後需要它能分析處理不同模態的數據，比如文本、地理信息、圖像等。

放在以前，構建這樣的AI應用需要多個不同的數據庫，還需要配備經驗豐富且規模較大團隊來管理複雜技術棧。

如今，能如此輕鬆搞掂，多虧了背後的一體化數據庫OceanBase。

最新發佈會上，OceanBase推出首個面向實時分析處理場景的GA版本：4.3.3版本。

不僅推出全新向量檢索功能，實現SQL+AI一體化，還進一步增強多模態數據處理能力。

感覺方方面面都是為AI時代做好了準備啊。

為什麼能這麼說？

從最新發佈的新能力看起。

首個面向實時分析的GA版本

此次OceanBase 4.3.3核心升級的能力主要有3方面：

AP場景性能提升
多模態數據支持
向量檢索與索引

首先，OceanBase 4.3.3版本升級了對複雜數據類型處理能力。

新增Array類型，這意味著數據庫可以直接存儲、查詢和操作數組數據。並對Roaringbitmap類型數據的計算性能進行了優化，意味著數據庫能夠更高效地處理和操作大型集合數據。

其次，OceanBase 4.3.3在向量融合查詢的關鍵能力上帶來提升，推出全新向量檢索能力，支持向量數據類型和向量索引，並基於向量索引提供強大搜索能力。

用戶可通過SQL及Python SDK等方式靈活調用OceanBase的向量檢索能力。

如今，在通用數據庫中集成向量插件已經成為一種趨勢，這種方式能夠直接複用通用數據已有功能和生態。

OceanBase與螞蟻集團聯合開發了向量索引庫，這個索引庫已經在螞蟻集團大量業務場景中得到驗證（如生物識別、企業內部知識庫等），性能成熟。

現場跑分結果顯示，該向量庫在960維的GIST數據集上表現出色，在ANN Benmarks測試中性能遠超其他算法，排名第一。

特別是在 90% 以上的召回率區間，查詢性能（QPS）相比此前最優算法 glass 提升 100%，相比基線算法hnswlib提升300%。

該向量引擎深度融合了OceanBase的存儲引擎和SQL引擎，實現SQL+AI一體化。能夠在一條SQL語句中實現標量、向量、空間地理等混合查詢。

比如「望小京」demo中，用戶給的提示詞為「推薦兩公里內、評分4.5以上、人均消費25元以內乾淨衛生的奶茶店」。這背後涉及到處理文本、圖像和地理位置等不同類型的數據，需要更強大的數據分析和查詢能力。

最後，OceanBase 4.3.3還針對AP（分析處理）場景進行大幅性能優化，尤其是在海量數據分析時，能夠提供更短的響應時間和更高的吞吐能力。

TPC-H 1T場景提升64%
TPC-DS 1T場景提升36%
ClickBench hot- run提升49%
cold-run性能提升149%

同時大幅完善了實時AP功能，包括支持列存副本、物化視圖、外表集成、快速導入導出等。

實現滿足TP和AP負載的物理資源強隔離，可確保系統在處理事務型負載時，不受分析型負載的影響，特別是在實時數據分析和決策場景中，能夠保持系統的高性能與穩定性。

在易用性方面也做了升級，通過提供AP參數版本，用戶可以針對不同場景選擇特定模板，不需要再單獨配置參數。並增強了AP場景中對SQL診斷能力的支持。

總結來看，OceanBase 4.3.3在基礎分佈式能力上，帶來更強性能、向量多模融合、融入AI技術棧。

也就是將AI與數據庫進一步融合。

這並不難理解，AI應用/AI Agent大勢所在，各類應用智能化升級改造，底層數據庫必須緊隨趨勢升級。

不過在這之中，OceanBase還反復提到了一個關鍵詞——一體化。

它不僅是OceanBase的自身特性，如今也逐漸成為行業擁抱AI時代的一個優解。

Why？

更快推動AI應用大規模落地

對於數據庫的發展，行業內逐漸達成一些共識。

AI能力大幅提升，導致全球80%以上的非結構化數據被激活，背後的挖掘分析需求井噴，在這一新變化下，數據處理面臨更大規模、更多模態、實時性更強以及數據碎片和數據孤島問題。

這些變化給數據庫提出了諸多新的發展需求。

最首要的便是，分佈式數據庫成為一種大趨勢。

華東師範大學數據學院院長、CCF數據庫專委會常委錢衛寧提出，互聯網時代數據走向了開放環境，在數據是分佈式的時代里，數據庫也需要是分佈式的。

分佈式數據庫可以讓多台服務器協同作業，完成單台服務器無法處理的任務，尤其是高併發或者大數據量的任務。

除此之外，隨著AI、雲計算等技術發展，數據庫還呈現出以下特點。

第一，雲計算的普及推動了雲數據庫的快速發展。雲數據庫提供按需擴展、高可用性和成本效益。

第二，大數據和非結構化數據需求增加，多模態是一種趨勢，NoSQL數據庫（如MongoDB、Cassandra、Redis、Couchbase）越來越受到歡迎。NoSQL數據庫提供了更好的擴展性和靈活性，適用於存儲和處理各種數據類型，如文檔、鍵值對、圖數據等。

第三，HTAP數據庫成為熱點，甚至是主流數據庫的一項基礎能力。這類數據庫能夠同時處理事務性和分析性工作負載，滿足了企業實時數據處理和分析的需求。

第四，開源也是一大趨勢。開源數據庫（如PostgreSQL、MySQL、MariaDB）憑藉其社區驅動的發展模式、強大的功能和靈活的部署方式，成為企業和開發者的熱門選擇。

不過來到實際落地層面，儘管數據、數據庫在變得更加多元複雜，但是企業用戶總還是希望能只用一套系統來解決不同工作負載。

比如能同時在事務處理（如支付、訂單等高頻交易場景）和複雜的實時分析查詢，這背後需要TP+AP結合。

以及AI與多模查詢能力的融合，如Rockset和Oracle這樣的數據庫系統通過hybrid search融合查詢技術，將SQL查詢與向量化查詢相結合，使得數據處理能夠同時包含文本、結構化數據和向量數據等不同類型。

方方面面影響下，一體化設計逐漸成為被市場青睞的路線。

以MongoDB和Oracle為代表的數據庫廠商正在各自推動一體化數據庫的發展。國家工業信息安全發展研究中心等共同編製的《分佈式數據庫發展趨勢研究報告》中也表示，分佈式數據架構的設計正在走向一體化。

在這之中，OceanBase的一體化理念非常鮮明。它包括：

一體化產品：多工作負載（TP+AP）、多模（SQL+NoSQL）、向量（SQL+AI）。
一體化引擎：一體化存儲，一體化事務，一體化SQL。
一體化架構：包括單機分佈式一體化與多雲原生。

OceanBase介紹，這種一體化的思路是隨著客戶需求不斷髮展而來。

首先在底層架構設計上，單機分佈式一體化與多雲原生並存，可以滿足大中小企業的不同需求。OceanBase已經和目前主流雲廠商均達成合作，實現公有雲「多雲共生」，同時也提供專有雲、混合雲等不同部署環境，保證一致體驗。

其次隨著數據庫場景不斷變化，從傳統場景到泛互聯網場景，OceanBase從TP到TP+AP，逐漸走向多工作負載一體化。

比如在第一階段OLTP+，會浮現出山東移動這類客戶的需求，他們主要關注複雜查詢場景，需要增強業務處理效率。

第二階段浮現出了海底撈這類用戶的需求。海底撈本來使用兩個系統分別處理OLTP和OLAP，這導致OLTP和OLAP之間存在數據延遲，沒法保證數據一致性，還需要兩份數據兩份成本。OceanBase能將其整合，不僅使整體成本降低，還能提升原本的AP性能。

第三階段還會浮現出實時營銷等場景，對實時AP提出更多要求。

以及在實際推廣中，OceanBase發現越來越多客戶將OceanBase既應用在KV存儲場景，也應用在NoSQL場景，或者替換HBase、Redis等。因為OceanBase能夠解決各個場景中很多棘手問題，比如對於NoSQL而言，最大的挑戰在於數據規模，分佈式架構可以很好解決數據擴展的問題。

因此，順應用戶需求，OceanBase在不斷增加對多種數據類型的支持，實現多模一體化。

最後，來到AI時代。「AI for DB，DB for AI」成為共識。

AI應用大規模落地的前提是大模型技術能夠在各行各業低成本易用。

數據庫的發展經驗可以為AI應用推廣提供參考。比如在數據庫中引入向量插件，實現SQL+AI，能夠大幅簡化原有AI技術棧，讓打造AI Agent的門檻驟降。

最後總結來看，以OceanBase為代表的一體化數據庫不僅能為企業提供更更好的數據底座，而且方方面面都滿足AI應用發展的需求。它總體呈現出這些特點：

第一，高效的數據處理和分析。

支持HTAP，能夠在同一個系統中同時處理事務性（OLTP）和分析性（OLAP）負載。企業可以實時地對交易數據進行分析，而不需要等待數據的同步和轉移，從而加快決策速度和響應時間。

實時分析，可以在數據生成的同時進行分析，確保數據的時效性，這對於實時推薦、風控、監控等AI應用至關重要。

第二，簡化的數據管理。

一體化數據庫能夠確保數據的一致性和完整性，因為事務處理和分析處理在同一個系統內完成，避免了數據同步和轉換過程中可能出現的延遲和錯誤。

通過將多種數據類型（如關係型數據、文檔數據、向量數據等）集成在一個系統中，一體化數據庫簡化了數據存儲和管理。企業不需要維護多個數據庫系統，減少了數據孤島問題和運維複雜性。

第三，靈活性和擴展性。

一體化數據庫支持多模態數據處理，能夠處理和分析結構化、半結構化和非結構化數據。這種靈活性使企業可以在一個平台上處理不同類型的數據，滿足各種業務需求。

一體化數據庫可以在公有雲、私有雲和本地數據中心的混合環境中部署，支持異構環境下的數據管理和應用。這使企業能夠根據業務需求靈活選擇和調整部署方案。

第四，簡化AI應用構建。

AI應用通常需要進行高效的向量檢索和相似性搜索。一體化數據庫通過深度集成向量引擎，支持快速向量化計算和相似度查詢，提升AI應用的性能。

一體化數據庫能夠將數據存儲和AI模型緊密結合，支持複雜的AI工作負載。這種集成減少了數據傳輸的延遲，提高了模型訓練和推理的效率。

第五，降低成本和複雜性。

一體化數據庫減少了企業需要維護的數據庫系統數量，簡化了技術棧，降低了系統集成和運維的複雜性。

通過優化資源利用和減少多系統間的數據同步和轉換，一體化數據庫降低了總體擁有成本，提高了投資回報率。

AI時代，Data is Power。

李飛飛當初篤定做ImageNet，背後的核心邏輯就在於，她相信AI改變世界，數據是最簡單最直接的方式。

如今，AI應用落地趨勢已經開啟。數據作為生產要素，在AI時代已是水電般的存在。

而一體化數據庫正在為數據更充分靈活高效應用提供新思路。

據瞭解，一體化數據庫OceanBase將成為螞蟻集團的AI數據底座，為一系列AI時代新應用「支小寶」、「螞小財」以及支付寶百寶箱智能體開發平台的數據管理提供支持。

一體化正在成為數據庫發展歷程中，一個旗幟鮮明的方向。

你可能喜歡