阿里媽媽首提AIGB並實現大規模商業化落地,將在NeurIPS 2024正式開源Benchmark

機器之心發佈

機器之心編輯部

2023 年,阿里媽媽首次提出了 AIGB(AI-Generated Bidding)Bidding 模型訓練新範式。AIGB 是一種全新的迭代範式,把自動出價問題建模為生成式序列決策問題,這是生成式 AI 在該領域的首次應用。經過一年的探索和研發,我們在阿里媽媽廣告平台成功部署 AIGB 並取得顯著效果,我們還把過程中的發現和經驗總結成論文發表在 KDD 2024,詳細分享了這一全新的迭代範式。

為了激發該領域進一步的技術創新,我們今年發起了大規模拍賣中的自動出價比賽,並特別設置了 AIGB 賽道,這一理唸得到了 NeurIPS 的認同,阿里媽媽成為國內工業界今年唯一一家獲得 NeurIPS 比賽主辦權的組織。同時,我們也將在 NeurIPS 2024 上正式開源 AIGB 的 Benchmark:業界首個標準化的大規模模擬競價系統和大規模博弈數據集。

  • 論文名稱:AIGB: Generative Auto-bidding via Diffusion Modeling

  • 論文作者:Jiayan Guo, Yusen Huo, Zhilin Zhang, Tianyu Wang, Chuan Yu, Jian Xu, Yan Zhang, Bo Zheng

  • 發表會議:KDD 2024

  • 論文鏈接:https://arxiv.org/abs/2405.16141

背景:在線廣告場景中的自動出價

廣告業務是互聯網公司營收的一項重要來源。僅在 2023 年,在線廣告市場的規模就達到了 6268 億美元。在線廣告往往是通過流量拍賣的方式進行廣告投放。廣告主需要設定合理的出價從而競得流量。近年來,自動出價(Auto-Bidding)技術已成為推動廣告市場持續增長的關鍵因素。相比於傳統的手動出價,自動出價充分考慮了線上流量分佈、競價環境、預算以及各種限制因素,在為廣告主帶來了更多價值的同時,促進了平台業務的增長。一種典型的自動出價目標是在給定預算及其他約束的條件下最大化廣告主的流量價值。典型的自動出價任務包括給定預算下的最大化拿量任務 Max-Return,以及給定預算和 ROI 約束的最大化拿量任務 Target Roas 等。

在實踐中,自動出價的優化問題一般會被看作一個序列決策問題,出價模型在整個投放週期(通常為 1 天)內隨著流量和競價情況的變化動態調整出價參數從而優化整體效果。模型需要具備一定的全局視角,進行整體規劃和決策。對於序列決策問題,一種被業界廣泛採用的解決方案是強化學習(RL)。RL 方法可以通過不斷和環境交互尋優,從而不斷提升策略效果。RL 也是目前一種主流的 Bidding 解決方法。但是這種方法由於存在一定的內生性缺陷(價值函數預估和自舉法導致的訓練不穩定),不擅長處理 Bidding 面臨的長序列決策問題,容易出現訓練效果差的問題。因此,我們期待通過算法範式的升級來提升 Biding 模型的線上效果。

生成式模型助力 Bidding 範式升級

生成式模型近年來得到了迅速的發展,在圖像生成、文本生成、計算機視覺等領域取得了重大突破。目前最新的生成式模型在分佈擬合以及相關性關聯等方面顯著地優於淺層神經網絡。工業界 Bidding 策略優化的核心是基於歷史的 Bidding 數據,通過模型挖掘策略與效果之間的相關性從對策略進行優化,是生成式模型落地的一個較為理想環境。基於這一洞察,我們提出了 AIGB(AI-Generated Bidding)解決方案。AIGB 是一種基於生成式模型(Transformer、Diffusion Model 等)的出價問題解決方案框架。與以往解決序列決策問題的 RL 思路不同,AIGB 將 Auto-Bidding 視為一個策略生成問題,通過生成模型強大的特徵關聯以及分佈擬合能力,直接捕捉歷史 Bidding 數據集中優化目標和出價策略之間的相關性從而優化策略。相比於 RL 方法,這種新的建模範式避免了價值函數預估和自舉法所所造成的誤差,尤其擅長處理 Bidding 所面對的長序列稀疏回報的問題。

圖 1:圖左歷史投放軌跡中,顏色深淺代表計劃 return 的不同。右圖為 AIGB 模型根據不同需求生成的新策略。整個模型看作一個分佈處理 pipeline,輸入歷史非最優但存在有效信息的廣告投放軌跡,輸出符合優化目標的新策略。

圖 1 直觀地展示了生成式出價(AIGB)模型的流程。我們將出價、優化目標和約束等具備相關性的指標視為一個有一定規律的數據分佈。在訓練階段,我們可以利用生成模型對這一數據分佈進行數據挖掘尋優,這使得模型能夠自動學習出價策略、狀態間轉移概率、優化目標和約束項之間的相關性。在線上推斷階段,生成式模型可以基於約束和優化目標,以符合分佈規律的方式輸出出價策略。

理論上,AIGB 範式可以兼容多種生成模型。目前常用的生成式模型包括 Transformer、Diffusion Model 等。但不同的模型側重點不同,例如,Transformer 模型主要基於自注意力機制,能夠對樣本中跨時序和分層信息進行提取和關聯,擅長進行自回歸處理。而 Diffusion Model 則緩慢地將隨機噪聲添加到數據中,然後學習逆向擴散過程以從噪聲中構造所需的數據樣本。加噪和去噪的過程可以類比為是把特徵用馬賽克遮住然後再還原的過程。相比之下,可以從細節到整體捕捉多個層次的相關性,從而提取出更多的有效信息,更擅長進行分佈建模。因此,基於不同的生成模型特點,可以構建出不同的建模方案。

DiffBid:基於擴散模型(Diffusion Model)的 AIGB

在 AIGB 框架下,我們引入了基於擴散模型方案 DiffBid。DiffBid 由規劃模塊和控制模塊組成。對於規劃模塊,我們首先將一個完整投放週期內廣告主賸餘預算、消耗速率、ROI、流量價值等出價相關狀態信息隨著時間不斷變化的過程看作一條 Bidding 軌跡,然後利用擴散模型對歷史數據集中的海量 Bidding 軌跡序列進行建模(圖 2),以最大似然估計的方式擬合軌跡數據中的分佈特徵。因此,DiffBid 可以基於給定目標規劃出對應的出價軌跡。在此基礎上,DiffBid 會再利用一個逆動力學控制模型根據環境的變化儘可能逼近規劃軌跡。

圖 2:左為正向過程,右為反向過程。DiffBid 正向與反向過程示例,對於一條由賸餘預算序列軌跡,正向過程不斷加入噪聲,破壞其有效信息,然後反向過程生成新的軌跡,最大限度將這部分丟失的信息還原。

在近一年多的實踐中,我們通過多輪線上實驗,反復驗證了 DiffBid 的效果。截止目前,DiffBid 已經多個場景的實驗中相比於傳統的 RL 方法產生了顯著的正向效果。其中在某場景 Max-Return 任務中,產生了 GMV+3.6% 的結果。在 Target Roas 任務中,在保證整體 ROI 滿足要求的情況下取得了 GMV+5.0% 的結果。特別在 Target Roas 中,由於 ROI 反饋稀疏且滯後,RL 方法訓練難度較大,而 DiffBid 受影響較小。因此,DiffBid 既為廣告主帶來更多收益,又很好保障了廣告主的 ROI。

與此同時,我們通過進一步分析,發現 DiffBid 模型在提效的同時,還能夠對實際投放軌跡產生一定的平滑性優化(圖 3),在 DiffBid 策略生效後,投放軌跡的異常狀態顯著減少,振盪性顯著降低,與此同時減少過快消耗的現象。廣告主的投放體驗也因此得到改善。

圖 3:真實線上賸餘預算散點圖。橫軸為賸餘時間,縱軸為賸餘預算。越分散代表消耗越振盪,投放平滑性越差。此外在圖 a 中,存在大量提前消耗完畢的投放軌跡。這部分軌跡可能會由於錯過一部分晚上的高性價比流量導致效果下跌。而 DiffBid 可以明顯減少這種問題

除了實際線上效果的優勢外,相比於其他方法,DiffBid 還具有其他兩方面的優勢。首先,相比於通過端到端方法直接輸出 Bidding 信息,DiffBid 生成的軌跡信息具有更好的可解釋性(圖 4)。有助於我們對模型效果進行更好的評估,從而助力優化工作。例如,我們觀察模型規劃出的軌跡和實際線上的軌跡,如果出現規劃出的最終賸餘預算不為 0 的情況說明模型並未能有效利用所有預算。如果規劃軌跡與實際軌跡差距較大,則說明逆動力學控制模型自適應能力較差。在定位問題之後,可以較為方便地進行針對性優化。其次,DiffBid 對多目標的兼容能力更強,與此同時支持在訓練完成後對目標進行調整從而優化規劃軌跡。基於這一特點,我們可以更為方便地加入一些將業務邏輯指標作為優化目標,與 Bidding 模型更好地結合起來。例如,在 Max-Return 任務優化的過程中,可以將預算使用率合併進入目標中,同時保證 GMV 和預算使用率得到優化。

圖 4:橫坐標軸表示時間,縱坐標表示賸餘預算和但時間步消耗。灰色曲線 / 柱子為最優軌跡賸餘預算曲線 / 消耗。紅色表示不同優化目標所對應的規劃軌跡曲線。可以看出,隨著目標 Return 變大,模型規劃會逐步逼近最優軌跡。證明模型學到了合理的業務邏輯和優化措施

目前 DiffBid 在阿里媽媽廣告場景中大規模商業化落地,助力雙十一,為廣告主賦能。此外,基於擴散模型的特點,DiffBid 下可延展性和多目標能力會顯著強於傳統模型,這種特點將會為未來的 Bidding 優化和產品建設帶來幫助。

Benchmark

雖然自動出價是一個充滿機遇和挑戰的領域,但目前針對其高價值問題的研究主要集中在少數幾家機構。這是因為廣告平台的數據通常受到嚴格的保護,使得外部研究者難以獲取到關於這個平台的詳細信息。此外,當前社區中缺乏一個標準的包含廣告投放等核心環節的數據集,也沒有和工業界比較接近的廣告競價環境。這些問題的存在使得許多研究者難以獲得足夠的數據和資源來進行自動出價算法的研究和驗證,從而阻礙了這個技術領域的活躍和繁榮。 

阿里巴巴是中國領先的電商平台,擁有數百萬的廣告主,並且超過 80% 的廣告主使用了自動出價服務。這個廣告平台包含了完整的數據鏈路閉環,從用戶點擊到下單過程路徑中的數據都能獲取到。同時阿里巴巴也是自動出價技術發展的活躍推動者,在自動出價技術領域先後發佈了多個算法的升級。阿里巴巴也是為數不多能夠將強化學習在自動出價領域大規模落地的公司之一。 

為了讓更多研究者深入瞭解廣告平台的運作細節,並參與廣告平台最核心的自動出價算法的研究,我們申請承辦自動出價算法的比賽。為了使比賽更具實際意義和研究價值,我們建立了一個標準的廣告競價環境,並設置了多種貼近工業界真實場景的特性,包括多坑、多樣化的流量價值分佈、轉化預估不確定性、稀疏轉化等。經過公司法務的嚴格審核並獲得批準,我們將向參賽者提供大規模的廣告投放日誌,以便他們能夠更好地訓練自動出價算法。此外,我們還將提供多個工業界廣泛應用的自動出價算法,以幫助參賽者快速掌握技術原理並開始研究。

雖然自動出價是一個具有重大業務影響以及技術挑戰的領域。但由於缺乏大規模真實的競價環境和數據集,很多研究者無法接觸,這一領域的研究進展一直受到限制。為了為這一極具價值的問題提供深入研究的機會,我們推出了一項名為 BiddingNet 的基準測試。該測試源自於在線廣告行業 —— 一個在 2023 年市值高達 6268 億美元的快速增長行業。BiddingNet 專注於大規模拍賣中的競價決策,其中眾多自動競價代理組成了一個競爭網絡。

BiddingNet 集成了多個模塊,包括展示機會生成、競價和拍賣。展示機會生成模塊使用生成模型來彌合模擬和現實數據之間的差距,同時降低敏感數據泄露的風險。競價模塊則包含通過多種算法訓練的多樣化自動競價代理。拍賣模塊以經典的廣義二次拍賣(GSP)機制為基礎,同時也允許用戶根據需要定製新的拍賣機制。我們基於 BiddingNet 環境預生成了一個規模龐大的遊戲數據集,包含超過 5 億條記錄,總大小達 80 GB。該數據集包含 48 個多樣化代理相互競爭的軌跡,為有效的離線訓練和深入瞭解環境提供了支持。我們在 BiddingNet 環境中評估了不同類型的現有算法。這一基準不僅適用於競價算法和拍賣機制的研究,還延伸至強化學習、生成模型以及運營優化領域,涵蓋了廣泛的決策製定挑戰。

阿里媽媽還計劃正式開源決策智能技術領域的 Benchmark,該 Benchmark 為國際首個標準化的大規模競價系統和大規模博弈數據集。

「希望此 Benchmark 能為學界和工業界提供強有力的支持,也期待通過開源推動決策智能領域的 AI 技術和應用快速向前發展。」 阿里媽媽技術人員表示,此次開源的 Benchmark,是決策智能領域首個被大規模工業場景驗證的系統和數據集,相關成果已被 NeurIPS 2024 收錄為 Spotlight 論文(錄取率在 3% 左右)。

展望

除了已經展現出來的諸多優勢之外,AIGB 框架的開放性也能夠兼容諸多不同的方案設計。在阿里媽媽剛剛舉辦的 NeurIPS 2024:大規模拍賣中的自動出價比賽中,選手們基於不同的基礎生成模型,提出了一批不同於 DiffBid 的 AIGB 解決方案,迸發出諸多亮點。其中有的選手充分利用了 Transformer 的優勢,通過自回歸的方式預測給定優化目標的出價信息。有的選手提出 Transformer 全局規劃模型與 bidding 小模型結合的出價方案。也有基於 Diffusion 模型直接進行出價的方案。這些方案均在不同程度上展示出了優勢,為未來 AIGB 的進一步迭代提供了啟發。但是,我們相信這僅僅是一個開始。未來隨著技術的進一步發展,更多的 AIGB 方案湧現出來,從而以完全不同的方式重構自動出價的技術體系。阿里媽媽沉澱了億級廣告投放軌跡數據,是業界為數不多具備超大規模決策類數據資源儲備的平台。這些海量數據資源可以成為營銷決策大模型訓練的有力保證,從而推動 AIGB 技術的發展。

期待後續有機會與大家分享和交流我們的進展與實踐。

邀請函 | NeurIPS 2024 Competition Workshop:Auto-Bidding in Large-Scale Auctions

12 月 14 日,阿里媽媽將在 NeurIPS 2024 會議現場組 Workshop:大規模拍賣中的自動出價(Auto-Bidding in Large-Scale Auctions)。我們邀請了來自Google、亞馬遜、普渡大學和阿里媽媽的學界和工業界嘉賓,以及本屆賽事獲獎團隊代表,圍繞決策智能領域的最前沿技術進行分享和交流。同時阿里媽媽也將正式開源世界首個標準化的大規模競價系統和大規模博弈數據集。期待與大家現場交流~

© THE END