大揭秘：OpenAI公佈Sora模型技術原理以及訓練細節

2月16日，北京大學人工智能專業博士@北大AI魚博士發微博從技術角度解讀了OpenAI最新發佈的Sora：

#OpenAI# 最新發佈的Sora視頻生成模型技術報告揭示了其背後的強大訓練思路和詳細的技術特性。Sora模型不僅展現了三維空間的連貫性、模擬數字世界的能力、長期連續性和物體持久性，還能與世界互動，如同真實存在。其訓練過程獲得了大語言模型的靈感，採用擴散型變換器模型，通過將視頻轉換為時空區塊的方式，實現了在壓縮的潛在空間上的訓練和視頻生成。這種獨特的訓練方法使得Sora能夠創造出質量顯著提升的視頻內容，無需對素材進行裁切，直接為不同設備以其原生縱橫比創造內容。Sora的推出，無疑為視頻生成領域帶來了革命性的進步，其技術細節值得每一位從業者細緻研究。

Sora 詳細的技術報告發佈了，相關從業者可能都需要看看。裡面有 OpenAI的訓練思路以及 Sora 詳細的技術特性，下面是主要的，詳細的可以去看完整內容。

簡單來說 Sora 的訓練量足夠大也產生了類似#湧現#的能力。

技術特點：

1、三維空間的連貫性：Sora可以生成帶有動態相機運動的視頻。隨著相機移動和旋轉，人物和場景元素在三維空間中保持連貫的運動。

2、模擬數字世界：Sora還能模擬人工過程，如視頻遊戲。Sora能夠同時控製Minecraft中的玩家，並高保真地渲染遊戲世界及其動態。通過提及“Minecraft”的提示，可以零樣本地激發Sora的這些能力

3、長期連續性和物體持久性：對視頻生成系統來說，Sora通常能夠有效地模擬短期和長期的依賴關係。同樣，它能在一個樣本中生成同一角色的多個鏡頭，確保其在整個視頻中的外觀一致。

4、與世界互動：Sora有時能夠模擬對世界狀態產生簡單影響的行為。例如，畫家可以在畫布上留下隨時間持續的新筆觸，或者一個人吃漢堡時留下咬痕。

【訓練過程】：

1、Sora 的訓練受到了大語言模型（Large Language Model）的啟發。這些模型通過在互聯網規模的數據上進行訓練，從而獲得了廣泛的能力。

3、Sora實際上是一種擴散型變換器模型（diffusion transformer）。

首先將視頻壓縮到一個低維潛在空間19中，然後將這種表現形式分解成時空區塊，從而將視頻轉換為區塊。

4、訓練了一個用於降低視覺數據維度的網絡。這個網絡以原始視頻為輸入，輸出在時間和空間上都被壓縮的潛在表示。Sora在這個壓縮的潛在空間上進行訓練，並在此空間中生成視頻。還開發了一個對應的解碼器模型，它能將生成的潛在表示映射回到像素空間。

5、對於給定的壓縮輸入視頻，提取一系列時空區塊，它們在變換器模型中充當標記（token）。這種方案同樣適用於圖像，因為圖像本質上是單幀的視頻。基於區塊的表示方法使Sora能夠針對不同解像度、持續時間和縱橫比的視頻和圖像進行訓練。在推理過程中，可以通過在適當大小的網格中排列隨機初始化的區塊來控製生成視頻的大小。

6、隨著 Sora 訓練計算量的增加，樣本質量有了顯著提升。Sora訓練時沒有對素材進行裁切，使得Sora能夠直接為不同設備以其原生縱橫比創造內容。

7、針對視頻的原生縱橫比進行訓練，還可以提高構圖和取景的質量。訓練文本到視頻的生成系統需要大量配有相應文本提示的視頻。應用了在DALL·E 3中引入的重新字幕技術到視頻上。

8、與DALL·E 3相似，也利用了GPT技術，將用戶的簡短提示轉換成更詳細的提示，然後發送給視頻模型。

完整報告請訪問#OpenAI官網#查看。

#AI技術前沿# @評論羅伯特

重點關註：

1、Sora展現的三維空間連貫性和長期物體持久性，提升了視頻內容的真實感。

2、通過模擬數字世界和與世界互動，Sora能夠創造出富有創意的視頻內容。

3、Sora的獨特訓練方法及其對不同縱橫比的原生支持，標誌著視頻生成技術的一個新時代。