LeCun新作：神經網絡在實踐中的靈活性到底有多大？

07月10日 13:16 新浪網 news-china-auto-hilite

新智元報導

編輯：alan

【新智元導讀】神經網絡擬合數據的能力受哪些因素影響？CNN一定比Transformer差嗎？ReLU和SGD還有哪些神奇的作用？近日，LeCun參與的一項工作向我們展示了神經網絡在實踐中的靈活性。

人工智能在今天百花齊放，大模型靠規模稱王，小模型則憑數據取勝。

當然我們也希望，可以付出更少的資源，並達到相同的效果。

很早之前，Google就有相關研究，探索了在固定算力的情況下，如何分配模型參數量和訓練數據量，以達到最好的性能。

近日，LeCun參與的一項工作從另一個角度向我們展示了，神經網絡在實踐中的靈活性到底有多大？

論文地址：https://arxiv.org/pdf/2406.11463

論文地址：https://arxiv.org/pdf/2406.11463

這個靈活性指的是，神經網絡擬合訓練數據（樣本數量）的能力，在實際應用中受到哪些因素的影響。

比如我們第一時間想到的可能就是模型的參數量。

人們普遍認為，神經網絡可以擬合至少與自身參數一樣多的訓練樣本。

這就像是解一個線性方程組，有多少個參數（或者方程）、多少個未知數，從而判斷解的數量。

然而神經網絡實際上要複雜的多，儘管在理論上能夠進行通用函數逼近，但在實踐中，我們訓練的模型容量有限，不同優化器也會導致不同的效果。

所以，本文決定用實驗的方法，分別考察數據本身的性質、模型架構、大小、優化器和正則化器等因素。

而模型擬合數據的能力（或者說學習信息的能力），由有效模型複雜性（EMC）來表示。

這個EMC是怎麼算的呢？

一開始，在少量樣本上訓練模型。如果它在訓練後達到100%的訓練準確率，則將模型重新初始化並增大訓練樣本數量。

迭代執行此過程，每次逐步增加樣本量，直到模型不再完全擬合所有訓練樣本，將模型能實現完美擬合的最大樣本量作為網絡的EMC。

——一直喂飯，直到吃撐，則得到飯量大小。

實證分析

為了全面剖析影響神經網絡靈活性的因素，研究人員考慮了各種數據集、架構和優化器。

數據集

實驗採用了包括MNIST、CIFAR-10、CIFAR-100和ImageNet等視覺數據集，以及Forest-Cover Type、Adult Income和Credit等表格數據集。

另外，實驗還使用了更大規模的合成數據集，通過Min-SNR加權策略進行的高效擴散訓練，生成解像度為128×128的高質量圖像數據集——ImageNet-20MS，包含10個類別的2000萬個樣本。

模型

實驗評估了多層感知器（MLP）、CNN架構的ResNet和EfficientNet，以及Transformer架構的ViT。

作者係統地調整了這些架構的寬度和深度：

比如對於MLP，通過每層添加神經元來增加寬度，同時保持層數不變，或者通過添加更多層來增加深度，同時保持每層神經元數量不變。

對於一般的CNN（多個卷積層，接一個恒定大小的全連接層），可以改變每層的kernel數量或者卷積層的總數。

對於ResNet，可以改變kernel的數量或者block的數量（深度）。

而對於ViT，可以改變編碼器的數量（深度）、patch embedding的維度和自注意力（寬度）。

優化器

實驗採用的優化器包括隨機梯度下降（SGD）、Adam、AdamW、全批次梯度下降（full-batch Gradient Descent）和second-order Shampoo optimizer。

由此，研究人員可以測試隨機性和預處理等特徵如何影響最小值。同時。為了確保跨數據集和模型大小進行有效優化，研究人員仔細調整了每個設置的學習率和批量大小，並省略了權重衰減。

數據對EMC的影響

研究人員通過修改隱藏層的寬度來擴展一個2層的MLP，通過修改層數和通道數來擴展CNN，並在一系列圖像（MNIST、CIFAR-10、CIFAR-100、ImageNet）和表格（CoverType、Income 和 Credit）數據集上訓練模型。

結果顯示，在不同數據類型上訓練的網絡在EMC方面存在顯著差異：

在表格數據集上訓練的網絡表現出更高的容量；而在圖像分類數據集中，測試精度和容量之間存在很強的相關性。

值得注意的是，MNIST（模型達到99%以上的測試準確度）產生的EMC最高，而ImageNet的EMC最低，這表明了泛化與數據擬合能力之間的關係。

輸入和標籤的作用

這裡通過改變每層中的神經元或kernel的數量，來調整MLP和CNN的寬度，並在合成數據集ImageNet-20MS上進行訓練。

實驗測試了四種情況下的EMC：語義標籤、隨機標籤、隨機輸入（高斯噪聲）和固定隨機排列下的輸入。

分配隨機標籤（而非真實標籤）的目的是探索過參數化（overparameterization）和欠參數化（underparameterization）之間的邊界。

從上圖的結果可以發現，與原始標籤相比，當分配隨機標籤時，網絡擬合的樣本要少得多，此時神經網絡的參數效率低於線性模型。而從整體上來看，模型的參數量與擬合的數據量大致呈線性關係。

分類數量對EMC的影響

作者隨機合併了CIFAR-100中的類別（保留原始數據集的大小），在具有不同數量kernel的2層CNN上進行實驗。

結果如上圖所示，隨著類數量的增加，帶有語義標籤的數據變得越來越難以擬合，因為模型必須對其權重中的每個樣本進行編碼。

相比之下，隨機標記的數據變得更容易擬合，因為模型不再被迫為語義上不同的樣本分配相同的類標籤。

預測泛化

神經網絡偏向於擬合語義連貫的標籤而不是隨機標籤，而且，與隨機標籤相比，網絡擬合語義標籤的熟練程度通常與其泛化能力相關。

這種泛化也使得CNN這種架構能夠擬合比模型參數量更多的樣本。

傳統的機器學習觀念認為，高容量模型往往會過度擬合，從而影響其對新數據的泛化，而PAC-貝葉斯理論則指出，模型更喜歡正確的數據標記。

而本文的實驗將這兩種理論聯繫在了一起。

上圖中，在正確標記和隨機標記的數據上計算各種CNN和MLP的EMC，測量模型遇到語義標籤與隨機標籤時EMC增加的百分比。

結果表明EMC增加的百分比與generalization gap之間存在顯著的負相關關係，這不僅證實了泛化的理論基礎，而且闡明了理論的實際意義。

模型架構對EMC的影響

關於CNN和ViT的效率和泛化能力一直存在爭議。

實驗表明，CNN以硬編碼的歸納偏差為特徵，在EMC中優於ViT和MLP。當對語義標記的數據進行評估時，這種優勢在所有模型大小中都持續存在。

CNN從具有空間結構的數據中獲益匪淺，當空間結構通過排列被打破時，擬合的樣本就會減少。而MLP缺乏這種對空間結構的偏好，因此它們擬合數據的能力是不變的。

另外，用高斯噪聲代替輸入可提高兩種架構的容量，這可以解釋為，在高維中，嘈雜的數據相距甚遠，因此更容易分離。

值得注意的是，與隨機輸入相比，CNN可以擬合具有語義標籤的樣本數量要多得多，MLP卻正好相反，這再次凸顯了CNN在圖像分類方面的卓越泛化能力。

擴展網絡規模

下圖展示了各種擴展配置下的EMC。

對於ResNet，擴展措施包括增加寬度（kernel數量）、增加深度。EfficientNet固定係數，同時縮放深度、寬度和解像度。ResNet-RS根據模型大小、訓練持續時間和數據集大小調整縮放。

對於ViT，使用SViT和SoViT方法，並嘗試分別改變編碼器塊的數量（深度）和patch embedding的維度和自注意力（寬度）。

分析表明，縮放深度比縮放寬度更具參數效率。這個結論同時也適用於隨機標記的數據，表明並不是泛化的產物。

激活函數

非線性激活函數對於神經網絡容量至關重要，沒有它們，神經網絡只是大型因式分解線性模型。

研究結果表明，ReLU顯著增強了模型的容量。雖然它最初的作用是為了減輕梯度的消失和爆炸，但ReLU還提高了網絡的數據擬合能力。

相比之下，tanh雖然也是非線性的，但不能實現類似的效果。

優化在擬合數據中的作用

優化技術和正則化策略的選擇在神經網絡訓練中至關重要。這種選擇不僅影響訓練收斂性，還影響所找到的解決方案的性質。

參與實驗的優化器包括SGD、全批次梯度下降、Adam、AdamW和Shampoo。

以前的研究認為SGD具有很強的平坦度尋求正則化效應，但上圖表明，SGD還能夠比全批次（非隨機）梯度下降訓練擬合更多的數據。

不同優化器的EMC測量值表明，優化器不僅在收斂速率上有所不同，而且在發現的最小值類型上也有所不同。

參考資料：

https://x.com/micahgoldblum/status/1803088886513496392