陳天奇、賈揚清點贊：Vibe Coding版PyTorch，連論文都是AI寫的

編輯｜Panda、澤南

前兩天，Node.js 之父 Ryan Dahl 在 X 上斷言：「人類編寫程式碼的時代已經結束了論文。」該帖引發廣泛討論，瀏覽量更是已經超過了 700 萬。而現在，我們迎來了一個對這一判斷的有力證明。

剛剛，英偉達傑出工程師許冰（Bing Xu）在 GitHub 上開源了一個新專案 VibeTensor，讓我們看到了 AI 在程式設計方面的強大實力論文。

從名字也能看出來，這是 Vibe Coding 的成果論文。事實也確實如此，這位谷歌學術引用量超 20 萬的工程師在 X 上表示：「這是第一個完全由 AI 智慧體生成的深度學習系統，沒有一行人類編寫的程式碼。」

展開全文

更具體來說，VibeTensor 是一個可執行的深度學習系統，配備了 RCU 風格的排程器、快取分配器和反向模式自動微分器論文。該智慧體還發明瞭一種 Fabric 張量系統 —— 這是目前任何框架中都不存在的新東西。

很明顯論文，許冰分享的這張專案架構圖也是 AI 生成的

其 Vibe Kernel 包含 13 種不同型別、總計約 4.7 萬行程式碼的自動生成核心，這些核心使用 Triton 和 CuteDSL 編寫，並且具有很強的效能表現論文。

許冰表示，VibeTensor 由英偉達的第四代智慧體生成論文。但它也呈現出了一種「弗蘭肯斯坦效應（Frankenstein Effect）」：系統本身是正確的，但某些關鍵路徑的設計效率低下。因此，其效能無法與 PyTorch 相媲美。

更重要的是，許冰強調：「自 2025 年夏天以來，我一行程式碼都沒寫過論文。」他說這項工作是他看過 Andrej Kaparthy 的播客之後開始的。「我當時並不認同他的觀點，所以我和 Terry Chen（英偉達首席工程師）開始用它來測試我們的智慧體的能力。弗蘭肯斯坦效應最終暴露了我們智慧體的一些侷限性 —— 但方向很明確。」

該專案在 X 上引起了不少關注，許冰的幾位著名英偉達同事（也被列為參與者）也有分享點評論文。

比如陳天奇表示：VibeTensor 很有意思，它表明 AI 智慧體能夠構建深度學習框架這樣複雜的東西論文。「生成的程式碼還有一些需要改進的地方，但它能夠做到這一點本身就非常有趣。」

賈揚清的評價則更高，他表示該專案的出現罕見地驗證了一個根本性問題：AI 能否編寫複雜的系統程式碼？而該專案給出的答案是「能，但是……（仍有問題）」論文。他說 AI 正以驚人的速度前進，「如果我們能掌握更多正確的原則，AI 終將完全超越人類程式設計師。這就像 2015 年 1 月的 AlphaGo。」

目前，許冰已經在 GitHub 上 NVlabs 帳號下發布了 VibeTensor 的相關內容，其中也包含一篇論文論文。

論文標題：VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

論文地址論文：

專案連結論文：

有意思的是，當我們初看這篇論文時，我們發現論文中有一些 AI 生成的內容論文。於是我們詢問了許冰本人，而他給出的答案讓我們非常震驚：這篇論文竟也是 100% 由 AI 撰寫的！

許冰的回覆

下面我們就來詳細看看這個 AI 編寫的專案究竟是什麼論文。

VibeTensor論文：全球首個完全由 AI 智慧體生成的全棧系統

VibeTensor 可不僅僅是又一個深度學習庫論文。它是全球首個完全由 AI 智慧體生成的全棧系統。從 Python/Node.js 的上層繫結，到 C++ 核心排程器，再到最底層的 CUDA 記憶體管理，每一行程式碼的增刪改查、每一次 Bug 的修復、每一輪構建驗證，全部由英偉達第四代智慧體（Agent）獨立完成。

而人類的作用是提供了高層級的需求指導，然後像監工一樣看著 AI 智慧體在兩個月內瘋狂輸出論文。下面就來拆解一下這個氛圍程式設計版的 PyTorch：VibeTensor。

首先，效能上雖然 VibeTensor 目前還無法與 PyTorch 這種經過多年磨礪的框架抗衡（根據論文測試，部分場景慢了約 1.7 到 6.2 倍），但作為一個功能完整的技術原型，其設計的完整度令人吃驚論文。

根據論文描述，VibeTensor 並不是一個簡單的包裝庫，它擁有極其硬核的底層架構論文。

核心執行時的「暴力美學」

VibeTensor 的 C++20 核心並非簡單的庫呼叫論文。它實現了一個完整的 TensorImpl 架構，作為參考計數的 Storage 之上的檢視。令人驚訝的是，AI 賦予了它支援非連續檢視（Non-contiguous views）和 as_strided 語義的能力，並引入了原子版本計數器來確保原地（In-place）操作的安全性。

在運算元排程層面，AI 構建了一個 schema-lite 排程器，能夠將 vt::add 這樣的操作名精準對映到 CPU 或 CUDA 的核心實現上論文。這種設計支援鎖定（Boxed）和非鎖定（Unboxed）呼叫路徑，並透過不可變的快照狀態（Snapshot states）實現了穩態下的無鎖呼叫，極大地壓低了排程開銷。

獨創的 Fabric 張量系統論文：不屬於任何現有框架

在 VibeTensor 的所有元件中，最令人振奮的莫過於名為 Fabric 的實驗性子系統論文。這是目前市面上任何主流深度學習框架（如 PyTorch 或 TensorFlow）中都不曾以這種形式存在的概念。

Fabric 本質上是一個顯式的多裝置抽象層論文。它的核心使命是打破單卡執行時的限制，直接接管硬體拓撲的自動發現過程。根據論文描述，Fabric 能夠主動識別 CUDA P2P（點對點）和 UVA（統一虛擬地址）支援情況。

不同於傳統框架將多卡通訊隱藏在複雜的分散式 API 後，Fabric 提供了一套透明的可觀測原語，允許研究者直接控制記憶體的放置與同步策略論文。

在 VibeTensor 的 Blackwell 評估中，AI 甚至基於 Fabric 構建了一個可選的環形全歸約（Ring-allreduce）外掛論文。這種外掛直接繫結了 CUTLASS 的實驗性核心，完全繞過了 NCCL。這意味著 AI 已經開始嘗試從底層通訊協議層面，去重構大規模分散式訓練的邏輯。

非同步優先的「Node.js + Python」雙前端

在使用者介面上，AI 並沒有止步於復刻一個 PyTorch論文。它不僅利用 nanobind 打造了一個高度相容的 Python 覆蓋層（vibetensor.torch），還開創性地引入了一個基於 Node-API 的 Node.js 外掛。

這個 JavaScript/TypeScript 介面採用了純粹的「非同步優先」設計論文。所有的重負載任務都被排程至 napi_async_work 以避免阻塞 Node 事件迴圈，並透過一個全域性在途任務上限（VBT_NODE_MAX_INFLIGHT_OPS）來精細控制排隊壓力。這種橫跨資料科學（Python）與後端工程（Node.js）的選型，體現了 AI 智慧體在處理異構開發環境時的靈活性。

AI 核心套件論文：從運算元到視訊記憶體的全自動進化

在最底層的運算元實現上，VibeTensor 附帶了一個由 AI 生成的龐大核心套件論文。這裡包含了 200 多個原始檔，涵蓋了從基礎的 LayerNorm 到複雜的 Fused Attention 等各類運算元。

這些核心利用了 Triton 和英偉達自家的 CuTeDSL 編寫論文。

值得注意的是，AI 生成的核心並非只是「能用」，在 H100 的實測中，其生成的 Fused Attention 核心在特定形狀下，前向計算比 PyTorch 的原生 FlashAttention 快了 1.54 倍，後向計算快了 1.26 倍論文。儘管這只是孤立運算元的表現，但它證明了 AI 在掌握硬體特性（如 Hopper 架構的 TMA 或 Tensor Cores）方面的巨大潛力。

弗蘭肯斯坦效應：AI 程式設計的隱形牆

儘管 VibeTensor 能夠跑通複雜的神經網路模型，但許冰和團隊在論文中誠實地提出了一個引人深思的概念：「弗蘭肯斯坦效應（Frankenstein Effect）」論文。

這是 AI 智慧體在構建複雜系統時暴露出的核心侷限性論文。簡單來說，AI 能夠確保每一個區域性子系統（如排程器、分配器、運算元）在邏輯上是正確的，且能透過單元測試。但當這些區域性元件拼湊成一個龐大的全域性系統時，它們之間會產生意想不到的「摩擦」，形成效能瓶頸。

例如，AI 為了確保多執行緒環境下的安全性，在 Autograd 引擎中設計了一個非重入的全域性互斥鎖論文。這個設計從區域性看非常穩健、安全，但在全域性執行時卻成了「扼殺」並行效能的元兇，導致原本高效的顯示卡核心因資料等待而頻繁空轉。這種「正確但低效」的程式碼，正是目前智慧體在系統級架構設計上的天花板。

AI 輔助的開發方法

VibeTensor 的誕生並非源於一次簡單的提示詞工程，而是一場長達兩個月的、由高層級人類指令驅動的 Agent 自主演化過程論文。許冰也讓 AI 在論文中用一個章節專門總結了「AI 輔助的開發方法」。

1. 徹底的「黑盒」工作流

在這場實驗中，人類的角色從「程式設計師」徹底轉變為「監工」與「策略制定者」論文。許冰及其團隊並沒有進行任何程式碼層面的 Diff Review（差異審查），也沒有手動執行過任何驗證命令。

相反論文，開發流程被簡化為一個持續迴圈的閉環：

目標設定：人類指定一個作用域明確的目標和必須遵守的約束條件論文。

程式碼生成： AI 智慧體自主提議程式碼更改，並以 Diff 的形式應用到倉庫中論文。

工具校驗： Agent 會自動呼叫編譯器、測試框架和差異檢查工具論文。

多智慧體評審：為了彌補單體 AI 可能存在的盲點，團隊引入了多 Agent 協作評審機制，用於捕捉缺失的邊界情況、冗餘的抽象或是潛在的安全隱患論文。

2. 測試驅動的「硬核」規範

在 Agent 驅動的開發中，測試不再是錦上添花，而是唯一的「真理來源」論文。VibeTensor 的每一行程式碼都必須經過 C++（CTest）和 Python（pytest）雙重測試套件的洗禮。

更具創新性的是，AI 智慧體還利用 PyTorch 作為一個「參考原件」，建立了一套自動化的 API 對齊檢查器論文。當 AI 編寫的運算元出現數值偏差或記憶體洩漏時，Agent 會自主分析報錯日誌，新增一個最小化的迴歸測試用例，並重新進入修復迴圈。這種「測試即規格說明」的模式，確保了即使在缺乏人工干預的情況下，生成的 16 萬行程式碼依然保持了極高的邏輯一致性。

3. 跨層級除錯的挑戰

論文揭示了一個有趣的現象：AI 在處理「單次正確」的任務時表現卓越，但在處理系統的「組合穩定性」時卻面臨巨大挑戰論文。例如，在 Fused Attention 運算元的移植過程中，Agent 經歷了多次挫敗：從最初的引數超限、視訊記憶體對齊錯誤，到執行數千次後才暴露出的緩衝區初始化隱患。

這種跨越 C++ 執行時、CUDA 驅動程式和 Python 封裝層的多級除錯能力，正是此次英偉達第四代智慧體展示出的最核心競爭力論文。它證明了 Agent 已經能夠理解複雜的記憶體語義和硬體約束，而不僅僅是模仿程式碼片段。

AI 工程師的「AlphaGo 時刻」論文？

VibeTensor 的出現並非為了取代 PyTorch，而是一場關於「生成式軟體工程」的宏大實驗論文。

正如前文所述，許冰提到這項工作的靈感源於 Andrej Karpathy 的播客論文。當時他並不完全認同 Karpathy 關於「AI 程式設計」的某些激進觀點，於是決定和首席工程師 Terry Chen 一起，用最硬核的系統開發來測試智慧體的極限。

現在，方向已經明確論文。雖然「弗蘭肯斯坦效應」依然存在，但 VibeTensor 的誕生標誌著一個新時代的開啟：未來的系統軟體可能不再是工程師逐行敲出來的，而是由人類定義需求、由 AI 在「氛圍」中生成出來的。

參考連結

陳天奇、賈揚清點贊：Vibe Coding版PyTorch，連論文都是AI寫的

上海偉傑國際貨物運輸代理有限公司

熱門標籤

相關詞彙