陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

編輯|Panda、澤南

前兩天,Node.js 之父 Ryan Dahl 在 X 上斷言:「人類編寫程式碼的時代已經結束了論文。」該帖引發廣泛討論,瀏覽量更是已經超過了 700 萬。而現在,我們迎來了一個對這一判斷的有力證明。

剛剛,英偉達傑出工程師許冰(Bing Xu)在 GitHub 上開源了一個新專案 VibeTensor,讓我們看到了 AI 在程式設計方面的強大實力論文

從名字也能看出來,這是 Vibe Coding 的成果論文。事實也確實如此,這位谷歌學術引用量超 20 萬的工程師在 X 上表示:「這是第一個完全由 AI 智慧體生成的深度學習系統,沒有一行人類編寫的程式碼。」

展開全文

更具體來說,VibeTensor 是一個可執行的深度學習系統,配備了 RCU 風格的排程器、快取分配器和反向模式自動微分器論文。該智慧體還發明瞭一種 Fabric 張量系統 —— 這是目前任何框架中都不存在的新東西。

很明顯論文,許冰分享的這張專案架構圖也是 AI 生成的

其 Vibe Kernel 包含 13 種不同型別、總計約 4.7 萬行程式碼的自動生成核心,這些核心使用 Triton 和 CuteDSL 編寫,並且具有很強的效能表現論文

許冰表示,VibeTensor 由英偉達的第四代智慧體生成論文。但它也呈現出了一種「弗蘭肯斯坦效應(Frankenstein Effect)」:系統本身是正確的,但某些關鍵路徑的設計效率低下。因此,其效能無法與 PyTorch 相媲美。

更重要的是,許冰強調:「自 2025 年夏天以來,我一行程式碼都沒寫過論文。」他說這項工作是他看過 Andrej Kaparthy 的播客之後開始的。「我當時並不認同他的觀點,所以我和 Terry Chen(英偉達首席工程師)開始用它來測試我們的智慧體的能力。弗蘭肯斯坦效應最終暴露了我們智慧體的一些侷限性 —— 但方向很明確。」

該專案在 X 上引起了不少關注,許冰的幾位著名英偉達同事(也被列為參與者)也有分享點評論文

比如陳天奇表示:VibeTensor 很有意思,它表明 AI 智慧體能夠構建深度學習框架這樣複雜的東西論文。「生成的程式碼還有一些需要改進的地方,但它能夠做到這一點本身就非常有趣。」

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

賈揚清的評價則更高,他表示該專案的出現罕見地驗證了一個根本性問題:AI 能否編寫複雜的系統程式碼?而該專案給出的答案是「能,但是……(仍有問題)」論文。他說 AI 正以驚人的速度前進,「如果我們能掌握更多正確的原則,AI 終將完全超越人類程式設計師。這就像 2015 年 1 月的 AlphaGo。」

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

目前,許冰已經在 GitHub 上 NVlabs 帳號下發布了 VibeTensor 的相關內容,其中也包含一篇論文論文

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

論文標題:VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

論文地址論文

專案連結論文

有意思的是,當我們初看這篇論文時,我們發現論文中有一些 AI 生成的內容論文。於是我們詢問了許冰本人,而他給出的答案讓我們非常震驚:這篇論文竟也是 100% 由 AI 撰寫的!

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

許冰的回覆

下面我們就來詳細看看這個 AI 編寫的專案究竟是什麼論文

VibeTensor論文:全球首個完全由 AI 智慧體生成的全棧系統

VibeTensor 可不僅僅是又一個深度學習庫論文。它是全球首個完全由 AI 智慧體生成的全棧系統。從 Python/Node.js 的上層繫結,到 C++ 核心排程器,再到最底層的 CUDA 記憶體管理,每一行程式碼的增刪改查、每一次 Bug 的修復、每一輪構建驗證,全部由英偉達第四代智慧體(Agent)獨立完成。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

而人類的作用是提供了高層級的需求指導,然後像監工一樣看著 AI 智慧體在兩個月內瘋狂輸出論文。下面就來拆解一下這個氛圍程式設計版的 PyTorch:VibeTensor。

首先,效能上雖然 VibeTensor 目前還無法與 PyTorch 這種經過多年磨礪的框架抗衡(根據論文測試,部分場景慢了約 1.7 到 6.2 倍),但作為一個功能完整的技術原型,其設計的完整度令人吃驚論文

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

根據論文描述,VibeTensor 並不是一個簡單的包裝庫,它擁有極其硬核的底層架構論文

核心執行時的「暴力美學」

VibeTensor 的 C++20 核心並非簡單的庫呼叫論文。它實現了一個完整的 TensorImpl 架構,作為參考計數的 Storage 之上的檢視。令人驚訝的是,AI 賦予了它支援非連續檢視(Non-contiguous views)和 as_strided 語義的能力,並引入了原子版本計數器來確保原地(In-place)操作的安全性。

在運算元排程層面,AI 構建了一個 schema-lite 排程器,能夠將 vt::add 這樣的操作名精準對映到 CPU 或 CUDA 的核心實現上論文。這種設計支援鎖定(Boxed)和非鎖定(Unboxed)呼叫路徑,並透過不可變的快照狀態(Snapshot states)實現了穩態下的無鎖呼叫,極大地壓低了排程開銷。

獨創的 Fabric 張量系統論文:不屬於任何現有框架

在 VibeTensor 的所有元件中,最令人振奮的莫過於名為 Fabric 的實驗性子系統論文。這是目前市面上任何主流深度學習框架(如 PyTorch 或 TensorFlow)中都不曾以這種形式存在的概念。

Fabric 本質上是一個顯式的多裝置抽象層論文。它的核心使命是打破單卡執行時的限制,直接接管硬體拓撲的自動發現過程。根據論文描述,Fabric 能夠主動識別 CUDA P2P(點對點)和 UVA(統一虛擬地址)支援情況。

不同於傳統框架將多卡通訊隱藏在複雜的分散式 API 後,Fabric 提供了一套透明的可觀測原語,允許研究者直接控制記憶體的放置與同步策略論文

在 VibeTensor 的 Blackwell 評估中,AI 甚至基於 Fabric 構建了一個可選的環形全歸約(Ring-allreduce)外掛論文。這種外掛直接繫結了 CUTLASS 的實驗性核心,完全繞過了 NCCL。這意味著 AI 已經開始嘗試從底層通訊協議層面,去重構大規模分散式訓練的邏輯。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

非同步優先的「Node.js + Python」雙前端

在使用者介面上,AI 並沒有止步於復刻一個 PyTorch論文。它不僅利用 nanobind 打造了一個高度相容的 Python 覆蓋層(vibetensor.torch),還開創性地引入了一個基於 Node-API 的 Node.js 外掛。

這個 JavaScript/TypeScript 介面採用了純粹的「非同步優先」設計論文。所有的重負載任務都被排程至 napi_async_work 以避免阻塞 Node 事件迴圈,並透過一個全域性在途任務上限(VBT_NODE_MAX_INFLIGHT_OPS)來精細控制排隊壓力。這種橫跨資料科學(Python)與後端工程(Node.js)的選型,體現了 AI 智慧體在處理異構開發環境時的靈活性。

AI 核心套件論文:從運算元到視訊記憶體的全自動進化

在最底層的運算元實現上,VibeTensor 附帶了一個由 AI 生成的龐大核心套件論文。這裡包含了 200 多個原始檔,涵蓋了從基礎的 LayerNorm 到複雜的 Fused Attention 等各類運算元。

這些核心利用了 Triton 和英偉達自家的 CuTeDSL 編寫論文

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

值得注意的是,AI 生成的核心並非只是「能用」,在 H100 的實測中,其生成的 Fused Attention 核心在特定形狀下,前向計算比 PyTorch 的原生 FlashAttention 快了 1.54 倍,後向計算快了 1.26 倍論文。儘管這只是孤立運算元的表現,但它證明了 AI 在掌握硬體特性(如 Hopper 架構的 TMA 或 Tensor Cores)方面的巨大潛力。

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

弗蘭肯斯坦效應:AI 程式設計的隱形牆

儘管 VibeTensor 能夠跑通複雜的神經網路模型,但許冰和團隊在論文中誠實地提出了一個引人深思的概念:「弗蘭肯斯坦效應(Frankenstein Effect)」論文

陳天奇、賈揚清點贊:Vibe Coding版PyTorch,連論文都是AI寫的

這是 AI 智慧體在構建複雜系統時暴露出的核心侷限性論文。簡單來說,AI 能夠確保每一個區域性子系統(如排程器、分配器、運算元)在邏輯上是正確的,且能透過單元測試。但當這些區域性元件拼湊成一個龐大的全域性系統時,它們之間會產生意想不到的「摩擦」,形成效能瓶頸。

例如,AI 為了確保多執行緒環境下的安全性,在 Autograd 引擎中設計了一個非重入的全域性互斥鎖論文。這個設計從區域性看非常穩健、安全,但在全域性執行時卻成了「扼殺」並行效能的元兇,導致原本高效的顯示卡核心因資料等待而頻繁空轉。這種「正確但低效」的程式碼,正是目前智慧體在系統級架構設計上的天花板。

AI 輔助的開發方法

VibeTensor 的誕生並非源於一次簡單的提示詞工程,而是一場長達兩個月的、由高層級人類指令驅動的 Agent 自主演化過程論文。許冰也讓 AI 在論文中用一個章節專門總結了「AI 輔助的開發方法」。

1. 徹底的「黑盒」工作流

在這場實驗中,人類的角色從「程式設計師」徹底轉變為「監工」與「策略制定者」論文。許冰及其團隊並沒有進行任何程式碼層面的 Diff Review(差異審查),也沒有手動執行過任何驗證命令。

相反論文,開發流程被簡化為一個持續迴圈的閉環:

目標設定: 人類指定一個作用域明確的目標和必須遵守的約束條件論文

程式碼生成: AI 智慧體自主提議程式碼更改,並以 Diff 的形式應用到倉庫中論文

工具校驗: Agent 會自動呼叫編譯器、測試框架和差異檢查工具論文

多智慧體評審: 為了彌補單體 AI 可能存在的盲點,團隊引入了多 Agent 協作評審機制,用於捕捉缺失的邊界情況、冗餘的抽象或是潛在的安全隱患論文

2. 測試驅動的「硬核」規範

在 Agent 驅動的開發中,測試不再是錦上添花,而是唯一的「真理來源」論文。VibeTensor 的每一行程式碼都必須經過 C++(CTest)和 Python(pytest)雙重測試套件的洗禮。

更具創新性的是,AI 智慧體還利用 PyTorch 作為一個「參考原件」,建立了一套自動化的 API 對齊檢查器論文。當 AI 編寫的運算元出現數值偏差或記憶體洩漏時,Agent 會自主分析報錯日誌,新增一個最小化的迴歸測試用例,並重新進入修復迴圈。這種「測試即規格說明」的模式,確保了即使在缺乏人工干預的情況下,生成的 16 萬行程式碼依然保持了極高的邏輯一致性。

3. 跨層級除錯的挑戰

論文揭示了一個有趣的現象:AI 在處理「單次正確」的任務時表現卓越,但在處理系統的「組合穩定性」時卻面臨巨大挑戰論文。例如,在 Fused Attention 運算元的移植過程中,Agent 經歷了多次挫敗:從最初的引數超限、視訊記憶體對齊錯誤,到執行數千次後才暴露出的緩衝區初始化隱患。

這種跨越 C++ 執行時、CUDA 驅動程式和 Python 封裝層的多級除錯能力,正是此次英偉達第四代智慧體展示出的最核心競爭力論文。它證明了 Agent 已經能夠理解複雜的記憶體語義和硬體約束,而不僅僅是模仿程式碼片段。

AI 工程師的「AlphaGo 時刻」論文

VibeTensor 的出現並非為了取代 PyTorch,而是一場關於「生成式軟體工程」的宏大實驗論文

正如前文所述,許冰提到這項工作的靈感源於 Andrej Karpathy 的播客論文。當時他並不完全認同 Karpathy 關於「AI 程式設計」的某些激進觀點,於是決定和首席工程師 Terry Chen 一起,用最硬核的系統開發來測試智慧體的極限。

現在,方向已經明確論文。雖然「弗蘭肯斯坦效應」依然存在,但 VibeTensor 的誕生標誌著一個新時代的開啟:未來的系統軟體可能不再是工程師逐行敲出來的,而是由人類定義需求、由 AI 在「氛圍」中生成出來的。

參考連結

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://shhcmy.net/post/7830.html

🌐 /