前端程序員請注意：首個截圖就能生成現(xiàn)代前端代碼的 AI 開源

量子位 2025/2/26 12:12:58 責(zé)編：清源

評論：

現(xiàn)在截圖生成代碼，已經(jīng)來到了一個新高度 —— ?個?向現(xiàn)代前端代碼?成的多模態(tài)?模型解決?案，來了！而且是開源的那種。

（注：現(xiàn)代前端代碼開發(fā)具有組件化、狀態(tài)管理和數(shù)據(jù)驅(qū)動渲染、開發(fā)規(guī)范嚴格以及動態(tài)交互性強等特點。這些特點相互關(guān)聯(lián)，共同構(gòu)成了現(xiàn)代前端開發(fā)的復(fù)雜體系，對代碼生成提出了更高要求。如基于 React、Vue 等框架的開發(fā)。）

這個模型叫做 Flame，話不多說，直接來看效果。

例如截圖讓 AI 生成下面這個界面：

前端程序員請注意：首個截圖就能生成現(xiàn)代前端代碼的 AI 開源

Flame 模型在“看”完圖片之后，給出來的代碼是這樣：

前端程序員請注意：首個截圖就能生成現(xiàn)代前端代碼的 AI 開源

不難看出，F(xiàn)lame ?成代碼明顯是符合現(xiàn)代前端開發(fā)規(guī)范的，包括?較清晰的外聯(lián)樣式以及模塊化組件結(jié)構(gòu)。

同時在組件的實現(xiàn)中正確定義了組件的各個狀態(tài)、事件響應(yīng)、以及基于數(shù)據(jù)的組件動態(tài)渲染。

然而，誠如 GPT-4o 這樣頂尖的 SOTA 模型，可能也與現(xiàn)代前端開發(fā)的核?需求背道?馳，因為局限在于端到端復(fù)刻設(shè)計圖的過程中只能產(chǎn)出靜態(tài)組件。

例如同樣的界面，GPT-4o 的解法是這樣的：

前端程序員請注意：首個截圖就能生成現(xiàn)代前端代碼的 AI 開源

問題根源在于這類靜態(tài)代碼既?法?撐模塊化架構(gòu)，也難以?撐動態(tài)交互。

每個組件都是“?次性產(chǎn)物”，任何細微的需求開發(fā)和迭代，可能都要開發(fā)者開發(fā)?量定制化代碼，甚?是推倒重來。

前端程序員請注意：首個截圖就能生成現(xiàn)代前端代碼的 AI 開源

那么 Flame 模型又是如何解決這個問題的呢？

核心問題：數(shù)據(jù)稀缺

?型視覺語?模型（LVLM）在?成專業(yè)前端代碼上表現(xiàn)不盡?意的根本原因在于數(shù)據(jù)稀缺。

現(xiàn)代前端開發(fā)流程?常復(fù)雜，?如像 React 這樣的前端框架，強調(diào)組件化、狀態(tài)管理和數(shù)據(jù)驅(qū)動的渲染?式。

這就要求?成的代碼不僅要能?，還要符合開發(fā)規(guī)范，具備動態(tài)性和響應(yīng)性。

然?，開源社區(qū)中?持前端開發(fā)的?質(zhì)量圖像-?本（代碼）數(shù)據(jù)集極度稀缺。

像 websight 這樣的數(shù)據(jù)集只涉及靜態(tài) HTML，不適?于現(xiàn)代前端開發(fā)。

收集并構(gòu)建?質(zhì)量的訓(xùn)練數(shù)據(jù)?臨許多挑戰(zhàn)：

如何從公共代碼庫中提取有效代碼片段？
如何在保持原有代碼效果的情況下進行渲染？
如何?成符合?程師習(xí)慣的?量、多樣化數(shù)據(jù)？

針對這些問題，F(xiàn)lame 模型的團隊給出了解法就是數(shù)據(jù)合成。

為提升 LVLM 在前端代碼?成能?，我們設(shè)計了?整套?反思的智能體?作流，?于?成前端開發(fā)場景下的?質(zhì)量數(shù)據(jù)。

該?作流不僅能?動從公共代碼庫中提取真實數(shù)據(jù)，還能夠?主合成數(shù)據(jù)，?成專業(yè)、多樣化的前端代碼。

團隊設(shè)計并實現(xiàn)了 3 種合成?法：

前端程序員請注意：首個截圖就能生成現(xiàn)代前端代碼的 AI 開源

基于進化的數(shù)據(jù)合成（Evolution-Based Synthesis）

借鑒 WizardLM 的 Evol-Instruct ?法，通過隨機進化?成多樣化的代碼。它采?兩種策略：?度進化和深度進化。

?度進化通過改變代碼的功能和視覺?格，?成新變體；深度進化則通過增加代碼的技術(shù)復(fù)雜度，優(yōu)化組件處理、狀態(tài)管理和性能，提升代碼的可靠性和可維護性。

通過不斷進化，可以得到?量覆蓋不同需求的前端代碼。

基于瀑布模型的數(shù)據(jù)合成（Waterfall-Model-Based Synthesis）

模擬傳統(tǒng)軟件開發(fā)的瀑布流模型，確保?成的代碼結(jié)構(gòu)清晰、邏輯?致。從需求分析開始，推導(dǎo)出系統(tǒng)功能需求，設(shè)計 UI 布局和架構(gòu)，保證代碼符合現(xiàn)代前端開發(fā)的模塊化和可擴展性要求。

接著，通過多輪迭代，將需求轉(zhuǎn)化為具體的、可復(fù)?的前端組件和??。這種?法?成的代碼邏輯清晰，適合復(fù)雜功能的開發(fā)任務(wù)。

基于增量開發(fā)的數(shù)據(jù)合成（Additive Development Synthesis）

在現(xiàn)有代碼基礎(chǔ)上，逐步增加功能和復(fù)雜性。通過逐步集成狀態(tài)管理、交互邏輯或 API 等功能模塊，?成的代碼能更好地滿?實際開發(fā)需求。

這種?法強調(diào)逐步提升代碼的功能和復(fù)雜度，確保每次擴展都最?可能符合最佳實踐。

上述的三種?法不僅豐富了數(shù)據(jù)集的規(guī)模和多樣性，還確保了數(shù)據(jù)質(zhì)量與實際應(yīng)?價值。

這些?法能夠低成本?規(guī)模合成特定前端框架的圖?數(shù)據(jù)，借助上述?法，F(xiàn)lame 團隊針對 React 框架構(gòu)建了超過 400k 的多模態(tài)數(shù)據(jù)集。

同時，基于瀑布模型和增量開發(fā)的?法還?持多圖場景下的數(shù)據(jù)合成、視覺思維鏈的合成，為更復(fù)雜場景下的前端代碼?成提供了更多可能。

Flame：針對前端開發(fā)場景的 VLM

Flame 團隊??構(gòu)建了?套包含 80 道測試題?的?質(zhì)量測試集并通過改進后的 Pass@k 來評測多模態(tài)模型的前端代碼?成能?。

如果?成的代碼能夠通過編譯驗證、符合編碼規(guī)范，并且所渲染出的??與輸?的設(shè)計圖?夠相似，則認為該代碼符合要求。

評測結(jié)果顯?，當前頂級模型如 GPT-4o，Gemini 1.5 Flash 因其?成代碼主要為靜態(tài)代碼，嚴重偏離代碼規(guī)范，使其最? Pass@1 僅為 11%，? Flame 在相同條件下達到了 52%+，展現(xiàn)出了極?的潛?。

同時，F(xiàn)lame 僅? 20w 左右的數(shù)據(jù)量級即取得以上成果，進?步驗證了上述數(shù)據(jù)合成?法的價值以及?質(zhì)量數(shù)據(jù)集在多模態(tài)模型能?提升中的關(guān)鍵作?。

前端程序員請注意：首個截圖就能生成現(xiàn)代前端代碼的 AI 開源

△ 左：測試圖；右：Flame 效果圖

值得一提的是，將訓(xùn)練數(shù)據(jù)、數(shù)據(jù)合成流程、模型及測試集已經(jīng)全?開源，感興趣的小伙伴趕緊去看看吧。

GitHub 地址：

https://github.com/Flame-Code-VLM/Flame-Code-VLM/blob/main/README.md

本文來自微信公眾號：量子位（ID：QbitAI），作者：關(guān)注前沿科技

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

前端程序員請注意：首個截圖就能生成現(xiàn)代前端代碼的 AI 開源

核心問題：數(shù)據(jù)稀缺

基于進化的數(shù)據(jù)合成（Evolution-Based Synthesis）

基于瀑布模型的數(shù)據(jù)合成（Waterfall-Model-Based Synthesis）

基于增量開發(fā)的數(shù)據(jù)合成（Additive Development Synthesis）

Flame：針對前端開發(fā)場景的 VLM

相關(guān)文章