設(shè)置
  • 日夜間
    隨系統(tǒng)
    淺色
    深色
  • 主題色

OpenCity 大模型預(yù)測交通路況:零樣本下表現(xiàn)出色,來自港大百度

量子位 2024/8/31 12:41:55 責(zé)編:清源

長時間交通狀況預(yù)測,可以用大模型實現(xiàn)了。

香港大學(xué)聯(lián)合華南理工大學(xué)和百度,推出了長時間城市交通預(yù)測模型 ——OpenCity。

而且泛化能力極強(qiáng),可有效應(yīng)用于廣泛的交通預(yù)測場景。

為了解決傳統(tǒng)交通預(yù)測模型泛化性及長期預(yù)測能力不足的問題,研究團(tuán)隊新的基礎(chǔ)模型 OpenCity。

OpenCity 結(jié)合了 Transformer 架構(gòu)和圖神經(jīng)網(wǎng)絡(luò),用以模擬交通數(shù)據(jù)中復(fù)雜的時空依賴關(guān)系。

通過在大規(guī)模、異質(zhì)性交通數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,OpenCity 能夠?qū)W習(xí)豐富、具有泛化性的表征,這些表征可有效應(yīng)用于廣泛的交通預(yù)測場景。

相比于傳統(tǒng)方法,OpenCity 具有以下特點(diǎn):

通用時空建模:OpenCity 旨在有效處理不同空間區(qū)域和時間城市交通模式的固有多樣性和變化。

卓越的零樣本預(yù)測能力:與僅在目標(biāo)區(qū)域訓(xùn)練的全樣本模型相比,OpenCity 展示了更優(yōu)越的性能。這種顯著的零樣本能力突出了模型學(xué)習(xí)泛化表征的能力,使其能夠無需廣泛重新訓(xùn)練或微調(diào)即可無縫應(yīng)用于新的交通環(huán)境。

快速的情境適應(yīng)能力:OpenCity 在不同天的時空預(yù)測任務(wù)中展現(xiàn)了廣泛的適用性。模型只需快速微調(diào)就能適應(yīng)上下文,可以無縫部署在各種場景中。

可擴(kuò)展性:OpenCity 展示了有希望的縮放定律,表明該模型有潛力在最小的額外訓(xùn)練或微調(diào)需求下有效地擴(kuò)展和適應(yīng)新的、以前未見過的場景。

長時間交通預(yù)測面臨挑戰(zhàn)

當(dāng)前的交通預(yù)測模型,主要面臨著三大挑戰(zhàn)。

一是跨區(qū)域空間泛化能力。

當(dāng)前交通預(yù)測模型的一個關(guān)鍵局限是它們在空間泛化能力欠佳。

不同地理位置的交通模式可能因基礎(chǔ)設(shè)施、人口統(tǒng)計等因素而有很大差異,現(xiàn)有模型通常僅從特定區(qū)域的數(shù)據(jù)中學(xué)習(xí),無法有效地泛化到其他區(qū)域。

然而,在整個城市區(qū)域部署全面的傳感器網(wǎng)絡(luò)來收集交通數(shù)據(jù)是不切實際的。

一種更可行的方法是構(gòu)建能夠僅使用部分?jǐn)?shù)據(jù)就能很好泛化到未見區(qū)域的模型。

此外,開發(fā)適用于不同城市的時空模型將顯著降低部署和維護(hù)成本。

解決空間泛化挑戰(zhàn)對于創(chuàng)建可以在不同城市環(huán)境中無縫部署,無需大量重新訓(xùn)練或微調(diào)的交通模型至關(guān)重要。

第二個挑戰(zhàn)是時間泛化與長期預(yù)測。

當(dāng)前的交通預(yù)測模型擅長于短期預(yù)測,例如預(yù)測未來一小時內(nèi)的交通狀況。

然而,它們在泛化到更長時間框架,如未來幾小時或幾天的能力明顯有限。

這種限制主要是由于模型在有效處理實際城市場景中較長時間范圍內(nèi)發(fā)生的時間分布變化方面的泛化能力較差。

隨著預(yù)測時間范圍的增加,這些模型難以捕捉和考慮影響長期交通狀況的交通模式的動態(tài)變化。

這一限制為城市規(guī)劃者和交通機(jī)構(gòu)制定有效的長期戰(zhàn)略帶來了較大障礙。

第三是學(xué)習(xí)有效的通用表征并應(yīng)對時空異質(zhì)性

學(xué)習(xí)強(qiáng)大、具有泛化能力的交通動態(tài)表征對于開發(fā)多功能交通模型至關(guān)重要。

通過學(xué)習(xí)通用表征,模型可以獲得對交通模式的堅固且可轉(zhuǎn)移的理解,使其能夠有效地應(yīng)用于多種場景,即使沒有特定領(lǐng)域的訓(xùn)練數(shù)據(jù)。

此外,城市交通模式的特點(diǎn)是其固有的多樣性,在不同的空間區(qū)域和時間顯示出顯著的分布變化。

解決這種異質(zhì)性對于確保統(tǒng)一的時空交通模型保持多功能性和適應(yīng)性至關(guān)重要。

下方左圖展示了不同交通數(shù)據(jù)集中數(shù)據(jù)分布的變化,突出了需要能夠處理這種差異的模型的必要性;

右圖比較了 OpenCity 在零樣本下的性能與基線在全樣本下的性能,盡管存在時空異質(zhì)性分布偏移挑戰(zhàn),OpenCity 的表現(xiàn)仍與全樣本基線相當(dāng)。

為了解決這些挑戰(zhàn),研究團(tuán)隊采取了一系列新策略。

用于分布偏移泛化的時空嵌入

上下文歸一化

現(xiàn)有方法通常利用訓(xùn)練數(shù)據(jù)的統(tǒng)計特性如均值和標(biāo)準(zhǔn)差等,進(jìn)行數(shù)據(jù)歸一化。

然而,當(dāng)測試數(shù)據(jù)顯示出顯著的數(shù)據(jù)異質(zhì)性且與訓(xùn)練數(shù)據(jù)分布沒有地理空間重疊時,這些匯總統(tǒng)計可能是不充分的或不可轉(zhuǎn)移的。

為了應(yīng)對這一挑戰(zhàn)并適應(yīng)零樣本交通預(yù)測任務(wù),作者采用實例歸一化 IN (?) 來處理數(shù)據(jù)。

這種方法利用每個區(qū)域的單個輸入實例 Xr ∈ ?^T 的均值 μ(Xr) 和標(biāo)準(zhǔn) σ(Xr),而不依賴于全局訓(xùn)練集的統(tǒng)計數(shù)據(jù),它能夠有效緩解訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布偏移的問題,形式化如下:

用于高效長期預(yù)測的 Patch 嵌入

OpenCity 旨在解決長期交通預(yù)測問題,這涉及處理增加的輸入時間步數(shù),導(dǎo)致顯著的計算和內(nèi)存開銷。

為了緩解這些問題,作者采用基于 Patch 的方法按時間維度劃分?jǐn)?shù)據(jù)。

定義 P 為 Patch 長度,指定分組到單個 Patch 中的時間步數(shù),以及 S 為步長大小,決定連續(xù) Patch 之間的重疊。

Patch 操作后,輸入數(shù)據(jù)被重塑為 Xr^P ∈ ?^(P×N),其中 N 是塊的數(shù)量,N = (T-P) / S +1。

通過將一小時的交通數(shù)據(jù)視為單個補(bǔ)丁的長度,并相應(yīng)地調(diào)整步長(S=P),使得模型能夠捕捉并適應(yīng)交通數(shù)據(jù)在延長時間范圍內(nèi)的演變模式。

此外,基于補(bǔ)丁的處理顯著降低了計算和內(nèi)存需求,使得更高效和可擴(kuò)展的長期交通預(yù)測成為可能。

在 patch 操作后,作者使用線性轉(zhuǎn)換和正余弦位置編碼 PE 以得到最終時空嵌入表征 Er ∈ ?^(P×d),它被用于后續(xù)組件的輸入,如下:

時空上下文編碼

為了捕捉交通數(shù)據(jù)中固有的復(fù)雜時空模式,模型整合了時間和空間上下文線索。

通過顯式地模擬這兩個關(guān)鍵維度之間的相互作用,OpenCity 能夠更好地理解影響交通模式的多方面因素。

這種集成方法使所提出的框架能夠在不同的時間范圍和地理區(qū)域中生成更準(zhǔn)確的預(yù)測。

時間上下文編碼

OpenCity 模型有效地捕捉了交通數(shù)據(jù)中的獨(dú)特時間模式,例如由日?;蛑艹R?guī)引起的周期性變化,以及在更長的時間尺度上的復(fù)雜非線性依賴。

具體來說,作者利用一天中的時間 z^(d) ∈ ?^T 和一周中的某天 z^(w) ∈ ?^T 等時間特征來提取周期關(guān)聯(lián),然后采用線性層來生成編碼這些時間上下文線索的時間特定嵌入。

通過顯式地模擬交通流的周期性特征,該方法即使在長期預(yù)測范圍下也能實行精確預(yù)測。

時間上下文編碼過程結(jié)合了 patch 操作與時空嵌入表征對齊,形式化如下:

空間上下文編碼

由于地理特性的獨(dú)特性,不同區(qū)域的交通模式各不相同(如交通樞紐有著的較高流量)。

為了捕捉這些區(qū)域?qū)傩?,作者在交通網(wǎng)絡(luò)中整合了空間上下文。

首先,作者計算了標(biāo)準(zhǔn)化的拉普拉斯矩陣,其中 I 和 D 分別是單位矩陣和度數(shù)矩陣:

然后作者執(zhí)行看特征值分解,得到 △=UΛU^T,其中 U 和 Λ 分別是特征值矩陣和特征向量矩陣。

使用 k 個最小的非平凡特征向量作為區(qū)域嵌入 Φ ∈ ?^(R×k),編碼交通網(wǎng)絡(luò)的結(jié)構(gòu)信息。

然后通過線性層處理這些嵌入,以獲得最終的空間編碼 C ∈ ?^(R×d)。

時空依賴建模

時間依賴建模

OpenCity 在所提出的 TimeShift Transformer 架構(gòu)上構(gòu)建,以編碼時間依賴關(guān)系。作者主要從兩個互補(bǔ)的視角捕捉交通模式:

周期性交通轉(zhuǎn)換:作者的模型捕捉周期性的、反復(fù)出現(xiàn)的交通模式,如每小時、每日和每周的循環(huán)。通過編碼這些周期性變化,我們的方法可以更好地解釋交通網(wǎng)絡(luò)中的固有規(guī)律性。

動態(tài)交通模式:除了周期性變化外,作者的時間編碼器還捕捉交通數(shù)據(jù)隨時間演變的復(fù)雜、非線性時態(tài)動態(tài)和趨勢。

  • 周期性交通轉(zhuǎn)換建模

作者利用時間嵌入 D 和空間嵌入 C 捕獲交通中的周期性模式,目標(biāo)是揭示歷史交通模式與未來實例之間的相關(guān)性。

其中,時間嵌入被更新為兩個組成部分:

D^his ∈ ?^(R×p×d):捕捉歷史時間信號。

D^pre ∈ ?^(R×p×d):未來預(yù)測的預(yù)期時間信息。

作者的模型明確地模擬了歷史和未來導(dǎo)向的時間模式,使其能夠更好地學(xué)習(xí)和利用交通時間序列的周期性特征。

這個過程通過構(gòu)建時間轉(zhuǎn)移多頭注意力機(jī)制實現(xiàn) ——

將未來的時空嵌入作為查詢(Query),歷史的時空嵌入作為鍵(Key),以及歷史的時空數(shù)據(jù)表示作為值(Value)。

作者引入了 RMSNorm 來提高訓(xùn)練穩(wěn)定性。

通過明確建模歷史與未來時間信息之間的關(guān)系,OpenCity 具備了發(fā)現(xiàn)周期性時空交通模式的能力。

  • 動態(tài)交通模式學(xué)習(xí)

該模塊旨在捕捉不同時間段之間的動態(tài)依賴關(guān)系,例如,突發(fā)的交通事故可能導(dǎo)致交通速度和交通量急劇下降。

為了實現(xiàn)這一點(diǎn),我們采用類似于周期交通轉(zhuǎn)換編碼的注意力機(jī)制。

不同之處在于,查詢(Q)、鍵(K)和值(V)的輸入被替換為上一步的歸一化輸出(M)。

這一修改使得模型能夠?qū)W⒂趯W(xué)習(xí)不同時間段之間的動態(tài)依賴關(guān)系,而不僅僅是周期模式。

得到的時間表示 H ∈ ?^(R×p×d) 捕捉了這些動態(tài)時空關(guān)系。

空間依賴建模

捕捉空間依賴性是模型設(shè)計的一個關(guān)鍵方面,因為交通網(wǎng)絡(luò)表現(xiàn)出強(qiáng)空間相關(guān)性,一個區(qū)域的交通狀況往往受到鄰近區(qū)域狀態(tài)的影響。

為了建模這些空間關(guān)聯(lián),作者采用了圖卷積網(wǎng)絡(luò)(GCNs):

殘差連接、RMSNorm 和 SwiGLU 激活函數(shù)被用于后續(xù)運(yùn)算。

所提出的模型通過堆疊多層此類時空編碼網(wǎng)絡(luò),捕捉復(fù)雜的時空依賴關(guān)系,使其能夠?qū)W習(xí)交通網(wǎng)絡(luò)內(nèi)復(fù)雜的關(guān)系。

測試結(jié)果

零樣本 vs. 全樣本

作者全面測試了 OpenCity 的零樣本性能,包括跨區(qū)域,跨城市和跨類型三種情形,并于基線全樣本性能進(jìn)行對比。

首先,OpenCity 顯現(xiàn)出了卓越的零樣本預(yù)測性能。

OpenCity 在零樣本學(xué)習(xí)方面取得了重大突破,即使不進(jìn)行微調(diào),也超越了大多數(shù)基線。

這突出了該方法在學(xué)習(xí)大規(guī)模交通數(shù)據(jù)中復(fù)雜的時空模式、提取適用于下游任務(wù)的通用見解方面的穩(wěn)健性和有效性。

OpenCity 在多個數(shù)據(jù)集上能夠保持前兩名的位置,即使在不領(lǐng)先的情況下差距也保持在 8%(MAE)以內(nèi)。

卓越的零樣本預(yù)測性能凸顯了 OpenCity 在處理多樣化交通數(shù)據(jù)集上的通用性和適應(yīng)性,無需廣泛重新訓(xùn)練。

其關(guān)鍵優(yōu)勢在于可以立即部署到新場景中,顯著減少傳統(tǒng)監(jiān)督方法通常所需的時間和資源,為實際應(yīng)用帶來了巨大的好處。

OpenCity 還表現(xiàn)出了卓越的跨任務(wù)泛化能力。

作者在交通流量(CAD3、CAD5)、交通速度(PEMS07M、TrafficSH)、出租車需求(CHI-TAXI)和自行車軌跡(NYC-BIKE)這四個不同的交通數(shù)據(jù)類別中評估了 OpenCity。

基線分析顯示,雖然各種模型在特定數(shù)據(jù)類型上表現(xiàn)出色,但沒有一個能夠在所有類別中始終提供最佳結(jié)果。

然而,它們在其他領(lǐng)域保持該水平的表現(xiàn)卻存在困難。

相比之下,OpenCity 在所有測試類別中始終提供高質(zhì)量的結(jié)果,突顯其卓越的穩(wěn)健性和多功能性。

此外,為了評估 OpenCity 框架的通用性,作者在測試期間評估了其跨類別的零樣本泛化能力(NYC-BIKE)。

結(jié)果顯示 OpenCity 在多個指標(biāo)保持了優(yōu)異的表現(xiàn),進(jìn)一步驗證了其普適性和適應(yīng)多樣數(shù)據(jù)類型的能力。

此外,OpenCity 還擁有強(qiáng)大的長期預(yù)測能力。

OpenCity 架構(gòu)的一個關(guān)鍵優(yōu)勢是其卓越的時間泛化能力,其能夠在長期交通預(yù)測任務(wù)中優(yōu)于基線方法。

許多現(xiàn)有模型常常難以在延長的時間范圍內(nèi)維持準(zhǔn)確的預(yù)測,因為它們傾向于過度擬合歷史模式,未能充分捕捉交通條件的動態(tài)和演變特性。

OpenCity 能夠從多樣化交通數(shù)據(jù)源學(xué)習(xí)通用時空表征,這使其能夠生成穩(wěn)健的預(yù)測,即使交通模式隨時間變化和演進(jìn),預(yù)測仍然可靠。

有監(jiān)督預(yù)測性能

為了進(jìn)一步驗證 OpenCity 的性能,作者進(jìn)行了監(jiān)督學(xué)習(xí)評估。

其中,OpenCity 在 one-for-all 設(shè)置下與基線在單個數(shù)據(jù)集端到端訓(xùn)練測試進(jìn)行對比。

OpenCity 在監(jiān)督設(shè)置中保持出色的表現(xiàn),并在大多數(shù)評估指標(biāo)中占據(jù)領(lǐng)先優(yōu)勢。

此外,作者觀察到大多數(shù)基線模型在 CAD-X 數(shù)據(jù)集上表現(xiàn)不佳,可能是因為它們傾向于過度擬合歷史時空模式,使得它們難以泛化到長期交通依賴建模。

相比之下,OpenCity 架構(gòu)有效地從我們的預(yù)訓(xùn)練階段提取了通用的周期性和動態(tài)時空表征,解決了由于跨時間和跨位置分布偏移引起的預(yù)測性能不佳的問題。

有監(jiān)督性能評估

模型快速適應(yīng)能力探索

本節(jié)評估了 OpenCity 在下游任務(wù)中的快速適應(yīng)能力。

作者關(guān)注了一個之前未見過的交通數(shù)據(jù)集,并采用了“高效微調(diào)”方法,設(shè)置如下:

只更新模型的預(yù)測頭(最后一個線性層),最多進(jìn)行三個訓(xùn)練周期。

結(jié)果,OpenCity 在某些指標(biāo)上的零樣本表現(xiàn)不如基線模型的全樣本表現(xiàn),這可能是由于交通模式和數(shù)據(jù)采樣的變化。

然而,經(jīng)過高效微調(diào)后,OpenCity 的表現(xiàn)顯著提升,超過了所有比較的模型。

值得注意的是,OpenCity 的訓(xùn)練時間只占基線所需時間的 2% 至 32%。

這種快速的適應(yīng)能力突顯了 OpenCity 作為基礎(chǔ)交通預(yù)測模型的潛力,能夠迅速適應(yīng)新的時空數(shù)據(jù)類別。

消融實驗

  • 動態(tài)交通建模的效用(-DTP):移除動態(tài)交通建模模塊后出現(xiàn)性能下降,展示了該模塊能充分分析最近的交通模式,并有效地適應(yīng)交通條件的突然變化來調(diào)整其預(yù)測。

  • 周期性交通轉(zhuǎn)移建模的影響(-PTTM):我移除了周期相關(guān)編碼,直接將時間和空間上下文整合到時空嵌入中。通過建模交通流在歷史-未來時間對之間的映射,OpenCity 捕捉了控制時空模式演變的一般規(guī)律。

  • 空間依賴性建模的影響(-SDM):去除了空間編碼模塊。分析顯示,學(xué)習(xí)空間關(guān)系顯著增強(qiáng)了時空預(yù)測能力。通過聚合來自依賴空間區(qū)域的交通信息,模型有效地捕捉了動態(tài)交通流模式,從而為零樣本交通預(yù)測提供了有價值的輔助信號。

  • 時空上下文編碼的影響(-STC):移除了時空上下文信息的編碼,導(dǎo)致了性能的顯著下降。時間上下文信息幫助模型識別并學(xué)習(xí)特定時期內(nèi)的常見交通模式,而區(qū)域嵌入包含了重要的區(qū)域特定特性。這些元素共同提供了理解城市間動態(tài)時空模式的寶貴見解。

模型可擴(kuò)展性研究

作者還探索了 OpenCity 在數(shù)據(jù)和參數(shù)兩個維度上的可擴(kuò)展性。

其中,參數(shù)可擴(kuò)展性包括三個版本:OpenCitymini(2M 參數(shù))、OpenCitybase(5M 參數(shù))和 OpenCityplus(26M 參數(shù))。

在模型 plus 下,作者使用了 10%、50% 和 100% 的預(yù)訓(xùn)練數(shù)據(jù)來探索納入更多數(shù)據(jù)的好處。

為了標(biāo)準(zhǔn)化比較,縱軸代表相對預(yù)測誤差值。結(jié)果顯示,隨著參數(shù)和數(shù)據(jù)規(guī)模的增加,OpenCity 的零樣本泛化性能逐漸提升。

這表明 OpenCity 能夠從大規(guī)模數(shù)據(jù)集中提取有價值的知識,并且通過參數(shù)擴(kuò)展增強(qiáng)了其學(xué)習(xí)能力。

所展示的可擴(kuò)展性潛力支持 OpenCity 成為通用交通應(yīng)用的基礎(chǔ)模型的前景。

與大規(guī)模時空預(yù)測模型的比較

作者還將 OpenCity 與其他先進(jìn)的大型時空預(yù)訓(xùn)練模型進(jìn)行比較,包括以強(qiáng)大的零樣本泛化能力著稱的 UniST 和 UrbanGPT。

作者使用了三個模型的預(yù)訓(xùn)練階段均未包含的 CHI-TAXI 數(shù)據(jù)集進(jìn)行評估。

結(jié)果顯示,OpenCity 在其他先進(jìn)的大規(guī)模時空模型中保持了顯著的性能優(yōu)勢。

此外,OpenCity 和 UniST 相比于 UrbanGPT 顯示出顯著的效率改進(jìn)。這可能是因為 UrbanGPT 依賴于通過問答格式進(jìn)行預(yù)測的大型語言模型 (LLM),這限制了其高效處理批量數(shù)據(jù)的能力。

所提出的 OpenCity 模型在性能和效率上實現(xiàn)了雙贏,突顯了其作為交通基準(zhǔn)測試的強(qiáng)大大規(guī)模模型的潛力。

總之,OpenCity 這個用于交通預(yù)測的可擴(kuò)展時空基礎(chǔ)模型,在多個交通預(yù)測場景中實現(xiàn)了精確的零樣本預(yù)測性能。

通過采用 Transformer 編碼器架構(gòu)作為建模動態(tài)時空依賴關(guān)系的主干,并在大規(guī)模交通數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,OpenCity 在各種下游任務(wù)上展示了卓越的零樣本預(yù)測性能,與全樣本設(shè)置下的最先進(jìn)基線模型的結(jié)果相匹配。

論文地址:

  • http://arxiv.org/abs/2408.10269

GitHub:

  • https://github.com/HKUDS/OpenCity

項目組主頁:

  • https://sites.google.com/view/chaoh/home

本文來自微信公眾號:量子位(ID:QbitAI),作者:關(guān)注前沿科技

廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。

相關(guān)文章

關(guān)鍵詞:預(yù)測模型,人工智能

軟媒旗下網(wǎng)站: IT之家 最會買 - 返利返現(xiàn)優(yōu)惠券 iPhone之家 Win7之家 Win10之家 Win11之家

軟媒旗下軟件: 軟媒手機(jī)APP應(yīng)用 魔方 最會買 要知