未找到任何項目

使用自回歸預訓練改進非自回歸 ASR

李彥佳, 拉希魯·薩馬拉昆, 馮晟,ICASSP 2023, 2023年6月

抽象

自回歸 (AR) 自動語音辨識 (ASR) 模型預測每個輸出令牌條件,從而降低其推理速度。另一方面,非自回歸(NAR)模型在恆定的解碼反覆運算次數內獨立並同時預測令牌,從而帶來很高的推理速度。但是,NAR 模型的準確度通常低於 AR 模型。在這項工作中,我們提出了對NAR編碼器進行AR預訓練,以縮小AR和NAR模型之間的精度差距。實驗結果表明,我們的AR預訓練MaskCTC在Aishell-1上達到了與AR構象體相同的精度(均為4.9%CER),並且在LibriSpeech上與AR構象體的性能差距降低了50%。此外,我們的AR預訓練MaskCTC只需要一次解碼反覆運算,從而將推理時間縮短了50%。我們還研究了訓練MaskCTC的掩碼語言模型的多種掩蔽策略。

出版物連結

用於高效基於變壓器的語音辨識的無束位置編碼

拉希魯·薩馬拉昆,馮伊萬,SLT 2022,2023年1月

抽象

自我注意已成為端到端(E2E)自動語音辨識(ASR)的重要組成部分。具有相對位置編碼(RPE)的捲積增強變壓器(Conformer)實現了最先進的性能。本文提出了一種名為縮放未綁定RPE的位置編碼(PE)機制,該機制在自注意力計算中解開特徵-位置相關性,並使用不同的投影矩陣分別計算特徵相關性和位置相關性。此外,我們建議使用位置相關性來縮放特徵相關性,並且可以使用稱為幅度的參數來表示這種乘法交互作用的侵略性。此外,我們表明PE矩陣可以切片以減少模型參數。我們對國家語音語料庫 (NSC) 的結果表明,與 Conformer 基線相比,具有縮放未綁定 RPE 的變壓器編碼器在準確性方面分別實現了 1.9% 的相對改進和高達 50.9% 的延遲。

出版物連結

微調預訓練語言模型,實現少鏡頭意圖檢測:監督預訓練和各向同化

張浩德, 梁浩文, 張玉偉, 詹黎明, 吳曉明, 盧曉磊, 林潤生博士 林毅夫, arXiv:2205.07208, 2022.

抽象

為僅包含少量註釋的面向任務的對話系統訓練良好的意圖分類器是具有挑戰性的。最近的研究表明,以監督的方式,使用來自公共基準的少量標記話語來微調預先訓練的語言模型是非常有説明的。然而,我們發現監督預訓練會產生一個各向異性特徵空間,這可能會抑制語義表示的表現力。受到最近各向同性研究的啟發,我們建議通過將特徵空間正則化為各向同性來改善監督預訓練。我們分別提出了兩種基於對比學習和相關矩陣的正則化方法,並通過廣泛的實驗證明瞭它們的有效性。我們的主要發現是,將監督預訓練與各向同性化相結合是有希望的,以進一步提高少射意圖檢測的性能。原始程式碼可以 在這個HTTPs URL上找到。

出版物連結

基於一致性的語音辨識,具有線性奈斯特羅姆注意力和旋轉位置嵌入

梁順一,拉希魯·薩馬拉孔,ICASSP 2022,2022年5月

抽象

自我注意已成為端到端(E2E)自動語音辨識(ASR)的重要組成部分。最近,具有相對位置編碼(RPE)的捲積增強變壓器(Conformer)實現了最先進的性能。然而,自我注意的計算和記憶複雜性隨著輸入序列長度呈四方增長。在處理較長的序列時,這種影響對於Conform編碼器來說可能非常大。在這項工作中,我們建議用線性複雜度Nystro ̈m注意力代替自我注意,這是基於Nystro ̈m方法的注意力分數的低秩近似。此外,我們建議使用旋轉位置嵌入(RoPE)和Nystro ̈m,因為RPE具有二次複雜性。此外,我們表明,通過從頂部編碼器層中刪除自我注意子層,可以使模型變得更輕,而不會降低性能。此外,我們證明瞭Conformer中的捲積子層可以有效地恢復由於Nystro ̈m近似而丟失的資訊。

出版物連結

長期參與眾包的兩階段拍賣機制

蒂莫西·申亨麥, 林潤生博士 林毅夫, arXiv:2202.10064, 2022.

抽象

眾包已經成為為各種人工智慧應用收集數據的重要工具,拍賣可以成為眾包平臺中分配工作和確定獎勵的有效方式。在本文中,我們專注於圖像標記和語音記錄等小任務的眾包,在這些任務中,我們面臨著許多挑戰。首先,工人對他們願意做的工作量有不同的限制,他們也可能在競標工作時錯誤地報告這些限制。其次,如果隨著時間的推移重複拍賣,不成功的工人可能會退出系統,從而減少競爭和多樣性。為了解決這些問題,我們首先將著名的邁爾森單參數競標的最佳拍賣機制的結果擴展到投標由單位工作成本,一個人願意做的最大工作量和實際完成的工作組成的情況。我們表明,一個簡單的支付機制就足以確保工人的主導策略,並且這種主導策略對工人的真正效用功能是穩健的。其次,我們提出了一種新穎、靈活的工作分配機制,允許請求者在成本效益和平等之間取得平衡。雖然成本最小化顯然很重要,但鼓勵工作分配的平等增加了工作力的多樣性,並促進了眾包平臺的長期參與。我們的主要結果經過分析驗證,並通過模擬進行驗證。

出版物連結

強大的端到端揚聲器分割,具有構象和附加裕量懲罰

梁尊一,拉希魯·薩馬拉孔,2021年演講,2021年8月

抽象

傳統上,說話人分割系統有多個組合來提取和聚集說話人嵌入。然而,端到端分割更可取,因為與傳統設置中的多個元件相比,它有助於優化一個模型。此外,端到端分割系統能夠處理重疊的語音。最近提出的基於編碼器-解碼器的自注意端到端分割化模型(EEND-EDA)能夠處理來自未知數量說話者的語音,並且報告了與傳統系統相當的性能。在這項工作中,我們的目標是證明EEND-EDA模型。首先,我們通過結合附加裕度懲罰來最小化類內方差,從而提高模型的魯棒性。其次,我們建議用Conform編碼器替換變壓器編碼器以捕獲本地資訊。第三,我們建議使用卷積子採樣和上採樣,而不是僅使用手動子採樣。我們提出的改進報告稱,在DIHARD III挑戰賽軌道2的全套評估中,DER相對降低了21.6%。

出版物連結

使用高斯混合模型的未知意圖檢測,並應用於零射意圖分類

閆廣峰、盧帆、李啟邁、劉晗、張曉彤、吳曉明、以及 林潤生博士 Y.S. Lam,在計算語言學協會2020年年會論文集,2020年7月。

抽象

使用者意圖分類在對話系統中起著至關重要的作用。由於在許多現實場景中,使用者意圖可能會隨著時間的推移而頻繁變化,因此未知(新)意圖檢測已成為一個基本問題,而研究才剛剛開始。本文提出了一種用於未知意圖檢測的語義增強型高斯混合模型(SEG)。特別是,我們使用高斯混合分佈對話語嵌入進行建模,並將動態類語義資訊注入高斯均值,從而能夠學習更多類集中嵌入,從而有助於促進下游異常值檢測。結合基於密度的異常值檢測演算法,SEG在兩種語言的三個面向任務的真實對話數據集上實現了具有競爭力的結果,用於未知意圖檢測。最重要的是,我們建議將SEG作為未知意圖標識碼集成到現有的廣義零射意圖分類模型中,以提高其性能。關於最先進的方法ReCapsNet的案例研究表明,SEG可以將分類性能推向更高的水準。

出版物連結

Deep-AIR:用於細粒度空氣污染預測的混合CNN-LSTM框架

Q. Zhang, J.C.K. Lam, Victor O.K. Li, and Y. Han, arXiv:2001.11957 [eess.SP],2020年1月。

抽象

空氣品質差已成為許多大都市日益嚴峻的挑戰,這對人類健康和生活品質帶來了許多災難性的身體和精神後果。然而,準確監測和預報空氣品質仍然是一項極具挑戰性的工作。受地理稀疏數據的限制,傳統的統計模型和新出現的以數據為導向的空氣品質預報方法主要集中在空氣污染物歷史時間數據集之間的時間相關性上。然而,實際上,空氣污染物的分佈和擴散都高度依賴於位置。在本文中,我們提出了一種新的混合深度學習模型,該模型將捲積神經網路(CNN)和長短期記憶(LSTM)結合在一起,以高解析度預測空氣品質。我們的模型可以利用空氣污染物數據集的空間相關性特徵,實現比現有的空氣污染預測深度學習模型更高的預測精度。

出版物連結

將先驗知識納入話者分離和連結中,以識別共同的發言者

梁暉奕、拉希魯·薩馬拉昆和 林潤生博士 Y.S. Lam,IEEE自動語音辨識和理解研討會(ASRU 2019)的會議記錄,2019年12月。

抽象

演講者 Diarization 和 Linking 可在沒有任何演講者註冊的情況下跨錄音發現“誰在何時發言”。對每個錄音分別執行二值化,並且連結將不同錄音中同一揚聲器的集群組合在一起。這是一種兩步法,但是它遭受了將誤差從二化步驟傳播到連結步驟的困擾。在給定的錄音集中出現一個獨特的說話者的情況下,本文旨在利用他或她存在的先驗知識來定位共同的說話者。這意味著沒有此常見揚聲器的註冊數據。我們提出了成對公共說話人識別(PCSI)方法,該方法與兩步法相比,考慮了共同說話人的存在。我們進一步表明,PCSI可用於減少兩步法的二化步驟中引入的誤差。我們的實驗是在從AMI語料庫合成的語料庫上進行的,也是在與普通話混合的內部會話電話四川語語料庫上進行的。與最先進的x向量二元化和鏈接系統相比,時間加權相等錯誤率的相對改進高達7.68%。

出版物連結

用於大數據處理和分析的五層架構

朱俊英、唐斌、李毅,李毅,《國際大數據情報雜誌》,第6卷,第38-49頁,2019年11月。

抽象

近年來,大數據技術引起了人們的廣泛關注。學術界和工業界已經達成了共識,即大數據的最終目標是將“大數據”轉化為“真正的價值”。在本文中,我們將討論如何實現這一目標,並提出大數據處理和分析(BDPA)的五層架構,包括收集層,存儲層,處理層,分析層和應用層。五層架構旨在為當前的BDPA解決方案建立一個事實標準,收集,管理,處理和分析大量的靜態數據和在線數據流,併為所有類型的行業做出有價值的決策。本文闡述了五層的功能和挑戰,並相應地討論了最新的技術和解決方案。最後,我們提出了對未來BDPA解決方案的要求,這些解決方案可以作為未來大數據生態系統的基礎。

出版物連結

從一般到特殊:使用域轉換網路的多域轉換

王毅, 王磊, 史淑嫻, 李志坤, 圖志偉, arXiv:1911.09912 [cs.CL],2019年11月。

抽象

多域翻譯的關鍵挑戰在於,在一個統一的模型中同時對跨域共用的一般知識和每個域特有的特定知識進行編碼。先前的工作表明,在混合域數據上訓練的標準神經機器翻譯(NMT)模型通常捕獲一般知識,但錯過了特定領域的知識。為了解決這個問題,我們用額外的域變換網路來增強NMT模型,以將一般表示轉換為特定於域的表示,這些表示隨後被饋送到NMT解碼器。為了保證知識轉化,我們還利用知識提煉和對抗性學習的力量,提出了兩個互補的監督信號。在平衡和不平衡多域翻譯的多個語言對上進行了實驗,驗證了所提出方法的有效性和普遍性。令人鼓舞的是,所提出的統一模型通過微調方法實現了可比較的結果,該方法需要多個模型來保存特定知識。進一步的分析表明,域轉換網路成功地捕獲了預期的域特定知識。

出版物連結

重構膠囊網路以實現零射意圖分類

劉漢,張曉彤,范璐,傅軒迪,李啟邁,吳曉明, 林潤生博士 林永生,載於2019年自然語言處理實證方法會議暨第九屆國際自然語言處理聯合會議(EMNLP-IJCNLP 2019),香港,2019年11月。

抽象

意向分類是對話系統的重要組成部分。隨著會話式AI的蓬勃發展,現有系統無法處理許多快速出現的意圖,這激發了零風險的意圖分類。然而,關於這個問題的研究仍處於起步階段,很少有可用的方法。最近提出的一種零射意圖分類方法IntentCapsNet已被證明可以實現最先進的性能。然而,它有兩個未解決的局限性:(1)在提取語義膠囊時,它不能處理多義詞;(2)在廣義的零射意圖分類設置中,它很難識別看不見的意圖的話語。為了克服這些限制,我們建議重建膠囊網路以進行零射意圖分類。首先,我們引入一種維度注意機制來對抗多義性。其次,利用標記話語的大量潛在資訊,為看不見的意圖重構變換矩陣,顯著提高了模型泛化能力。在兩個不同語言的面向任務的對話數據集上的實驗結果表明,所提出的方法優於IntentCapsNet和其他強大的基線。

出版物連結

基於半監督圖卷積網路的公共交通等待時間估計

邱啟豐, 林潤生博士 Y.S. Lam,Becky P.Y. Loo和Victor O.K. Li,載於第22屆IEEE智慧交通系統國際會議(IEEE ITSC 2019)論文集,紐西蘭奧克蘭,2019年10月。

抽象

有效的交通系統對於支持現代智慧城市中的各種人類活動非常重要。各個車站的等待時間對整體交通系統效率和人們的健康(如壓力和焦慮)有很大的影響。提前瞭解不同地點的等待時間可以説明旅行者計劃他們的旅行。然而,這種等待時間可能取決於許多因素,如擁擠和所涉及的旅行者的集體旅行行為。通常,在每個位置收集所有必需的數據非常昂貴。本文基於部分代理數據和部分車站有限歷史等待時間數據,提出一種深度學習方法,確定公共交通網站的等待時間水準。我們將公共交通網路制定為圖,並開發了基於圖卷積網路的半監督分類模型,該模型可以直接對具有有限標記數據的圖結構數據進行操作。我們用真實數據對香港的公共交通鐵路進行了實驗,我們提出的方法可以達到89%的等待時間等級分類準確率。

出版物連結

同步相量恢復和預測:一種基於圖的深度學習方法

J. J. Q. Yu, D. J. Hill, V. O. K. Li 和 Y. Hou,載於 IEEE Internet of Things Journal, vol. 6, no. 5, pp. 7348-7359, Oct. 2019.

抽象

由於通信延遲,電力系統狀態的數據完整性對於現代電網運行和控制至關重要,狀態測量不能立即在控制中心獲得,從而導致時間敏感型應用程式的回應緩慢。本文提出了一種新的基於圖的深度學習方法,利用電網拓撲和現有測量結果提前恢復和預測狀態。設計了圖卷積遞歸對抗網路來處理可用資訊並提取圖形和時間數據相關性。這種方法克服了現有同步相量恢復和預測實現的缺點,以提高整體系統性能。此外,該方法還提供了一種自適應數據處理方法來處理各種規模的電網。通過算例分析,該方法具有出色的恢復和預測精度,並進行了調查,以說明其對不良通信條件、測量雜訊和系統拓撲變化的魯棒性。

出版物連結

通過忽略虛假相關性改進零次神經機器翻譯

J. Gu, Y. Wang, K. Cho, and Victor O.K. Li, in Proceedings of the Association for Computational Linguistics (ACL) 第 57 屆年會論文集,義大利佛羅倫薩,2019 年 7 月。

抽象

零次翻譯,即在神經機器翻譯 (NMT) 系統從未訓練過的語言對之間進行翻譯,是在多語言環境中訓練系統時的一種緊急屬性。然而,對於零次NMT的樸素訓練很容易失敗,並且對超參數設置很敏感。性能通常遠遠落後於更傳統的基於樞軸的方法,該方法使用第三種語言作為樞軸進行兩次翻譯。在這項工作中,我們通過定量分析源語言ID和解碼句子之間的相互信息來解決由於捕獲虛假相關性而導致的簡併問題。受此分析的啟發,我們建議使用兩種簡單但有效的方法:(1)解碼器預訓練;(2)反向翻譯。這些方法在三個具有挑戰性的多語言數據集上比普通零次翻譯有顯著改善(4~22 BLEU分),並且取得了與基於樞軸的方法相似或更好的結果。

出版物連結

用於旅行需求和始發目的地預測的深度多尺度捲積LSTM網路

邱啟豐, 林潤生博士 Y.S. Lam和Victor O.K. Li將出現在IEEE Transactions on Intelligent Transportation Systems,2019年。

抽象

感測和物聯網 (IoT) 技術的進步會產生大量數據。移動按需 (MoD) 服務受益於智慧交通系統中大數據的可用性。根據未來的旅行需求或出發地-目的地(OD)流量預測,服務提供者可以將未佔用的車輛預先分配到客戶的服務來源,以減少等待時間。關於未來旅行需求和 OD 流預測的傳統方法依賴於統計或機器學習方法。本文受圖像和視頻處理深度學習技術的啟發,通過以圖像圖元為單位的局部出行需求,提出了一種名為多尺度捲積長短期記憶網路(MultiConvLSTM)的新型深度學習模型。我們不是使用可能導致地理資訊丟失的傳統OD矩陣,而是提出一種新的數據結構,稱為OD張量來表示OD流,並引入了一種稱為OD張量排列和矩陣化的操作方法來處理OD張量的高維特徵。MultiConvLSTM考慮了時間和空間相關性,以預測未來的旅行需求和OD流量。對大約4億條記錄的真實紐約計程車數據進行了實驗。結果表明,MultiConvLSTM在一步和多步預測中都達到了最高的精度,並且優於現有的旅行需求和OD流量預測方法。

出版物連結

資源匱乏環境中端到端語音辨識的域適配

Lahiru Samarakoon, Brian Mak, 和 林潤生博士 Y.S. Lam. IEEE口語技術研討會(IEEE SLT 2018),希臘雅典,2018年12月。

抽象

端到端自動語音辨識 (ASR) 簡化了傳統的 ASR 系統構建管道,無需具有多個元件,也無需創建發音詞典所需的專家語言知識。因此,端到端 ASR 非常適合為新域構建系統。然而,端到端ASR的一個主要缺點是,與傳統方法相比,有必要具有更多的標記語音。因此,在本文中,我們探討了在資源匱乏環境中端到端ASR的領域適應方法。我們通過在標籤序列的開頭插入域符號、因數化隱藏層自適應和域特異性門控機制,證明瞭聯合域識別和語音識別可以提高低資源目標域的性能。此外,我們還展示了所提出的適應方法對看不見的領域的魯棒性,當只有3小時的未轉錄數據可用時,相對報告高達8.7%的改進。

出版物連結

基於子空間的具有前饋層的LSTM聲學模型的序列判別訓練

Lahiru Samarakoon, Brian Mak, 和 林潤生博士 Y.S. Lam. ISCSLP,台灣臺北,2018年11月。

抽象

最先進的自動語音辨識(ASR)系統使用序列判別訓練來提高幀級跨熵(CE)標準的性能。儘管序列判別訓練改善了長短期記憶(LSTM)遞歸神經網路(RNN)聲學模型(AM),但尚不清楚這些系統是否由於過擬合而達到最佳性能。本文研究了狀態級最小貝葉斯風險(sMBR)訓練對LSTM AM的影響,並表明通過更新所有LSTM參數來執行sMBR的傳統方法不是最優的。我們研究了兩種方法來提高LSTM AM序列判別訓練的性能。在最後一個LSTM層和輸出層之間包含更多的前饋(FF)層,因此這些額外的FF層可能更適合sMBR訓練。其次,在對AM的LSTM層執行 sMBR 時,將子空間估計為1級矩陣的插值。我們的方法在基準 AMI 單距離麥克風 (SDM) 任務中進行了評估。我們發現,與強大的sMBR訓練的LSTM基線相比,所提出的方法提供了1.6%的絕對改進。

出版物連結

基於深度多尺度捲積LSTM網路的出行需求預測

邱啟豐, 林潤生博士 Y.S. Lam和Victor O.K. Li. 第21屆IEEE智慧交通系統國際會議(IEEE ITSC 2018),夏威夷州毛伊島,2018年11月。

抽象

按需移動性改變了人們在城市中的出行方式,並促進了即時車輛租賃服務。鑒於預測的未來旅行需求,服務提供者可以協調其可用車輛,以便提前將其預先分配給客戶的服務來源,以減少等待時間。未來旅行需求預測的傳統方法依賴於統計或機器學習方法。感測器技術的進步產生了大量的數據,這使得數據驅動的智慧交通系統成為可能。本文受圖像和視頻處理的深度學習技術的啟發,通過將出行需求作為圖像圖元值,提出了一種新的深度學習模型,稱為多尺度卷積長短期記憶(MultiConvLSTM)。MultiConvLSTM考慮了時間和空間相關性,以預測未來的旅行需求。對現實世界的紐約計程車數據進行了實驗,其中包含大約4億條記錄。結果表明,MultiConvLSTM優於現有的出行需求預測方法,在一步預測和多步預測中都達到了最高的準確度。

出版物連結

延遲感知電源系統同步相量恢復和預測框架

余俊強, 林潤生博士 Y.S. Lam,David J. Hill,Yunhe Hou和Victor O.K. Li. IEEE Transactions on Smart Grid,2018年。

抽象

本文提出了一種新型的時延感知同步相量恢復與預測框架,以解決由於通信時延的存在而導致電力系統狀態變數缺失的問題。此功能對於由於系統事件或故障而需要快速補救控制操作的動態電力系統方案尤其重要。雖然廣域測量系統可以使用相量測量單元對高頻系統狀態進行採樣,但由於延遲和數據丟失,控制中心無法即時獲取它們。本文提出了一種同步相量恢復與預測框架及其實際實現,以利用現有的不完全同步相量數據恢復當前系統狀態並預測未來狀態。該框架建立了一個反覆運算預測方案,並提出了一個實現,並採用了數據處理中最新的機器學習進展。模擬結果表明,該框架具有較高的精度和速度,並研究了其對各種通信時延模式的敏感性,以求實用化應用。

出版物連結

使用同步相量恢復和預測框架進行延遲感知瞬態穩定性評估

James J.Q. Yu, David J. Hill, 和 林潤生博士 Y.S. 林. 神經計算, 2018.

抽象

瞬態穩定性評估對於電力系統的運行和控制至關重要。現有的相關研究提出了一個強有力的假設,即系統變數測量到達控制中心的數據傳輸時間可以忽略不計,這是不現實的。本文重點介紹了數據傳輸延遲對基於同步相量的瞬態穩定性評估的影響。特別是,我們採用最近提出的一種名為同步相恢復和預測框架的方法來處理延遲問題並彌補缺失的同步相量。採用先進的深度學習技術來利用處理后的數據進行評估。與現有工作相比,我們提出的機制可以做出準確的評估,回應速度明顯更快。

出版物連結

智慧時間自適應瞬態穩定評估系統

詹姆斯·朱俊傑, 大衛·希爾, 林潤生博士 Y.S. Lam, Jiatao Gu, and Victor O.K. Li. IEEE Transactions on Power Systems, vol. 33, no. 1, pp. 1049–1058, Jan. 2018.

抽象

在線識別接電后暫態穩定性在電力系統控制中至關重要,因為它有助於電網運營商決定和協調系統故障糾正控制動作。隨著廣域保護和控制系統的逐步部署,利用機器學習方法與同步相量測量進行瞬態穩定性評估最近受到廣泛關注。本文基於長短期記憶網路開發了一種暫態穩定性評估系統。通過提出時間自適應方案,我們提出的系統旨在平衡評估準確性和回應時間之間的權衡,這兩者在現實世界中可能至關重要。與之前的工作相比,最顯著的增強是我們的系統從輸入數據的時間數據依賴性中學習,這有助於提高評估的準確性。此外,我們系統的模型結構相對不那麼複雜,加快了模型訓練過程。對3個電力系統的算例驗證了所提出的暫態穩定性作為隔離系統的有效性.

出版物連結

神經機器翻譯與 Gumbel-Greedy 解碼

顧炳炳, 林志雄, 李安國教授.AAAI人工智慧會議(AAAI),2018年。

抽象

以前的神經機器翻譯模型使用了一些啟發式搜索演算法(例如,波束搜索),以避免在測試時解決翻譯句子的最大后驗問題。在本文中,我們提出了Gumbel-Greedy解碼,它訓練生成網路以在訓練模型下預測翻譯。我們使用Gumbel-Softmax重參數化來解決這樣的問題,這使得我們的生成網路可以通過標準的隨機梯度方法進行微分和訓練。我們通過經驗證明,我們提出的模型對於生成離散詞序列是有效的。

出版物連結

非自回歸神經機器翻譯

顧嘉奕, 詹姆斯·布拉德伯里, 熊凱明, 李安國教授,理查·索徹。學習表示國際會議(ICLR),2018年。

抽象

現有的神經機器翻譯方法將每個輸出字都放在以前生成的輸出上。我們引入了一個模型,該模型避免了這種自回歸屬性,並並行生成其輸出,從而在推理過程中允許延遲降低一個數量級。通過知識提煉,使用輸入令牌肥力作為潛在變數,以及政策梯度微調,相對於用作教師的自回歸變壓器網路,我們以低至2.0 BLEU點的成本實現這一目標。我們展示了與培訓策略的三個方面相關的實質性累積改進,並驗證了我們在IWSLT 2016英語 - 德語和兩個WMT語言對上的方法。通過在推理時間並行採樣肥沃,我們的非自回歸模型在WMT 2016英語 - 羅馬尼亞語上實現了29.8 BLEU的近一流性能。

出版物連結

適用於極低資源語言的通用神經機器翻譯

顧吉塔奧, 哈尼·哈桑, 雅各·德夫林, 李安國教授.計算語言學協會(NAACL)北美分會會議,2018年。

抽象

在本文中,我們提出了一種新的通用機器翻譯方法,專注於並行數據量有限的語言。我們提出的方法利用遷移學習方法,將多種源語言的詞法和句子級表示形式共用為一種目標語言。詞法部分通過通用詞法表示共用,以支援多語言單詞級共用。句子級共用由來自所有源語言的專家模型表示,這些源語言與所有其他語言共用源編碼器。這使得低資源語言能夠利用高資源語言的詞法和句子表示。我們的方法能夠使用6k句子的小型並行語料庫在羅馬尼亞語 - 英語WMT2016上實現23 BLEU,而使用多語言培訓和反向翻譯的強大基線系統的18 BLEU。此外,我們表明,通過在零次設置下微調預先訓練的多語言系統,所提出的方法可以在同一數據集上實現近20 BLEU。

出版物連結

時延感知智慧暫態穩定評估系統

余俊強, 林潤生博士 Y.S. Lam, David J. Hill, and Victor O.K. Li. IEEE Access, vol. 5, pp. 17230–17239, Dec. 2017.

抽象

瞬態穩定性評估是電力系統設計和運行的關鍵工具。隨著先進同步相量測量技術的不斷湧現,機器學習方法在電力系統穩定性評估中發揮著越來越重要的作用。然而,大多數現有研究都做出了一個強有力的假設,即測量數據傳輸延遲可以忽略不計。本文重點介紹通信時延對基於同步相量的瞬態穩定性評估的影響。特別是,我們開發了一種延遲感知智慧系統來解決這個問題。通過利用多個長短期記憶網路的集合,所提出的系統可以進行早期評估,通過利用不完整的系統變數測量來實現更短的響應時間。與現有工作相比,我們的系統能夠做出準確的評估,並顯著提高效率。我們進行了大量案例研究,以證明所提出的智慧系統的優越性,其中可以隨著時間的推移開發準確的評估,比最先進的方法少三分之一。此外,模擬結果表明,測量中的雜訊對評估性能的影響微不足道,證明瞭所提系統的魯棒性。

出版物連結

基於異質空氣質量估計的擴展時空格蘭傑因果關係模型

Zhu, J.Y., Sun, C., and Li, V.O.K., IEEE Transactions on Big Data, vol. 3, no. 3, pp. 307-319, Jul. 2017.

抽象

本文涉及地理上稀疏的有限空氣品質監測站進行全市空氣質量估計。由於空氣污染受到整個城市可用的城市動態(例如氣象和交通)的影響,因此我們可以根據這種時空(ST)異質城市大數據推斷出沒有監測站的區域空氣品質。然而,大數據支持的估計帶來了三個挑戰。第一個挑戰是數據多樣性,即存在許多不同類別的城市數據,其中一些可能對估計無用。為了克服這一點,我們將格蘭傑因果關係擴展到ST空間,以一致的方式分析所有因果關係。第二個挑戰是由於處理大量數據而導致的計算複雜性。為了克服這一點,我們引入了非因果關係測試,以排除不會“格蘭傑”造成空氣污染的城市動態,以及影響區域(ROI),這使我們能夠僅分析具有最高因果關係水平的數據。第三個挑戰是使我們基於網格的演演算法適應非基於網格的應用。通過開發靈活的基於網格的估計演算法,我們可以在保持計算效率的同時減少基於網格的演算法造成的不準確性。

出版物連結

搜尋引擎引導的非參數化神經機器翻譯

Gu, J., Wang, Y., Cho, K, and Li, V.O.K., arXiv: 1705.07267, May 2017.

抽象

在本文中,我們擴展了基於注意力的神經機器翻譯(NMT)模型,允許它即使在訓練后也能訪問整個並行句子對的訓練集。擬議的方法包括兩個階段。在第一階段 - 檢索階段--,一個現成的黑盒搜尋引擎用於從給定源句子的訓練集中檢索句子對的一小部分。這些對基於編輯距離的模糊匹配分數進一步過濾。在第二階段 - 翻譯階段--,一種稱為翻譯記憶庫增強型NMT(TM-NMT)的新型翻譯模型,無縫地使用源句子和一組檢索到的句子對來執行翻譯。對三個語言對(En-Fr,En-De和En-Es)的實證評估表明,所提出的方法明顯優於基線方法,並且當檢索到更相關的句子對時,改進更為顯著。

出版物連結

零資源神經機器翻譯的師生框架

陳毅, 劉, Y., 程, Y., 李, V.O.K., arXiv:1705.00753, 2017.

抽象

雖然端到端神經機器翻譯(NMT)最近取得了顯著進展,但它仍然受到低資源語言對和域的數據稀缺問題的困擾。在本文中,我們提出了一種零資源NMT的方法,假設平行句子在第三語言中生成句子的概率接近。基於這一假設,我們的方法能夠在沒有並行語料庫的情況下訓練源到目標NMT模型(“學生”),由源透視並行語料庫上現有的樞軸到目標NMT模型(“教師”)指導。實驗結果表明,與基於基線透視的模型相比,該方法在各種語言對上顯著提高了+3.0 BLEU點。

出版物連結

基於小波的深度神經網路微電網智慧故障檢測方案

余俊強, 侯雲和, 林潤生博士 Y.S. Lam和Victor O.K. Li將出現在IEEE Transactions on Smart Grid上,2017年。

抽象

故障檢測在微電網控制和操作中至關重要,因為它使系統能夠執行快速的故障隔離和恢復。在微電網中採用逆變器介面的分散式發電使得傳統的故障檢測方案由於依賴於顯著的故障電流而變得不合適。本文設計了一種基於小波變換和深度神經網路的微電網智慧故障檢測方案。該方案旨在為微電網保護和業務恢復提供快速的故障類型、相位和位置資訊。在該方案中,通過離散小波變換對保護繼電器採樣的分支電流測量值進行預處理,以提取統計特徵。然後將所有可用數據輸入到深度神經網路中以開發故障資訊。與以往的工作相比,該方案能夠顯著提高故障類型分類精度。此外,該方案還可以檢測故障的位置,這些位置在以前的工作中不可用。為了評估所提出的故障檢測方案的性能,我們對CERTS微電網和IEEE 34總線系統進行了全面的評估研究。模擬結果驗證了所提方案在檢測精度、計算時間和對測量不確定度的魯棒性等方面的有效性。

出版物連結

用於神經機器翻譯的可訓練貪婪解碼

顧, J., Cho, K., Li, V.O.K., arXiv:1702.02429, 2017.

抽象

最近對神經機器翻譯的研究主要集中在兩個方面;神經網路架構和端到端學習演算法。然而,解碼問題在研究界受到的關注相對較少。在本文中,我們僅關注給定訓練神經機器翻譯模型的解碼問題。我們沒有嘗試為任何特定的解碼目標構建新的解碼演算法,而是提出了可訓練解碼演算法的想法,在這種演算法中,我們訓練解碼演算法以找到最大化任意解碼目標的翻譯。更具體地說,我們設計了一個觀察和操縱神經機器翻譯解碼器隱藏狀態的參與者,並建議使用確定性策略梯度的變體來訓練它。我們使用四個語言對和兩個解碼目標對所提出的演算法進行了廣泛的評估,並表明我們確實可以訓練一個可訓練的貪婪解碼器,以最小的計算開銷生成更好的翻譯(就目標解碼目標而言)。

出版物連結

用於在線和歷史大數據分析的四層架構

Zhu, J. Y., Xu, J, and Li, V.O.K., PROC. IEEE DataCom, Oakland, New Zealand, Aug 2016.

抽象

近年來,大數據處理和分析技術引起了人們的廣泛關注。然而,最近在線數據流的爆炸式增長給現有技術帶來了新的挑戰。這些在線數據流往往是巨大的,不斷到達的,異構的,時變的和無限的。因此,有必要採用綜合方法來處理大靜態數據和在線大數據流。我們將這種集成方法稱為在線和歷史大數據分析(OHBDA)。我們提出了OHBDA的四層架構,即包括存儲層,在線和歷史數據處理層,分析層和決策層。將進一步討論這四層的功能和挑戰。最後,我們討論了未來OHBDA解決方案的要求,這可能成為未來大數據分析研究的基礎。

出版物連結

在序列到序列學習中加入複製機制

Gu, J., Lu, Z., Li, H., and Li, V.O.K., 計算語言學協會 (ACL) 年會,德國柏林,2016 年 8 月。

抽象

我們解決了序列到序列(Seq2Seq)學習中的一個重要問題,稱為複製,其中輸入序列中的某些段在輸出序列中有選擇地複製。在人類語言交流中也可以觀察到類似的現象。例如,人類傾向於在對話中重複實體名稱甚至長短語。在 Seq2Seq 中複製的挑戰是需要新機器來決定何時執行操作。在本文中,我們將複製整合到基於神經網路的Seq2Seq學習中,並提出了一種具有編碼器 - 解碼器結構的名為CopyNet的新模型。CopyNet可以將解碼器中的常規單詞生成方式與新的複製機制很好地集成在一起,該機制可以選擇輸入序列中的子序列並將其放在輸出序列中的適當位置。我們對合成數據集和現實世界數據集的實證研究證明瞭CopyNet的有效性。例如,CopyNet可以優於常規的基於RNN的模型,在文本摘要任務上具有顯著的邊距。

出版物連結

基於城市大數據的大氣污染時空因果關係高斯貝葉斯模型

Zhu, J. Y., Zheng, Y., Yi, X., and Li, V.O.K., SmartCity16: The 2nd IEEE INFOCOM Workshop on Smart Cities and Urban Computing, San Francisco, California, USA, April 2016.

抽象

確定空氣污染物的因果關係並回答諸如北京空氣污染物來自何處等問題,對於為政府決策提供信息至關重要。本文通過挖掘城市大數據,識別了不同位置空氣污染物之間的時空因果關係。這具有挑戰性,原因有兩個:1)由於空氣污染物可以在本地產生或從附近分散,因此我們需要從許多候選位置以時間效率發現ST空間中的原因;2)空氣污染物之間的因果關係受到氣象學等混雜變數的進一步影響。為了解決這些問題,我們提出了一個具有兩個分量的耦合高斯貝葉斯模型:1)高斯貝葉斯網路(GBN)來表示空氣污染物之間的因果關係,使用基於熵的演算法來有效地定位ST空間中的原因;2)將因果關係與氣象學相結合的耦合模型,以更好地學習參數,同時消除混雜的影響。利用2013年6月1日至2015年5月1日期間52個城市的空氣品質和氣象數據對所提出的模型進行了驗證。結果表明,我們的模型在時間效率和預測準確性方面都優於基線因果關係學習方法。

出版物連結

學習使用神經機器翻譯進行實時翻譯

Gu, J., Neubig, G., Cho, K., and Li, V.O.K., arXiv:1610.00388, 2016.

抽象

實時翻譯,又名同聲傳譯,在輸入句子結束之前輸出翻譯詞,這對於傳統的機器翻譯方法來說是一個具有挑戰性的問題。我們提出了一個用於同聲傳譯的神經機器翻譯(NMT)框架,其中代理學習從與預先訓練的NMT環境的交互中決定何時翻譯。為了權衡品質和延遲,我們廣泛探索了各種延遲目標,並設計了一種適用於同步機器翻譯設置的波束搜索方法。針對兩個語言對的最新基線的實驗在定量和定性上證明瞭所提出的框架的有效性。

出版物連結

Pg-因果關係:利用城市大數據識別空氣污染物的時空因果途徑

朱俊英, 張, 春, 志, S., 李, V.O.K., 韓, 金俊, 鄭, Y., arXiv:1610.07045, 2016.

抽象

Many countries are suffering from severe air pollution. Understanding how different air pollutants accumulate and propagate is critical to making relevant public policies. In this paper, we use urban big data (air quality data and meteorological data) to identify the \emph{spatiotemporal (ST) causal pathways} for air pollutants. This problem is challenging because: (1) there are numerous noisy and low-pollution periods in the raw air quality data, which may lead to unreliable causality analysis, (2) for large-scale data in the ST space, the computational complexity of constructing a causal structure is very high, and (3) the \emph{ST causal pathways} are complex due to the interactions of multiple pollutants and the influence of environmental factors. Therefore, we present \emph{p-Causality}, a novel pattern-aided causality analysis approach that combines the strengths of \emph{pattern mining} and \emph{Bayesian learning} to efficiently and faithfully identify the \emph{ST causal pathways}. First, \emph{Pattern mining} helps suppress the noise by capturing frequent evolving patterns (FEPs) of each monitoring sensor, and greatly reduce the complexity by selecting the pattern-matched sensors as "causers". Then, \emph{Bayesian learning} carefully encodes the local and ST causal relations with a Gaussian Bayesian network (GBN)-based graphical model, which also integrates environmental influences to minimize biases in the final results. We evaluate our approach with three real-world data sets containing 982 air quality sensors, in three regions of China from 01-Jun-2013 to 19-Dec-2015. Results show that our approach outperforms the traditional causal structure learning methods in time efficiency, inference accuracy and interpretability.

出版物連結

無向主題模型的高效學習

Gu, J. and Li, V.O.K., PROC. ACL-IJCNLP, 北京, 中國, 2015年7月.

抽象

複製的Softmax模型是一種眾所周知的無向主題模型,在提取文檔的語義表示方面非常強大。傳統的學習策略,如對比背離,效率非常低下。本文提供了一種新穎的估計器,以加速基於雜訊對比度估計的學習,並針對變體長度和加權輸入的文檔進行了擴展。在兩個基準上的實驗表明,新的估計器在文檔檢索和分類方面實現了很高的學習效率和高精度。

出版物連結

基於格蘭傑因果關係的空氣品質估算與時空(S-T)異構大數據

Zhu, Y., Sun.C., and Li, V.O.K., PROC. IEEE INFOCOM 智慧城市研討會,中國香港,2015 年 4 月。

抽象

本文考慮了全市範圍的空氣質量估計,其中可用的監測站有限,這些監測站在地理上是稀疏的。由於空氣污染高度依賴於時空(S-T),並且受到城市動態(例如氣象和交通)的很大影響,因此我們可以推斷出具有S-T異構城市大數據的監測站未覆蓋的空氣品質。然而,使用S-T異構大數據估算空氣質量帶來了兩個挑戰。第一個挑戰是由於數據的多樣性,即存在不同類別的城市動態,有些可能對估計無用甚至有害。為了克服這一點,我們首先提出了一個S-T擴展的格蘭傑因果關係模型,以一致的方式分析城市動態中的所有因果關係。然後,通過實施非因果關係測試,我們排除了不會「格蘭傑」造成空氣污染的城市動態。第二個挑戰是由於處理大量數據時的時間複雜。我們建議通過選擇在空間和時間上具有最高因果關係水平的數據來發現影響區域(ROI)。結果表明,我們使用「部分」數據比“全部”數據獲得更高的準確性。這可以通過最有影響力的數據消除冗餘或雜訊數據引起的錯誤來解釋。使用來自中國深圳的數據對因果關係模型觀測和全市空氣品質圖進行圖解和可視化。

出版物連結

用於構建基於WIFI的室內定位RSSI指紋圖的時空(S-T)相似性模型

朱玉玉,鄭旭,徐,J.和李,V.O.K.,第五屆室內定位和室內導航國際會議(IPIN 2014),韓國釜山,2014年10月。

抽象

基於WIFI的接收信號強度指示器(RSSI)指紋識別由於具有通用性,隱私保護和低部署成本等理想功能,被廣泛用於室內定位。RSSI指紋識別的關鍵是構建一個可信的RSSI映射,其中包含不同校準點的接收接入點(AP)信號強度的測量值。可以通過將即時 RSSI 與 RSSI 地圖進行匹配來估計位置。但是,細粒度的地圖需要大量的勞動和時間。這需要開發有效的插值和近似方法。此外,由於環境變化,RSSI地圖需要定期更新,以確保定位的準確性。在本文中,我們提出了一種時空(S-T)相似性模型,該模型利用S-T相關來構建細粒度和最新的RSSI映射。提出了空間距離、信號相似性、相似性似然、RSSI向量距離和S-T可靠性5個S-T相關指標。該模型是根據我們室內WIFI定位系統測試台的實驗進行的。結果顯示,與線性插值、三次插值、最近鄰插值和壓縮感測這四種常用的RSSI地圖構建方法相比,插值精度(高達7%)和定位精度(高達32%)均有所改善。

出版物連結

雲存儲系統中訪問延遲的性能模型

Shuai, Q., Li, V.O.K., and Zhu, Y., Proc. 第四屆大數據架構和系統研討會,美國明尼蘇達州明尼阿波利斯,2014 年 6 月 14 日。

抽象

訪問延遲是雲存儲系統的關鍵性能指標,對用戶體驗有很大的影響,但大多數論文都側重於其他性能指標,如存儲開銷、修復成本等。直到最近,一些模型才認為編碼可以減少訪問延遲。但是,它們是為特殊情況開發的,這些情況可能無法反映現實。為了填補現有工作與實踐之間的空白,在本文中,我們提出了一個更實用的模型來測量訪問時延。此模型還可用於比較不同公司使用的不同代碼的訪問延遲。據我們所知,該模型是第一個提供一種通用方法來比較不同擦除代碼的訪問延遲的模型。

出版物連結