智慧水務是目前水務事業(yè)發(fā)展的重要方向,機器學習作為實現人工智能的主要方法,在水務智慧化中有巨大的應用前景。本文從飲用水處理系統(tǒng)、排水處理系統(tǒng)和新技術研發(fā)三個方面,對機器學習的應用進行總結與評述。本文為下篇,將總結污水處理系統(tǒng)方面處理過程控制、能耗節(jié)約、工藝效率提高、膜污染控制、故障診斷等方面的機器學習方法;歸納新技術研發(fā)方面機器學習在污染物高效去除的吸附與氧化等技術中的創(chuàng)新研究。最 后,系統(tǒng)分析了不同模型的優(yōu)缺點與使用范圍,對智慧水務中機器學習模型的選擇和應用有一定的指導意義。
上篇綜述了飲用水處理體系方面機器學習在水質水量、藥劑投加、氯消毒等方面的應用。
引用本文:皇甫小留,王晶瑞,龍鑫隆,等. 機器學習在水處理系統(tǒng)中的應用[J]. 給水排水,2022,48(11):153-165.
通信作者
皇甫小留
博士,教授。主要研究方向是智慧水環(huán)境科學,水環(huán)境鉈污染防控。
機器學習在污水處理系統(tǒng)中的應用
污水處理廠對降低水體污染物水平和提高水環(huán)境質量有重要意義。由于進出水水質、水量、各種污染物濃度、處理工藝等的差異,污水處理過程中包含了復雜的時變物理化學生物反應,因此污水處理過程控制要求操作人員具有豐富操作經驗,能夠及時發(fā)現數據異常。愈加嚴格的污水處理排放標準促使污水處理技術和整體管理更加精 準化和智能化,機器學習的應用可能有助于解決這一難題。本文總結了機器學習在污水處理工藝中處理過程控制、能耗節(jié)約、工藝效率提高和膜污染控制等方面的應用。
3.1 處理過程控制
污水處理的目的是去除污水中有機物、重金屬、氮磷等污染物,處理效果主要根據化學需氧量(COD)、生化需氧量(BOD5)、總氮(TN)等參數間接評估。若能提前預知出水水質參數,及時調整處理過程,便能取得最 好的處理效果。然而在實際處理中這些參數的監(jiān)測存在時滯性,往往滯后于操作,因此引入具有預測性能的機器學習算法有助于優(yōu)化污水處理的過程控制。PATTANAYAK等以超過16 000個數據樣本對比了MLR、MLP、SVR、RF和K-最近鄰(k-nearest neighbor, KNN)等模型對污水處理廠實時COD的預測能力,結果表明KNN模型響應時間短,準確性高,表現最 佳??紤]廢水處理的非線性,LIU等引入時滯系數,結合ELM提出了一種動態(tài)核極值學習機,用于預測出水COD。與單一偏最 小二乘法、ELM、動態(tài)ELM和核ELM模型相比,該模型精度更高。MIAO等考慮不同處理工藝運行參數,對比了SVR、LSTM和門控循環(huán)單元神經網絡等模型對污水處理廠COD去除效率的預測精度,結果表明門控循環(huán)單元神經網模型效果最 佳。針對高污染狀況,XGBoost方法具有魯棒性、建模非正態(tài)變量能力和缺失值快速估計能力,因此該模型適合高濃度廢水參數評估問題。在保證精度的同時減少了RBF算法的節(jié)點,可以有效降低計算量,使模型更加緊湊;誤差校正和二階學習算法提高了模型的學習能力和泛化能力。相對于RBF、最 小資源分配網絡和廣義生長等模型,自適應任務導向徑向基函數對出水BOD和TN的預測,表現出更高的精度。另外,也可以利用灰度相關優(yōu)化后的可見-近紅外光譜對污水水質進行定量估算。以上方法說明機器學習在預測單一水質參數方面具有較高的精 確度,但多種出水水質參數間存在一定聯(lián)系,單獨預測可能會忽略彼此間的聯(lián)系,且每次僅預測一個參數對于整個污水處理體系參數預測來說無疑的耗時耗力,因此多輸出參數預測模型被建立?;贛LP-ANN和RBF-ANN對SBR工藝進行模擬,研究進水水質參數與控制參數對低濃度總懸浮固體(Total suspended solids,TSS)、總磷(Total phosphorus,TP)、COD和NH4+-N的去除效率的影響。相對于ANN,自適應神經模糊推理系統(tǒng)克服了ANN模型易陷入局部最 優(yōu)、受輸入參數缺失影響較大等缺點,也可以根據約束函數等優(yōu)化設計,因此其對SS、COD和pH的預測性能要高于ANN。
3.2 能耗節(jié)約
污水處理過程中需要進行長時間曝氣、加藥、水泵回流等操作,這些過程既影響出水水質,也會影響運行成本。在保證出水水質達標的前提下,盡可能降低水處理運行成本是機器學習在污水處理中的一個重要作用。生物過程中的隨機擾動較多,運用比例積分微分控制器(Proportion integration differentiation, PID)和先進模糊控制可以更自然地將人為經驗轉化為機器操作,集合成熟的變頻調控技術等實時跟蹤負荷變化,實現曝氣量的優(yōu)化控制。針對污水處理廠化學除磷過程中加藥量優(yōu)化的問題,廣州某污水處理廠結合模糊技術與常規(guī)PID控制算法建立復合控制器,并與前饋的智能控制策略聯(lián)合使用,實現了流量的精 準控制,節(jié)約40%~50%的除磷藥劑量。另外,回流泵能耗也是污水處理運行成本中重要的組成部分,以最 小化能耗和最 大化泵送廢水流量為目標,基于泵的能耗組件及能耗模型,建立了雙目標優(yōu)化自適應神經網絡模型,在保證性能的同時節(jié)約能耗。
3.3 工藝效率提高
污水處理過程中各環(huán)節(jié)間各自獨立又相互關聯(lián),提高每個環(huán)節(jié)的處理效率是節(jié)約污水處理成本、優(yōu)化污水處理技術效率、保證處理效果穩(wěn)定的有效方法。將機器學習與控制系統(tǒng)相結合,利用機器學習的學習、識別、預測、模擬等能力,可以實現優(yōu)化控制,提高運行效率。HOLENDA等針對復雜的污水處理過程,提出了基于溶解氧(DO)線性狀態(tài)空間模型的DO預測控制器。將所設計的預測控制器應用于好氧處理過程和交替式活性污泥過程實際控制,利用仿真模型進行性能評估,并分析研究了不同控制器參數對于預測控制器性能的影響。BELCHIOR等為了實現對污水處理DO濃度的控制,建立自適應模糊控制模型,控制輔助控制器平滑切換監(jiān)督與非監(jiān)督控制模式。基于時間序列控制間歇式活性污泥法反應器(Sequencing batch reactor activated sludge process, SBR),通過由監(jiān)測層、管理層和控制層組成的三層網絡控制系統(tǒng)分析影響去除有機物及脫氮過程的因素,從而實現智能控制。LIU等提出的了串級控制系統(tǒng),由預測控制模型和比例積分導數控制器分別控制出水中和缺氧池硝酸鹽的濃度,進而保證出水質量。PIRES等提出了基于模糊邏輯規(guī)則的專家控制系統(tǒng),監(jiān)測并調控水流通道和回流管道流速,從而改變生物池中碳氮比例,最終將硝化效率和反硝化效率分別提高至50%和85%。綜上所述,模糊算法可以將人為操作、經驗等轉化為機器語言,使設備實現自動化控制,因此在提高設備工作效率方面,模糊控制具有巨大優(yōu)勢。
3.4 膜污染控制
膜污染是造成膜使用壽命短、處理工藝成本高的主要因素,也是阻礙膜處理技術發(fā)展的重大障礙。利用機器學習方法分析膜污染的形成過程,探究膜污染的影響因素,有助于減緩膜污染速度,對膜的設計優(yōu)化也有一定的指導作用。影響膜污染的因素眾多,相互聯(lián)系密切,這將導致輸入變量矩陣結果復雜。因此先利用PCA算法與對輸入因素進行分類,再將相關數據輸入BPNN模型進行擬合,這樣既提高模型的準確度,又降低了計算的復雜性。LI等也通過上述步驟,確定混合液懸浮固體濃度、阻力和跨膜壓力三個指標作為影響MBR膜通量的主要因素,之后,對比BPNN、SVM和RF三種模型對膜污染進行預測。其中,RF對膜通量的預測效果最 好。針對膜材料對膜性能的影響問題,HONG等對膜材料的污染特性進行了研究,結果表明纖維素酯的污染率明顯低于聚偏氟乙烯。ALHADIDI等研究表明疏水性膜比親水性膜更容易被污染。遺傳編程在預測膜污染率中也表現出較高的適用性,一個利用遺傳編程的模型以操作條件(流量和固定時間)和水質條件(濁度、溫度和pH)為輸入參數,構建膜污染函數,對膜的性能進行準確評估。HAN等建立了基于已有知識的模糊廣義模型,從人文范疇資料中提取先關知識,利用模糊模型彌補缺失數據集。通過模型的分類識別功能進行膜污染的早期預警,并為膜污染提供操作建議。WOO等根據跨膜壓力和次氯酸鈉劑量提取影響因素,利用機器學習建立維護預測系統(tǒng)。該系統(tǒng)對膜老化進行判斷,解釋污染過程中功能參數間關系,進而推測膜的壽命,并對膜更換時間和膜維護提出建議。
3.5 故障診斷
污水處理過程是一個復雜的整體,包含著多種復雜的生物化學反應,每一個環(huán)節(jié)的偏差都將間接影響出水水質,因此污水處理廠中安裝著各種水質參數監(jiān)測設備,實時監(jiān)測各污水處理設施的水質參數。并根據這些數據判斷是否出現故障,以及時處理。進水水質的不穩(wěn)定性導致水質參數具有一定的波動性,需要工作人員有豐富的經驗判斷監(jiān)測數值是否正常。近年來,機器學習逐漸被應用于污水處理過程中的故障診斷方面。故障共分為個別故障、上下文故障和集體故障。故障監(jiān)測方法可分為三大類:統(tǒng)計方法、學習模型和時間序列模型。統(tǒng)計方法和學習模型方法可以精 準捕獲個別故障和上下文故障,應用范圍較廣。但在集體故障的時間模式中,這兩個方法往往無法取得滿意的效果。因此,時間序列模型是捕獲集體故障的最 優(yōu)方式。
KAZEMI等利用PCA模型與統(tǒng)計控制圖結合的方式對總揮發(fā)性脂肪酸含量進行了預測,又基于SVM、ELM和神經網絡集成等算法對模型的精度和魯棒性進行優(yōu)化,進而準確判斷厭氧消化過程中的故障。由于生物膜的形成會導致DO傳感器的誤差,SAMUELSSON等設計了一個由自動訓練和自動調整組成故障檢測應用的程序,判斷故意擾動是否會被解釋為生物膜形成的偏差,從而準確預測DO的波動。另外,結果還表明輸入數據包含的信息比先進的算法更重要??焖僦亓^濾器是許多水處理系統(tǒng)中的最終顆粒屏障,UPTON等以0.1NTU濁度為分界線,利用回歸樹算法有效地對過濾性能的最 大風險相關條件進行了建模和分析。
污水處理系統(tǒng)誤差往往具有時序性和非線性,歷史數據和數據預處理對模型的建立和訓練具有重要意義,否則會出現維度過高,計算過程復雜,預測效果差等后果,因此需要通過一定的方式進行降維,提高可視化程度。高斯模型可以基于歷史數據對多模過程的模態(tài)進行分類,之后再通過t-分布對數據進行降維,或結合極大似然估計對數據進行插值,優(yōu)化模擬過程,降低噪聲。MAMANDIPOOR等引入了ARIMA和時滯神經網絡等系列建模方法來捕獲污水處理過程中的時間模式,準確率超過92%。
新技術研發(fā)
重金屬和有機物是水體中的主要污染物,具有較強的環(huán)境持久性,經過食物鏈進入人體后,將對人體產生危害。在過去的幾十年里,物理吸附法已經被廣泛證明可以去除水環(huán)境中的重金屬離子和有機物。然而,隨著越來越多的新型化學物質的出現,傳統(tǒng)批處理和柱試驗無法及時提供新吸附劑與新化合物吸附數據,進而影響進一步的研究。另外,氧化動力學的試驗測量非常復雜和昂貴,反應速率常數的計算涉及到勢能面的精 確化學信息,計算量非常大,這些因素都制約了氧化試驗的深入研究。因此,挖掘已有數據來構建廣泛的預測模型,實現對吸附和氧化過程快速準確的預測。預測精度高的模型可以取代一些重復、冗余的試驗,精度中等的模型也可用于快速估計吸附劑或氧化劑的用量,從而幫助吸附和氧化試驗的設計。因此機器學習算法在吸附和氧化機理研究上的應用將為吸附劑和氧化劑研發(fā)帶來新的機遇。
圖2 機器學習算法的分類及其在水處理系統(tǒng)中的應用
4.1 吸附技術的研究
生物炭依據其低成本、高效性、無害性被廣泛用于水處理中,生物炭吸附性能的研究也是所有吸附劑研究的重點。利用機器學習的方法探究生物炭與重金屬、有機物的吸附影響因素對生物炭的改進研究和未來吸附實驗的設計有指導性意義。
ZHAO等利用核極限學習機和克里金模型預測44種生物炭對重金屬(Pb2+、Cd2+、Zn2+、Cu2+、Ni2+、As3+)的吸附效率,并通過點選擇的方式提高模型精度,最 佳R2分別達0.919和0.980。逐步回歸方法結果表明,溶液pH和溫度是影響吸附過程的重要因素。另外,生物炭的陽離子交換能力和O/C等參數對吸附過程也有一定影響。ZHU等采用ANN和RF模型對6種重金屬(鉛、鎘、鎳、砷、銅、鋅)對44個生物炭上的吸附進行建模。以生物炭特性、生物炭的初始濃度以及環(huán)境條件為控制參數,基于小樣本數據對模型進行訓練和優(yōu)化。RF模型比ANN模型對吸附效率的預測具有更好的準確性和泛化性能,這可能與該模型訓練數據較少、維度較高有關。以上研究開發(fā)的模型可以應用在經過特殊處理的生物炭選擇問題上,影響參數的重要性分析可以為實際工程水體中重金屬的高效去除提供參考。另外,在不同重金屬吸附效率建模中,機器學習算法的精度受到吸附質-吸附劑和特定算法優(yōu)缺點的限制。HAFSA等基于 RF、XGBoost和貝葉斯支持向量回歸樹,為多種重金屬吸附劑的吸附效率建立一個廣義預測模型,預測效果較佳(0.96≤R2≤0.99),并可以同時對多對重金屬-吸附劑進行建模預測。
ZHANG等利用余弦相似的方式重點挖掘可用數據,將吸附系數與亞伯拉罕常數結合,建立利用神經網絡-多元線性自由能的組合模型,預測有機污染物與吸附劑在不同平衡濃度下的吸附狀況。該模型成功應用于各種平衡濃度吸附等溫線模型,RMSE僅為0.23~0.31。然后,利用SHAP對模型性能進行分析。該模型采用多種數據處理和分析方法,對數據過濾、模型構建、模型參數化、模型訓練等方面有一定的指導意義。
對吸附機理了解有限是限制納米吸附材料在去除水中重金屬的應用的重要因素,傳統(tǒng)儀器和試驗難以獲得突破性成果?;谖絼恿W理論,利用機器學習方法探索納米材料的微觀結構,嘗試恢復使用過的納米材料,該方法對研制特定用途納米材料和降低納米材料制作成本提供了最新的思路。
4.2 氧化技術的研究
污水中的新型有機污染物越來越多,但大多數污水處理廠都不是為了處理這些新興污染物而設計的,因此新的氧化技術已經被作為一種強大的有機物處理手段被應用于污水處理過程中。污染物的氧化速率常數是評估處理效果的重要參數,可以用來估計污染物的去除效率或確定氧化劑的劑量保留時間,因此利用機器學習模擬氧化過程,預測氧化速率常數,對氧化技術的改進和應用具有良好的輔助作用。SANCHES-NETO等利用XGBoost、RF、NN三種機器學習算法,結合摩根指紋和MACCS指紋,預測水相有機污染物自由基氧化過程的反應速率常數,R2均在0.9以上。SHAP方法被應用于特征重要性分析,輔助模型解釋吸電子和供電子基團如何干擾OH·-和SO4·-自由基反應。另外,該研究還建立了通用的web程序界面,供以后氧化技術研究的應用與分析。
為研究HClO、O3、ClO2和SO4·-對有機物去除的影響,ZHONG等以氧化反應條件(pH和溫度)為輸入,結合小型的相似數據集建立了氧化預測模型。與圖像處理技術對比,該模型預測效率更高,說明小型數據集間相似知識的遷移可以在一定程度上提高機器學習模型性能。CHA等基于熒光激發(fā)-發(fā)射矩陣數據,利用RF算法,以水質參數(pH、堿度、溶解有機碳濃度)為輸入參數,模擬臭氧氧化污染物的過程。
污泥中存在不同的微生物、重金屬、有機物和溶解鹽等,因此在污水處理高標準的要求下,有效處理污泥中的污染物是實際工程中重要的環(huán)節(jié)。電氧化法是去除污水活性污泥中的有機化合物的新型技術,CURTEANU等利用ANN和SVR兩種機器學習方法,研究了COD、電導率、溶解固體總量增加量、大腸桿菌狀態(tài)等參數與有機物去除效率的關系,并利用仿真技術驗證模型的可靠性。
多相催化氧化是新技術研究的熱點,PALKOVITS等將ANN、SVR和KNN三種人工智能與電催化相結合,預測催化劑在水中多相催化氧化的效能,均取得較好的結果,其中,支持向量回歸模型的性能最 好。
總結與展望
表1總結了不同機器學習算法的優(yōu)缺點以及應用場所。不難得知,機器學習模型精度會受算法原理、原始數據集、問題的復雜性等因素影響,同種模型在不同場景下表現出的精度也不同。因此,針對不同的水處理問題,要充分考慮數據量大小、輸入與輸出參數關系、影響因素是否明確等多方面因素,進而進行模型的選擇;另外,在模型建立過程中,針對算法本身缺陷,可以通過與其他算法結合,提高模型精度、縮短收斂時間、降低數據依賴。
總之,機器學習在水處理系統(tǒng)的應用仍處于初級階段,為促進水務自動化和智能化發(fā)展進程,本文提出以下建議:
表1 機器學習算法的優(yōu)缺點及其在水處理系統(tǒng)中的應用
(1)模型開發(fā)與組合。在水處理系統(tǒng)中沒有一個完 美的模型可以適用于所有場所,不同的模型在不同條件下的表現也參差不齊。一般來說,組合模型比單一的模型效果更好。隨著機器學習的發(fā)展,人工神經網絡和深度神經網絡的誕生使得傳統(tǒng)模型不再需要編制內部計算過程,模型可以依據自身學習能力完成數據訓練和預測。但這些方法需要大量的高質量的數據,因此數據的預處理尤為重要。開發(fā)新的預處理方式和學習模型將為水務事業(yè)帶來新的前進空間。另外,現在的研究多針對單一處理環(huán)節(jié),利用機器學習模擬處理過程,提高處理效率、節(jié)約能源等,對于整個水處理流程的統(tǒng)一模擬還沒有相應的研究,對水處理系統(tǒng)進行整體評估的研究較少。
(2)建立數據共享平臺。數據是機器學習在水務事業(yè)中應用的基礎。無論是飲用水處理系統(tǒng)還是污水處理系統(tǒng)都需要大量的數據,但是數據集來源不確定、質量無法保證、輸出格式各不相同,導致能被利用的數據數量大打折扣。因此,規(guī)范收集整理數據勢在必行。另外,不同水務系統(tǒng)可以提供不同運行狀態(tài)的數據,這樣的數據更有利于模型訓練。因此加強各個水務系統(tǒng)間的數據共享,將成為推動機器學習在水處理系統(tǒng)中進一步應用的強大動力。
(3)加強模型實踐。大多數機器學習模型均處于研究階段,在水處理系統(tǒng)中進行實際應用的研究較少,且現存水處理控制系統(tǒng)多僅使用簡單模型。因此,應加強各類機器學習模型在實際水處理系統(tǒng)中的應用,獲取運行數據,這將更有利于模型的開發(fā)和優(yōu)化設計。
微信對原文有修改。原文標題:機器學習在水處理系統(tǒng)中的應用;作者:皇甫小留、王晶瑞、龍鑫隆、黃瑞星;作者單位:重慶大學環(huán)境與生態(tài)學院 三峽庫區(qū)環(huán)境教育部重點實驗室、哈爾濱工業(yè)大學環(huán)境學院 城市水資源與水環(huán)境國家重點實驗室??窃凇督o水排水》2022年第 1 1期。