引用本文:皇甫小留,王晶瑞,龍鑫隆,等. 機器學習在水處理系統(tǒng)中的應用[J]. 給水排水,2022,48(11):153-165.
通信作者
皇甫小留
博士,教授。主要研究方向是智慧水環(huán)境科學,水環(huán)境鉈污染防控。
人工智能作為21世紀尖 端技術的代表,是利用機器模擬人類的學習、思考、分析、決策等方式的技術,是實現(xiàn)智慧水務的重要手段。智慧水務作為現(xiàn)代水務發(fā)展的新趨勢,是指利用物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算、人工智能等新信息技術,將水務系統(tǒng)狀態(tài)信息傳感技術、網(wǎng)絡與移動系統(tǒng)相結合,構建集感知、仿真、診斷、預警、調(diào)度、控制和服務于一體的全 方 位智能化水務管理系統(tǒng);涉及領域涵蓋了水源調(diào)度、給排水處理系統(tǒng)、市政管網(wǎng)、海綿城市建設與管理、智慧客服以及綜合性管控平臺等。
隨著用水量與污水量的持續(xù)增加,水處理技術的發(fā)展和處理規(guī)模的增大,處理工藝愈加復雜;另外,由于環(huán)境污染的嚴重性,水質(zhì)、處理成本和處理效率的要求被提高。由于水務系統(tǒng)控制與管理擁有大量的數(shù)據(jù),這些數(shù)據(jù)蘊含著各種反應機理和控制要素,各參數(shù)間存在非常復雜的非線性關系,其中包含的物理、化學和生物原理尚未研究透徹,因此傳統(tǒng)自動控制過程只能給予一定的適度結果?;谝话阋?guī)律的模型難以建立,只能依據(jù)經(jīng)驗進行調(diào)整,但這種模型的精度有限,過于依賴人力。因此迫切需要一種新的適用于解決非線性問題的自動化控制方法,充分利用水處理行業(yè)的數(shù)據(jù)信息,擺脫經(jīng)驗操作,實現(xiàn)自主學習控制。
機器學習通過分析歸納得出數(shù)據(jù)趨勢,而不是基于編程的因果邏輯,因此機器學習只需要輸入海 量數(shù)據(jù),就可以自主構建數(shù)據(jù)間的關系,建立某種模型,進而根據(jù)模型對新數(shù)據(jù)進行判斷和預測。另外,基于機器學習的模型雖然有一定的“黑箱”性,但可以通過適當?shù)姆治龇椒ㄈ鏢hapley值(SHAP)挖掘其深層的物理化學信息,因此機器學習具備一定的可解釋性。機器學習依據(jù)其強大的學習和計算能力,可以在短時間內(nèi)快速地處理海 量數(shù)據(jù),非常適合處理非線性問題,如解釋污染物的遷移與轉換、分析和預測水質(zhì)、揭露處理反應機理等。因此機器學習是智慧水務的重要實現(xiàn)途徑之一,是水務智慧化的核心和關鍵。機器學習在水務上的應用有望對水務事業(yè)做出巨大的貢獻,并推動水務事業(yè)從人工控制中解放出來,實現(xiàn)智慧控制。
據(jù)統(tǒng)計,已經(jīng)有機器學習在自然和工程水體的應用綜述、機器學習在污水處理技術和飲用水處理系統(tǒng)非線性問題分析中的應用匯總,但關于不同機器學習算法在水處理系統(tǒng)中的實際應用及對比性總結還沒有研究。為增強業(yè)內(nèi)人士對機器學習和智慧水務的認識,推動智慧水務進一步發(fā)展,本文綜述了國內(nèi)外機器學習在水處理系統(tǒng)和污染物去除新技術研發(fā)中的應用,包括水量預測、混凝分析、消毒模擬、過程控制、能耗節(jié)約、膜污染預警、故障診斷等;最 后討論了代表性機器學習算法的優(yōu)缺點和適用性;并分析了機器學習在水處理系統(tǒng)中應用的挑戰(zhàn)和前景。
機器學習簡述
在具有海 量性、高速性、多樣性和失真性等特征的大數(shù)據(jù)時代,機器學習憑借其算法的低成本性、精 準預測性、機器自動化性受到各行各業(yè)的青睞。在水務信息化的進程中引入人工智能技術是發(fā)展的必然,這也將為水務智慧化、信息化帶來新的機遇。
人工智能是在一個機器內(nèi)嵌入相關算法后,多種算法相互結合,使機器擁有類似于人的行為,如觀察、思考、學習、創(chuàng)造等;機器學習是人工智能的一個核心分支,旨在使計算機無需進行顯示編程即可學習;深度學習是機器學習的子集,是一種含多隱藏層的深度神經(jīng)網(wǎng)絡結構。機器學習應用廣泛,可以與各領域技術相結合,從而形成多種交叉學科,如模式識別、計算機視覺、語音識別、自然語言處理等。
機器學習可以分為監(jiān)督學習、無監(jiān)督學習和強化學習三個主要類別。監(jiān)督學習包括分類和回歸兩種算法,基于輸入和輸出訓練數(shù)據(jù)進行算法構建,可用于預測新輸入數(shù)據(jù)所對應的輸出。當輸出只能取一個有限值集時,用分類算法;當輸出可取一定范圍內(nèi)的任意數(shù)值時,用回歸算法。無監(jiān)督學習只能識別訓練數(shù)據(jù)的共性特征,即在輸入數(shù)據(jù)中尋找結構,并對新數(shù)據(jù)所呈現(xiàn)或缺失的共性特征作出判斷,如聚類分析。強化學習是研究算法如何在動態(tài)環(huán)境中執(zhí)行任務以實現(xiàn)累計獎勵的最 大化,如博弈論、遺傳算法等,見圖1。
圖1 本論文中回顧的常用算法原理
為訓練機器學習模型,一般將數(shù)據(jù)分為訓練集、測試集和驗證集三個部分。首先,基于已選機器學習算法利用訓練集對模型進行訓練;其次,利用驗證集數(shù)據(jù)通過調(diào)整超參數(shù)的方式優(yōu)化訓練后的模型;最 后,將測試集輸入訓練好的模型中,比較預測輸出與其相應的已知結果,以評估訓練模型的預測能力和泛化能力。相關系數(shù)(Pearson correlation coefficient,R2)、平均絕 對百分比誤差(Mean absolute percentage error, MAPE)、平均絕 對誤差(Mean absolute error, MAE)、均方根誤差(Root mean square error, RMSE)、相對標準偏差(Relative standard deviation, RSD)、性能效率、精度等參數(shù)可用于評價模型準確性。常見的機器學習方法包括隨機森林、支持向量機、人工神經(jīng)網(wǎng)絡、深度學習、模糊控制等。每種算法都依據(jù)其機理的不同,各有長處,應用場合也千差萬別。不同算法之間也可以相互結合,取長補短,提高精度。單獨算法往往存在一定缺陷,因此在復雜的水務工作中,通常將多種算法相互結合,共同控制。
機器學習在飲用水處理系統(tǒng)中的應用
飲用水廠作為保障居民生活的重要組成部分,傳統(tǒng)自動控制系統(tǒng)主要依靠傳感器監(jiān)測數(shù)據(jù),依據(jù)經(jīng)驗進行調(diào)整,具有實時性大、風險高、任務量重、控制復雜、精度有限、成本高等特點。將機器學習應用于水處理系統(tǒng),將改變這一現(xiàn)狀,實現(xiàn)基于大數(shù)據(jù)的過程控制和決策。以下綜述了機器學習在需水量預測、藥劑投加、氯消毒等方面的運用,包括水源水污染物監(jiān)測識別、混凝用量的準確高效預測、消毒副產(chǎn)物的形成分析、膜污染的先進控制。
2.1 水量水質(zhì)
需水量的預測是進行城市規(guī)劃建設所必須的內(nèi)容,用機器學習的方法精 確預測城市需水量是保證供水系統(tǒng)安全運行和實現(xiàn)科學管理與優(yōu)化調(diào)度的有效手段。傳統(tǒng)短期蓄水量預測一般采用回歸分析方法,金冬梅等采用多元線性回歸模型(Multivariable linear regress modal, MLR)以近年長春市用水量、人均收入及人口資料為輸入?yún)?shù),成功對長春市未來多年用水量進行預測。YASAR等以月平均水費、總人口數(shù)、大氣溫度、相對濕度、降雨量等為影響因素,采用逐步線性回歸模型預測土耳其亞達納的供水量?;貧w分析方法計算簡單,對歷史數(shù)據(jù)質(zhì)量和影響參數(shù)的準確性有較高要求,適用于數(shù)據(jù)波動小的年用水量等問題,不適用于城市時需水量等數(shù)據(jù)波動大的問題預測。基于線型數(shù)據(jù)模型的自回歸移動平均模型(Autoregressive integrated moving average mode, ARIMA)具有收斂速度快和魯棒性等優(yōu)點,在數(shù)據(jù)波動較大的日需水量預測中可取得較好的預測效果,但不適用于非線性時間序列問題。隨著機器學習算法的進步,新的機器學習算法誕生,彌補了傳統(tǒng)算法的缺點,提高了預測精度。人工神經(jīng)網(wǎng)絡(Artificial neural network, ANN)模型依據(jù)若干神經(jīng)元節(jié)點及連接權重實現(xiàn)自主記憶,進而完成輸入與輸出變量的非線性映射。BENNETT等利用兩個前饋反向傳播、一個徑向基函數(shù)網(wǎng)絡等三種神經(jīng)網(wǎng)絡模型對建筑用水終端組件(淋浴、洗衣機等)需水量進行預測,并應用至全市用水量預測。舒媛媛等基于主成分分析(Principal component analysis, PCA)的反向傳播神經(jīng)網(wǎng)絡(Back propagation neural network, BPNN)確定了人均收入、降雨量、居民生活用水量及生態(tài)環(huán)境用水量四個城市需水量影響因子,并對延安市年需水量進行了預測。ANN雖然很適用于大部分非線性時間序列的需水量,但該方法也存在訓練時間長、易陷入局部最 優(yōu)、訓練數(shù)據(jù)量大等缺點。多種算法結合,能有效的提高單一模型的預測精度。BRENTAN等基于支持向量回歸(Support vector regression, SVR)模型,結合自適應傅立葉級數(shù)預測偏差,利用巴西弗朗卡自來水公司需求數(shù)據(jù)對模型進行驗證,效果較好。蔣白懿等利用一種灰色遺傳(Genetic algorithm, GA)神經(jīng)網(wǎng)絡組合模型對某市區(qū)年居民生活年需水量進行預測,組合模型的預測結果與實際值相對誤差僅為1.17%,相比灰色神經(jīng)網(wǎng)絡模型精度提高0.84%,比灰色遺傳算法模型提高了3.08%。葉強強等利用混沌算法優(yōu)化搜索BPNN模型的城市短期需水量預測全局最 優(yōu)解,該模型容易確定輸入層節(jié)點個數(shù),具有收斂速度快,訓練樣本少等優(yōu)點。極限學習機(Extreme learning machine, ELM)具有高穩(wěn)定性和能力,被應用于預測短期需水量預測。與修正偏差的傅立葉級數(shù)模型結合,效果與ANN模型相當,但建模時間僅為后者的5%。
2.2 混凝沉淀
作為提高水質(zhì)處理效率的水處理技術,混凝技術具有既經(jīng)濟又簡便的優(yōu)點,其關鍵問題是基于進水濁度對加藥量進行預測,在保證出水水質(zhì)的前提下精 準投加混凝劑是獲得較好混凝效果及經(jīng)濟效益的前提。作為多輸入單輸出的非線性問題,模型的適用性對預測效果有重要影響。ANN模型依據(jù)簡單的結構和魯棒性被廣泛應用于建立混凝模型?;诩竟?jié)性原水變化和化學劑量,ANN模型被用于提高埃爾金地區(qū)污水處理廠過濾效率,該模型以0.63~0.79的相關性系數(shù)成功預測沉降水濁度,BPNN以0.78~0.89的相關系數(shù)計算出最 佳的混凝劑用量。為提高ANN的預測精度,可以與徑向基函數(shù)神經(jīng)(Radial basis function neural network, RBFNN)和廣義回歸神經(jīng)網(wǎng)絡(General regression neural network, GRNN)等其他算法聯(lián)合,來模擬混凝過程,GRNN在數(shù)據(jù)量有限的情況下具有更好的性能,而多層感知器(Multilayer perceptron, MLP)更適合于全規(guī)模水廠數(shù)據(jù)及高濁度的水混凝問題。以原水流量、pH、進出水濁度以及對應的混凝劑用量為指標,選用GA優(yōu)化BPNN中的連接權值和閾值,構建了基于GA和BPNN的微渦流混凝投藥控制模型,也取得較好的預測效果。相對與其他智能控制算法,小腦神經(jīng)網(wǎng)絡算法具有逼近復雜函數(shù)、泛化能力強、收斂速度快等方面的優(yōu)點。該模型可根據(jù)關聯(lián)模糊隸屬函數(shù)將多輸入(原水溫度、濁度、pH)-單輸出(混凝劑用量)問題轉化為多個關聯(lián)的單輸入-單輸出的問題,因此結果準確率更高,控制更合理。另外,ELM與RBFNN結合的算法ELMRBF可顯著降低計算量,在預測低濃度混凝劑用量中,模型相關系數(shù)超過0.97,高濃度模型中相關系數(shù)在0.80以上。田村山凈水廠以進出水pH、溫度、流量、濁度、每日混凝劑投加量均值、每3 h混凝劑投加量均值為特征參數(shù),用長短時記憶網(wǎng)絡(Long short term memory, LSTM)、極端梯度增強集成方法(Extreme Gradient Boosting, XGBoost)和隨機森林(Random forest, RF)三種算法對單種或兩種混凝劑投加量進行預測,最終采用了計算簡單、精度更高的基于XGBoost算法的混凝投藥模型。
2.3 氯消毒
氯是飲用水水廠主要的消毒劑,在消毒過程中,即要保證消毒效果,又要考慮副產(chǎn)物與氣味問題。水體中的余氯變化是一個非線性時變過程,利用單純神經(jīng)網(wǎng)絡模型雖然可以構建出余氯預測模型,但由于神經(jīng)網(wǎng)絡搜索速度慢、易陷入局部最 優(yōu)、不適用于時變問題等缺點,其模型精度需要進一步提高。為搭建更加準確、穩(wěn)定的水質(zhì)余氯預測模型,安小宇等將正余弦算法(Sine Cosine Algorithm, SCA)用于改進BP神經(jīng)網(wǎng)絡的非線性權重,構建了SCA-BP水體余氯預測模型,該模型相對誤差的平均值為4.04%,預測效果優(yōu)于BPNN、RBFNN模型。另外,基于粒子群算法改進網(wǎng)絡權值和閾值的PSO-BPNN模型也被應用在水廠消毒智能預測中,相對于傳統(tǒng) BPNN模型,該模型MAPE下降了1.8%,RSD下降了2.4%,并有效降低了氯消毒劑的使用量。針對小樣本、高維空間問題,何自立等利用二階振蕩粒子群優(yōu)化算法(Second-order Oscillation Particle Swarm Optimization, SOPSO)優(yōu)化了SVR模型動態(tài)搜索最 優(yōu)解的性能。另外,多種消毒劑分次投加的協(xié)同消毒具有非線性、不確定因素多、過程復雜等特點,相比于僅有反饋信號調(diào)節(jié)的統(tǒng)計控制,反饋與前饋信號相結合的智慧控制提高了消毒劑控制指標精度、減少了消毒投加量,并降低了消毒副產(chǎn)物的生成量。
除余氯預測外,消毒副產(chǎn)物(Disinfection by products, DBPs)也是氯消毒需要考慮的重要部分。在消毒過程中,以三氯甲烷(Trichlormethane, THM)和鹵乙酸(Haloacetic acid, HAAs)為主體的DBPs與其前體存在高度非線性關系,傳統(tǒng)預測模型無法模擬,機器學習技術無疑是深入了解該復雜關系的實用工具,且測定DBPs是一項非常繁瑣、耗時、高成本的工作,通過機器學習算法準確預測其含量將對相關研究提供巨大便利。江釓泓等以南方某市7個自來水廠為研究對象,利用線性回歸模型擬合進出水水質(zhì)參數(shù)與兩種主要消毒副產(chǎn)物生成量之間的關系,為消毒副產(chǎn)物的預測提供新的思路。PLATIKANOV等也利用線性回歸如MLR和偏最 小二乘回歸(Partial least squares regression, PLSR)成功確定了THM的形成條件及濃度。在進一步的研究中,利用非線性SVM和核PLSR證實了多操作變量之間的相互作用,核變換在說明變量之間的相關程度起到重要作用。由于DBPs的形成過程非常復雜,線性回歸等算法不再適合,需要使用ANN、SVM等適用于非線性問題的算法。此類算法雖然具有一定的“黑箱”性質(zhì),但與其他算法如PCA或靈敏度分析等方式結合,可以加強對模型結果的解釋性,提高模型的泛化能力和精度。KULKARNI等使用ANN來定量分析常規(guī)處理、氯化、顆粒活性炭處理和納濾后的DBPs,并利用PCA評估了原水水質(zhì)對三種DBPs前體去除效果的關系,減少了自變量個數(shù),縮減了計算量。ANN可以準確地預測THM、HAAs和總有機鹵素的濃度,預測的相關系數(shù)在0.92~0.97。SINGH等基于ANN、SVM和基因表達編程等算法建立模型,降低了模型誤差,優(yōu)化了自變量取值,基于有限數(shù)據(jù)集訓練模型,以預測THM的形成。最終確定初始pH、接觸時間和溫度等三個參數(shù)為最 重 要影響因素,該模型在解決非線性問題方面具有更好的準確性和泛化能力。
消毒后水體的氣味問題也值得被關注。MAO等將EPANET軟件與BPNN模型結合起來,模擬飲用水分配系統(tǒng)中氯、氯胺和氯氣味的強度。以控制水體嗅覺和最 小化投資為目的,該模型使得初始氯用量減少了50%,余氯合格率達到97.2%。
微信對原文有修改。原文標題:機器學習在水處理系統(tǒng)中的應用;作者:皇甫小留、王晶瑞、龍鑫隆、黃瑞星;作者單位:重慶大學環(huán)境與生態(tài)學院 三峽庫區(qū)環(huán)境教育部重點實驗室、哈爾濱工業(yè)大學環(huán)境學院 城市水資源與水環(huán)境國家重點實驗室。刊登在《給水排水》2022年第 11期。