长江中下游地区城市水环境治理技术研究专栏

BiLSTM与注意力机制相结合的污水处理厂出水COD预测

  • 刘煜 , 1, 2 ,
  • 王泽鑫 , 2, 3, 4 ,
  • 吕臣凯 1, 2 ,
  • 梅长松 1, 2 ,
  • 詹浩东 1, 2 ,
  • 蒋云鹏 2, 3, 4 ,
  • 陆熙 2, 3, 4, 5
展开
  • 1 长江生态环保集团有限公司, 武汉 430010
  • 2 中国长江三峡集团有限公司, 武汉 430010
  • 3 上海勘测设计研究院有限公司, 上海 200335
  • 4 三峡智慧水务科技有限公司, 上海 200335
  • 5 长江经济带生态环境国家工程研究中心, 武汉 430010
王泽鑫(1998-),男,湖北宜昌人,助理工程师,硕士,主要研究方向为污水厂数据处理与预测。E-mail:

刘 煜(1984-),男,湖北黄石人,正高级工程师,硕士,主要研究方向为智慧水务和厂站在线监测、仿真及诊断。E-mail:

Copy editor: 任坤杰

收稿日期: 2025-06-13

  修回日期: 2025-08-18

  网络出版日期: 2025-10-17

基金资助

中国长江三峡集团有限公司科研项目(NBWL202300014)

Predicting COD in Effluent from Wastewater Treatment Plants Using BiLSTM with Attention Mechanism

  • LIU Yu , 1, 2 ,
  • WANG Ze-xin , 2, 3, 4 ,
  • LÜ Chen-kai 1, 2 ,
  • MEI Chang-song 1, 2 ,
  • ZHAN Hao-dong 1, 2 ,
  • JIANG Yun-peng 2, 3, 4 ,
  • LU Xi 2, 3, 4, 5
Expand
  • 1 Yangtze Ecology and Environment Co., Ltd., Wuhan 430010, China
  • 2 China Three Gorges Corporation, Wuhan 430010, China
  • 3 Shanghai Investigation, Design & Research Institute Co., Ltd., Shanghai 200335, China
  • 4 Three Gorges Smart Water Technology Co., Ltd., Shanghai 200335, China
  • 5 National Engineering Research Center of Eco-Environment in the Yangtze River Economic Belt, Wuhan 430010, China

Received date: 2025-06-13

  Revised date: 2025-08-18

  Online published: 2025-10-17

摘要

污水处理厂出水水质的准确预测对于优化运行控制和保障达标排放具有重要意义。研究提出双向长短期记忆网络(BiLSTM)与注意力机制相结合(BiLSTM-注意力机制模型)的深度学习模型,用于预测污水处理厂出水化学需氧量(COD)。该模型通过引入位置编码增强时序信息表达,设计特征注意力机制实现自适应水质参数权重学习,并采用多头注意力机制捕捉时间步间的复杂依赖关系。实验结果表明:BiLSTM-注意力机制模型对出水COD的预测评估指标明显优于其他模型,较BiLSTM模型,均方根误差(RMSE)降低幅度为13.5%,平均绝对误差(MAE)降低幅度为13.8%,平均绝对百分比误差(MAPE)降低幅度为15.3%;模型对前期时间步(0~6步)赋予更高权重,并识别出过程段溶解氧和污泥浓度等关键运行参数对出水COD的显著影响。因此,BiLSTM-注意力机制模型能有效捕捉污水处理系统的非线性时空特征,为出水水质预测和智能化运行管理提供了可靠方法和理论依据。

本文引用格式

刘煜 , 王泽鑫 , 吕臣凯 , 梅长松 , 詹浩东 , 蒋云鹏 , 陆熙 . BiLSTM与注意力机制相结合的污水处理厂出水COD预测[J]. 长江科学院院报, 2025 , 42(12) : 198 -206 . DOI: 10.11988/ckyyb.20250531

Abstract

[Objective] The wastewater treatment process exhibits highly non-linear, time-varying, and multivariable coupling characteristics, making it difficult for traditional prediction methods to effectively capture complex spatiotemporal dependencies. Unidirectional LSTM utilizes only historical information, struggling to fully exploit bidirectional temporal features. This study aims to construct a deep learning model combining a bidirectional long short-term memory network with an attention mechanism to achieve high-precision prediction of effluent COD in wastewater treatment plants. [Methods] This study proposed a deep learning architecture integrating BiLSTM and a multi-layer attention mechanism. The model adopted a hierarchical design. First, sine-cosine positional encoding was used to embed time step position information. A feature attention mechanism was designed to achieve adaptive weight learning for different water quality parameters using a fully connected network and the softmax function. Then, a single-layer bidirectional LSTM structure was employed to simultaneously capture forward and backward temporal dependencies. A multi-head attention mechanism was introduced to capture complex interaction patterns between time steps. Subsequently, a time-step importance weighting mechanism was designed, using a quadratic growth curve to assign higher weights to recent time steps. An attention-gated fusion strategy was used to dynamically combine the LSTM output and the attention output. Finally, the final prediction was achieved through global average pooling and a fully connected network. The model training employed the Adam optimizer, Dropout regularization, L2 regularization, and an early stopping strategy. The prediction performance was compared with baseline models such as unidirectional LSTM, BiLSTM, and 1D-CNN. [Results] Experimental verification showed that the BiLSTM-attention mechanism model significantly outperformed other models in effluent COD prediction. Compared to the BiLSTM model, the root mean square error decreased from 1.17 mg/L to 1.01 mg/L, a reduction of 13.5%. The mean absolute error decreased from 0.92 mg/L to 0.80 mg/L, a reduction of 13.8%. The mean absolute percentage error decreased from 9.79% to 8.29%, a reduction of 15.3%. The validation set loss converged well during the training process. The visualization analysis of attention weights revealed the model’s decision-making mechanism as follows. Feature attention identified dissolved oxygen in the process section and sludge concentration as key influencing parameters. Temporal attention showed that the model assigned higher weights to recent time steps, conforming to the physical laws of time-series prediction, and the different heads of the multi-head attention captured different temporal dependency patterns, achieving complementary feature extraction. [Conclusion] This study successfully constructs an effluent COD prediction model for wastewater treatment plants based on BiLSTM and a multi-layer attention mechanism. The innovations are reflected in proposing a hierarchical deep learning architecture that integrates positional encoding, feature attention, multi-head attention, and gated fusion; utilizing a bidirectional LSTM structure to simultaneously leverage forward and backward temporal information, which reduces the error by over 10% compared to unidirectional models; and designing time-step importance weighting and gated fusion mechanisms to achieve refined modeling of temporal information.

开放科学(资源服务)标识码(OSID):

0 引言

随着城市化进程加速和工业发展,污水排放量不断增加,环境污染问题日益严峻。污水处理厂作为水环境保护的重要基础设施[1-2],其出水水质直接关系到环境安全和公众健康。而出水水质参数之一的化学需氧量(Chemical Oxygen Demand,COD)作为衡量水体有机污染程度的关键指标,其准确预测对于污水处理过程优化、工艺调控和达标排放具有重要意义。
出水COD预测方法经历了从机理模型、统计机器学习到深度学习的演进。机理模型如活性污泥模型(Activated Sludge Model,ASM)[3]通过建立污染物降解动力学方程实现预测,但在实际应用中受限于污水成分复杂其参数辨识难度大,不利于应用推广;统计机器学习方法[4]如支持向量回归(Support Vector Regression,SVR)、随机森林(Random Forest,RF)等,能够利用历史监测数据进行建模,但在捕捉复杂时序动态特征存在不足;深度学习模型如人工神经网络(Artificial Neural Network,ANN )[5]、使用象群算法优化的BP神经网络(Back Propagation Neural Network,BPNN)[6]、基于量子加权最小门限重复单元神经网络(Quantum Weight Gated Recurrent Unit Neural Network,QWGRUNN)[7]等,仍具有变量少或参数需更新的局限性。
深度学习方法如长短期记忆网络(Long Short-Term Memory,LSTM)及其变体凭借强大的时序建模能力,已成为水质预测的核心技术[8]。而双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)通过融合历史与未来信息,显著提升了动态特征表达能力,其预测普适性已在多领域得到验证[9-10]。Sheik等[11]通过7种算法对比研究进一步证实了BiLSTM在出水水质参数估算中始终保持着最高的精度优势;Cheng等[12]研究构建了6种基于LSTM和门控循环单元(Gated Recurrent Unit,GRU)的深度学习模型,将其性能与BiLSTM对比发现,BiLSTM预测整体表现最优。然而,传统BiLSTM在处理长序列时仍面临信息瓶颈效应与特征重要性混淆的固有缺陷[13]。而注意力机制通过动态权重分配赋予模型“关键信息聚焦”能力,该机制与BiLSTM的融合在污水处理领域已有初步尝试,如Zhang等[14]通过时序数据双向特征提取后引入注意力机制以强化关键序列的贡献度;王雷等[15]通过联合多空间维度协同注意力改进 BiLSTM 并融合残差序列对出水氨氮进行了预测。当前研究的局限性在于尚未建立多维度注意力协同机制,特别是未能系统整合特征重要性判别与时间节点敏感性分析的联合建模框架。
本文提出注意力协同增强的BiLSTM框架,其创新性体现为:构建时间-特征双注意力机制,捕捉关键水质参数的贡献权重与工艺拐点事件的时序影响,同时引入可学习位置编码强化周期规律建模能力,并设计门控融合层实现深层时空特征交互。经实验验证,相较于传统LSTM与标准BiLSTM,该模型显著提升了出水COD预测精度,注意力权重可视化结果进一步揭示曝气阶段为关键调控窗口,为工艺优化提供了可解释的决策依据。

1 研究方法

本研究提出的双向长短期记忆网络(BiLSTM)与注意力机制相结合的深度学习框架,用于污水处理厂出水COD的高精度预测。该方法首先对污水处理参数进行标准化预处理,然后利用位置编码增强时间序列的位置信息,通过特征注意力机制捕获不同水质参数间的相互影响关系,再通过时间维度注意力机制识别关键时间点的依赖关系,最后采用门控融合策略有效整合不同特征维度的信息。

1.1 数据预处理

1.1.1 数据类型

本研究选择了包括进水、过程、出水等3类特征共12项参数。
(1)进水特征[16]:反映污水处理厂的进水负荷和污染物浓度,如进水COD浓度、氨氮浓度、总氮浓度、总磷浓度、pH值等参数
(2)过程特征:反映处理过程中的关键控制特性,如过程段溶解量浓度、污泥浓度等参数
(3)出水特征:反映处理效果,如出水COD浓度、氨氮浓度、总氮浓度、总磷浓度、pH值等参数。
针对上述数据特点,本研究采用了多阶段数据预处理策略进行优化:
(1)异常值检测与处理:采用3σ原则,基于标准差与均值,自动识别异常值,同时检测零值、突变点和连续相同值等典型异常情况。
(2)缺失值填补:将上述异常值用空值替换,再针对不同类型参数采用线性插值和前向填充组合策略进行填补。
(3)标准化处理:利用Z分数(Z-score)标准化消除不同水质指标量纲差异,提高模型训练稳定性。

1.2 长短期记忆网络(LSTM)与双向长短期记忆网络(BiLSTM)1.2.1 梯度消失与梯度爆炸问题

梯度消失 (Vanishing Gradients):当网络层数(时间步)很深时,反向传播的梯度会因为链式法则中多次乘以小于1的权重或激活函数导数,梯度会变得极小,导致靠近输入层的权重几乎无法更新,模型难以学习到长距离依赖关系。
梯度爆炸 (Exploding Gradients):如果链式法则中多次乘以大于1的权重或激活函数导数,梯度会变得极大,导致权重更新过大,模型训练不稳定甚至发散。
LSTM通过引入“门控机制”和“细胞状态”来巧妙地解决了梯度消失与梯度爆炸问题。

1.2.2 细胞状态与门控机制

LSTM的核心在于其细胞状态,该状态通过加法更新机制实现信息的长期传递。细胞状态作为信息传输的主干,允许梯度在反向传播过程中直接流动,有效缓解了传统循环神经网络(Recurrent Neural Network, RNN)的梯度消失问题。
LSTM单元主要包括遗忘门、输入门和输出门,每个门都由一个Sigmoid激活函数和一个逐点乘法操作组成,Sigmoid函数的输出在0到1之间,决定了信息通过的比例。
(1)遗忘门:决定前一时刻的记忆状态有多少被保留到当前时刻。
(2)输入门:控制当前输入信息有多少被写入记忆单元。
(3)输出门:决定当前记忆单元的状态有多少输出到下一层或下一个时刻。
LSTM通过加法更新的细胞状态作为信息主干,以及门控机制对信息进行精细的“选择性遗忘”和“选择性添加”,使得重要的长期依赖信息能够持续地在网络中传递,而不会因为连续的乘法操作导致梯度消失。同时,门控机制对信息流的限制也有效抑制了梯度爆炸的发生。

1.2.3 长短期记忆网络(LSTM)

图1为 LSTM 结构图,其中,xt表示当前时间步的输入向量;yt-1为上一个时间步的输出(即上一时刻的隐藏状态);St-1代表上一个时间步的细胞状态(长期记忆,贯穿整个序列的 “记忆通道”);ft是遗忘门的输出(由 Sigmoid 激活,范围(0,1),控制丢弃St-1中信息的比例);it为输入门的输出(由 Sigmoid 激活,范围(0,1),控制新信息存入细胞状态的比例); ${\stackrel{~}{S}}_{t}$表示候选细胞状态(由Tanh激活,范围(-1,1),是当前时间步的新信息候选);Ot为输出门的输出(由 Sigmoid 激活,范围(0,1),控制细胞状态输出的比例);St代表当前时间步的细胞状态(更新后的长期记忆,公式:St=ftSt-1+it ${\stackrel{~}{S}}_{t}$,☉为元素乘);yt为当前时间步的隐藏状态 / 输出(短期记忆,公式:yt=Ot☉(St);σ表示 Sigmoid 函数(用于门控,输出 “开关” 信号);tanh为双曲正切函数(用于调节信息强度,输出范围(-1,1)。LSTM作为基础模型,能够有效提取污水处理厂进水水质的时序特征,实现对未来水质指标的多步预测。使用LSTM进行预测的具体流程为:
图1 LSTM结构

Fig.1 Structure of LSTM

(1)数据准备阶段:将序列数据整理成适合LSTM输入的格式,通常是三维张量,包含批次大小、序列长度和特征维度。对于水质预测,需要将历史水质参数按时间顺序排列,并创建滑动窗口来生成训练样本。
(2)模型构建阶段:在深度学习框架中实例化LSTM层。可以堆叠多层LSTM以增加模型复杂度,也可以结合其他层如全连接层、注意力机制。对于水质预测,可以考虑使用双向LSTM来同时考虑正向和反向的时间依赖关系。
(3)训练阶段:定义损失函数和优化器,使用反向传播算法训练模型,调整权重和偏置,使其能够学习到序列中的模式。对于水质预测,通常使用均方误差损失函数,并采用早停机制防止过拟合。
(4)预测阶段:使用训练好的模型对新的序列数据进行预测或生成新的序列。对于水质预测,模型可以预测未来多个时间步的水质参数变化。

1.2.4 双向长短期记忆网络(BiLSTM)

BiLSTM[17]是传统LSTM的扩展结构,通过同时捕获时间序列的正向(过去到未来)与反向(未来到过去)依赖关系,增强模型对复杂时序模式的建模能力。其核心思想是通过双通道信息流联合建模全局时序特征,特别适用于具有双向依赖特性的预测任务。

1.2.5 BiLSTM在进水水质预测中的优势

BiLSTM通过正向和反向的信息流,能够同时捕捉历史与未来的时序依赖,实现全局时序特征的提取。这种结构不仅增强了模型对水质参数间复杂关系的建模能力,还能更全面地整合各参数的动态演化信息,从而提升预测精度。

1.3 位置编码机制

位置编码机制是一种将序列中元素位置信息融入到深度学习模型中的技术。本研究引入了正弦-余弦位置编码,以弥补模型中自注意力机制无法感知时间序列位置信息的缺陷[18]。其核心特点:
(1)确定性函数:无需学习,直接通过数学公式生成。
(2)多频率组合:不同维度对应不同频率的正弦/余弦函数。
(3)相对位置感知:通过三角函数性质编码相对位置关系。
用于出水COD预测的优势如下:
(1)正弦-余弦函数具有周期性,这与污水处理系统中许多参数(如进水COD、溶解氧(Dissolved Oxygen,DO)浓度)的日周期或周周期变化高度匹配。
(2)利用不同频率的正弦和余弦函数生成唯一的位置表示。
(3)使模型能够区分相同特征值在不同时间点的重要性差异,特别适用于污水处理中周期性变化的捕捉。

1.4 注意力机制原理

注意力机制[19]核心思想是:模型在处理序列时,根据当前任务的需要,动态分配对不同时间步或特征的关注权重。使模型能够更好地捕捉关键时刻或关键特征的信息,提高预测准确性和可解释性。

1.4.1 自注意力与多头注意力

自注意力机制通过计算序列内各时间步之间的相关性,为每个时间步分配全局权重,实现对长程依赖的建模。多头注意力机制[20]则通过并行多组自注意力计算,从不同子空间捕捉多样化的时序关系,并将各头输出拼接后线性变换以提升模型表达能力。与仅能捕捉局部依赖的LSTM不同,注意力机制能够显式强化远距离关键时间步的影响,有效弥补LSTM在长程建模上的不足。

1.4.2 特征注意力机制

本研究采用了一种简化的特征注意力机制,主要目的是识别和加权不同水质参数的重要性。该机制通过特征交互网络计算注意力权重,然后对输入特征进行加权处理,实现特征级别的动态选择。
网络结构:采用两层全连接网络,第一层(12个神经元,ReLU激活)用于特征交互,第二层(输出神经元数等于时间步数,Softmax激活)用于生成注意力权重。网络包含批归一化和Dropout正则化层。
权重计算:特征注意力权重通过Softmax函数归一化,确保权重和为1。将计算得到的权重与原始特征逐元素相乘,实现特征加权处理。

1.4.3 时间注意力机制

为捕获时序数据中的长短期依赖关系,实现增强型多头时间注意力机制具体流程如下:
(1)时序特征提取:首先将特征加权后的输入序列送入一层BiLSTM,提取全局时序特征。
(2)多头自注意力机制:LSTM输出作为自注意力模块的输入,采用Keras的MultiHeadAttention层实现。该层包含2个注意力头,每个头的key/query维度为12,并设置Dropout以防止过拟合。
(3)注意力权重计算:自注意力机制通过对所有时间步的特征进行加权求和,自动学习各时间步之间的依赖关系。权重归一化采用softmax函数,确保每个时间步的权重和为1。
(4)输出处理:注意力输出经过批归一化和Dropout层进一步正则化,最终用于后续预测。
机制优势在于该时间注意力机制能够动态分配不同时间步的重要性权重,突出对预测目标最有贡献的关键时刻,有效提升模型对复杂时序关系的建模能力和预测精度。

1.5 门控融合机制

为充分利用LSTM捕捉的时序特征与多头注意力机制提取的全局依赖信息,本研究设计了参数化门控融合模块[21] 对两类特征进行自适应融合,具体流程如下:
(1)特征拼接:首先将LSTM输出(经过时间步加权)与多头注意力输出在特征维度上进行拼接,形成联合特征表示。
(2)门控单元生成:将拼接后的特征输入到一个全连接层,输出单元数等于LSTM输出的特征维数,激活函数为sigmoid。该门控单元的输出值在0到1之间,表示对两类特征的加权比例。
(3)特征融合:门控单元的输出作为权重,对LSTM输出和注意力输出分别加权(逐元素乘法),再将加权后的结果相加,得到最终的融合特征表示。
(4)后续处理:融合后的特征用于全局池化和最终预测。
门控融合机制能够根据不同输入样本的特征分布,自适应地调整LSTM特征与注意力特征的融合比例,既保留了时序信息,又充分利用了全局依赖关系,有效提升了模型的灵活性和泛化能力。

1.6 评价标准

为衡量不同模型的预测效果,本研究采用均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)等评估指标进行对比验证。RMSE反映预测误差的标准差,对较大误差更为敏感,单位与原始数据一致。RMSE值越小,说明整体预测偏差(尤其是大误差)越小。MAE表示预测误差绝对值的平均水平,单位同样与原始数据一致。MAE值越小,说明平均预测偏差越小。MAPE以百分比衡量预测误差的相对大小,为无量纲指标。MAPE值越小,说明平均相对误差越小,预测精度越高。
$RMSE=\sqrt{\frac{\stackrel{N}{\sum _{i=1}}({y}_{i}-{y}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{i}}{)}^{2}}{N}} ,$
$\mathrm{M}\mathrm{A}\mathrm{E}=\frac{1}{N}\stackrel{N}{\sum _{i=1}}\left|{y}_{i}-{y}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{i}}\right| ,$
$\mathrm{M}\mathrm{A}\mathrm{P}\mathrm{E}=\frac{1}{N}\stackrel{N}{\sum _{i=1}}\left|\frac{{y}_{i}-{y}_{\mathrm{p}\mathrm{r}\mathrm{e}\mathrm{d}\mathrm{i}}}{{y}_{i}}\right|\times 100\mathrm{\%} 。$
式中:ypredi为预测值;yi为实际值;i表示样本索引;n表示样本总数。

2 试验研究与结果讨论

本试验数据集选自某东部沿海污水厂2024年1—10月的7 322条数据,数据采样频率为每小时一次。选取进出水COD浓度、氨氮浓度、总氮浓度、pH值、总磷浓度、污泥浓度及DO浓度等参数,采用24 h历史数据预测未来3 h出水COD浓度。预测期为10月1—31日,所有模型均采用相同的特征、预处理流程和评估指标,确保结果便于对比分析。
预测策略包括多步预测(未来3个时间步)、以10月为预测窗口,以及以出水COD浓度为主要目标。为全面评估各组件贡献,通过逐步移除或替换模型的关键模块,对比分析各组件对预测性能的贡献,设计了4种模型结构进行消融试验对比:
(1)LSTM模型:采用单层LSTM结构(64单元),并配合BatchNorm和Dropout层,代表传统的单向时序处理方法,作为基准模型。
(2)BiLSTM模型:采用相同的单层结构,但使用双向信息流,用于验证双向学习对时序特征提取的增强效果。
(3)BiLSTM-注意力机制模型:在BiLSTM基础上整合了特征注意力机制和多头时间注意力机制,是本研究的核心创新模型。
(4)1D-CNN模型:一维卷积神经网络(One-Dimensional Convolutional Neural Network,1D-CNN)模型采用两层一维卷积神经网络结构,作为非循环网络的对照组。
所有模型均采用时间序列分割策略,使用最后30%的训练数据作为验证集,并实施早停和学习率调整策略以防止过拟合。通过对比RMSE、MAE、MAPE等评估指标,以及对预测曲线波动性分析,系统评估各模型与组件的性能。

2.1 特征重要性与相关性分析

计算出水COD浓度与输入参数之间的相关性,生成皮尔逊相关系数热力图,如图2所示。
图2 水质参数皮尔逊相关系数热力图

Fig.2 Heatmap of Pearson correlation coefficients of water quality parameters

图2可知,出水COD浓度与各输入参数间的线性相关性均较弱,其中与进水COD浓度(相关系数0.22)和进水氨氮(相关系数0.20)的相关性相对较高。这种低相关性特征说明出水COD浓度的变化模式较为复杂,可能受到多种非线性因素的综合影响,包括微生物降解过程、环境条件变化以及工艺参数调节等。因此,传统的线性预测方法难以有效捕捉这种复杂的非线性关系,而基于深度学习的LSTM与注意力机制相结合的方法能够更好地处理这种复杂的时序依赖关系,通过注意力机制动态识别不同时间步和特征的重要性,从而提高出水COD浓度的预测精度。
为了提高模型预测的稳定性和可靠性,本研究采用集成学习方法,通过训练5个具有不同随机种子的BiLSTM-注意力机制模型,并对各模型的注意力权重进行统计分析如图3。集成方法能够有效降低单一模型可能存在的偶然性和过拟合风险,从而获得更加稳健的特征重要性评估结果。
图3(a)可知,模型的注意力权重整体分布在0.040~0.046的窄范围内,显示出相对均衡的特征。其中,早期时间步(0~5步)的权重略高于后期(18~23步),这可能反映了水质系统中初始状态对后续演化的一定影响。然而,这种差异较小,表明模型在捕捉长短期依赖关系时保持了适度的权重分配。
图3 出水COD浓度集成均值时间注意力与特征注意力热力图

Fig.3 Temporal attention heatmap (top) and feature attention heatmap (bottom)

图3(b)集成特征注意力热力图进一步揭示了关键特征的时间重要性分布,其中出水pH值在最近时间步(第23步)表现出最高的注意力权重(约0.30),其次是进水总磷(约0.20~0.25),表明这2个参数是预测出水COD浓度的核心影响因素。同时,出水COD浓度自身在最近时间步也获得了较高关注,而过程段溶解氧在近期也显示出一定贡献。这种注意力分布模式不仅验证了模型能自动识别关键特征,也为水质监测策略的优化提供了重要的解释性依据。

2.2 模型预测效果对比分析

LSTM、BiLSTM、BiLSTM-注意力机制、1D-CNN模型对出水COD浓度的预测效果进行对比。各模型的预测效果评估指标如表1所示。
表1 模型对出水COD浓度的预测效果评估指标对比

Table 1 Comparison of model performance indicators for evaluating the prediction results of COD concentration in effluents

模型 RMSE MAE MAPE/%
LSTM 1.187 0 0.941 2 9.88
BiLSTM 1.174 1 0.926 9 9.79
BiLSTM-注意力机制 1.015 3 0.798 9 8.20
1D-CNN 1.334 7 1.055 5 10.78
为验证BiLSTM与注意力机制各组件的有效性,本研究设计了消融实验,对比了4种模型:单向LSTM模型(基准)、BiLSTM模型(验证双向机制)、BiLSTM-注意力机制模型(完整模型)和1D-CNN模型(非循环网络对照)。
消融试验结果(图4表1)揭示了BiLSTM-注意力机制在污水处理厂出水COD浓度预测中发挥了重要作用。BiLSTM模型较LSTM模型在预测性能上有所提升,RMSE降低幅度为1.1%(由1.187 0降至1.174 1),MAE降低幅度为1.5%(由0.941 2降至0.926 9),MAPE降低幅度为0.9%(由9.88%降至9.79%),尽管性能提升幅度相对有限,但这一变化趋势仍证实了双向信息流在捕捉水质参数时序依赖关系方面的潜在优越性,表明考虑前后文信息对准确预测出水COD浓度具有一定帮助。
图4 模型对出水COD浓度的预测结果对比

Fig.4 Comparison of prediction results of COD concentration in effluents

注意力机制的引入显著提升了模型的预测性能。BiLSTM-注意力机制模型较BiLSTM模型,RMSE降低幅度为13.5%(从1.174 1降至1.015 3),MAE降低幅度为13.8%(从0.926 9降至0.798 9),MAPE降低幅度为15.3%(从9.79%降至8.29%),在波动捕捉能力上表现出显著优势。由注意力热力图分析,BiLSTM-注意力机制模型能够动态识别关键时间步和特征的重要性,其中对早期时间步(0~6步)赋予更高权重,并识别出过程段溶解氧和污泥浓度等关键运行参数对出水COD浓度的显著影响。这种动态权重分配机制使模型能够更好地捕捉水质参数的变化趋势,为污水处理厂预防出水超标提供了重要的预测依据。
此外,作为对比,1D-CNN模型的预测性能最差,其预测曲线与原始数据偏差较大,未能有效捕捉数据波动,各项评估指标也均劣于LSTM类模型。这进一步凸显了LSTM类模型,特别是结合了注意力机制的BiLSTM模型,在处理水质时间序列数据方面的优越性。
综上所述,消融实验结果验证了BiLSTM与注意力机制结合的有效性。虽然双向信息流的独立贡献相对有限,但注意力机制的引入显著提升了模型的预测精度和对复杂波动(尤其是突变点)的捕捉能力,这对于污水处理厂预防出水超标具有重要的实践意义。这种集成策略使得模型能够更好地适应污水处理厂出水COD浓度这类具有高度非线性和时变特性的复杂系统。通过注意力机制提升模型对关键时间步和特征的识别能力,进而增强对时序数据中突变点捕捉能力的研究,在时间序列预测领域已有广泛论证(例如短期电力负荷预测[9]、网络流量预测[10]、设备智能故障诊断[22]等)

3 结论

本文提出了基于BiLSTM-注意力机制的深度学习架构,用于污水处理厂出水COD浓度预测。通过消融实验验证,得出以下主要结论:
(1)BiLSTM模型较LSTM在预测性能上有所提升,RMSE降低幅度为1.1%(从1.187 0降至1.174 1),MAE降低幅度为1.5%(从0.941 2降至0.926 9),MAPE降低幅度为0.9%(从9.88%降至9.79%),论证了双向信息流在捕捉时序依赖关系方面的有效性。
(2)注意力机制的引入显著提升了模型预测精度,BiLSTM-注意力机制模型较BiLSTM模型,RMSE降低幅度为13.5%(从1.174 1降至1.015 3),MAE降低幅度为13.8%(从0.926 9降至0.798 9),MAPE降低幅度为15.3%(从9.79%降至8.29%),在波动捕捉能力上表现出显著优势。
(3)多头注意力机制有效增强了模型对水质突变的敏感度,通过动态识别关键时间步和特征,显著提高了对出水COD浓度突变点的预测准确度,为预防出水超标提供了重要技术支撑。
(4)基于注意力机制的可解释性分析为污水处理过程提供了新的理解视角,通过识别关键特征和时间点,为工艺参数优化和运行管理提供了科学依据。
研究建议:
(1)探索更长步长的多步预测技术,将当前的3步预测扩展为5~10步预测,以更好地满足实际应用需求。
(2)考虑引入更多环境因素和输入参数,如温度、pH值变化趋势等,进一步提升模型预测精度。
(3)研究模型在不同污水处理工艺条件下的泛化能力,验证其在其他类型污水处理厂中的适用性。
[1]
张羽就, 席佳锐, 陈玲, 等. 中国城镇污水处理厂能耗统计与基准分析[J]. 中国给水排水, 2021, 37(8):8-17.

(ZHANG Yu-jiu, XI Jia-rui, CHEN Ling, et al. Energy Consumption Statistics and Benchmarking Analysis of Urban Wastewater Treatment Plants(WWTPS) in China[J]. China Water & Wastewater, 2021, 37(8): 8-17. (in Chinese))

[2]
曹业始, 郑兴灿, 刘智晓, 等. 中国城市污水处理的瓶颈、缘由及可能的解决方案[J]. 北京工业大学学报, 2021, 47(11): 1292-1302.

(CAO Ye-shi, ZHENG Xing-can, LIU Zhi-xiao, et al. Bottlenecks and Causes, and Potential Solutions for Municipal Sewage Treatment in China[J]. Journal of Beijing University of Technology, 2021, 47(11): 1292-1302. (in Chinese))

[3]
郭亚萍, 顾国维. ASM2d在污水处理中的研究与应用[J]. 中国给水排水, 2006, 22(6): 8-10.

(GUO Ya-ping, GU Guo-wei. Study and Application of ASM2d in Wastewater Treatment[J]. China Water & Wastewater, 2006, 22(6): 8-10. (in Chinese))

[4]
宓云軿, 王晓萍, 金鑫. 基于机器学习的水质COD预测方法[J]. 浙江大学学报(工学版), 2008, 42(5): 790-793.

(MI Yun-ping, WANG Xiao-ping, JIN Xin. Water COD Prediction Based on Machine Learning[J]. Journal of Zhejiang University (Engineering Science), 2008, 42(5): 790-793. (in Chinese))

[5]
IBRAHIM M, HAIDER A, LIM J W, et al. Artificial Neural Network Modeling for the Prediction, Estimation, and Treatment of Diverse Wastewaters: A Comprehensive Review and Future Perspective[J]. Chemosphere, 2024, 362: 142860.

DOI

[6]
朱琳, 李明河, 陈园. 基于EHO优化的BP神经网络污水处理出水COD预测模型[J]. 重庆工商大学学报(自然科学版), 2022, 39(3): 26-32.

(ZHU Lin, LI Ming-he, CHEN Yuan. Prediction Model for Effluent COD in Sewage Treatment Based on BP Neural Network Optimized by EHO[J]. Journal of Chongqing Technology and Business University (Natural Science Edition), 2022, 39(3): 26-32. (in Chinese))

[7]
张玉泽, 姚立忠, 罗海军. 基于量子加权最小门限单元网络的出水COD预测[J]. 环境工程技术学报, 2023, 13(5): 1857-1864.

(ZHANG Yu-ze, YAO Li-zhong, LUO Hai-jun. Prediction of Effluent COD Based on Quantum Weighted Minimal Gated Unit Network[J]. Journal of Environmental Engineering Technology, 2023, 13(5): 1857-1864. (in Chinese))

[8]
尚旭东, 段中兴, 陈炳生, 等. 基于双向长短期记忆网络组合模型的水质预测[J]. 环境科学学报, 2024, 44(7): 261-270.

(SHANG Xu-dong, DUAN Zhong-xing, CHEN Bing-sheng, et al. Water Quality Prediction Based on a Composite Model of Bidirectional Long Short-term Memory Networks[J]. Acta Scientiae Circumstantiae, 2024, 44(7): 261-270. (in Chinese))

[9]
朱凌建, 荀子涵, 王裕鑫, 等. 基于CNN-Bi LSTM的短期电力负荷预测[J]. 电网技术, 2021, 45(11): 4532-4539.

(ZHU Ling-jian, XUN Zi-han, WANG Yu-xin, et al. Short-term Power Load Forecasting Based on CNN-BiLSTM[J]. Power System Technology, 2021, 45(11): 4532-4539. (in Chinese))

[10]
杜秀丽, 范志宇, 吕亚娜, 等. 基于双向长短期记忆循环神经网络的网络流量预测[J]. 计算机应用与软件, 2022, 39(2): 144-149, 156.

(DU Xiu-li, FAN Zhi-yu, Ya-na, et al. Network Traffic Prediction Based on Bilstm Recurrent Neural Network[J]. Computer Applications and Software, 2022, 39(2): 144-149, 156. (in Chinese))

[11]
SHEIK A G, AHMAD MALLA M, SRUNGAVARAPU C S, et al. Prediction of Wastewater Quality Parameters Using Adaptive and Machine Learning Models: A South African Case Study[J]. Journal of Water Process Engineering, 2024, 67: 106185.

DOI

[12]
CHENG T, HARROU F, KADRI F, et al. Forecasting of Wastewater Treatment Plant Key Features Using Deep Learning-based Models: A Case Study[J]. IEEE Access, 2020, 8: 184475-184485.

DOI

[13]
BI J, CHEN Z, YUAN H, et al. Accurate Water Quality Prediction with Attention-based Bidirectional LSTM and Encoder-Decoder[J]. Expert Systems with Applications, 2024, 238: 121807.

DOI

[14]
ZHANG Q, WANG R, QI Y, et al. A Watershed Water Quality Prediction Model Based on Attention Mechanism and Bi-LSTM[J]. Environmental Science and Pollution Research, 2022, 29(50): 75664-75680.

DOI

[15]
王雷, 张煜, 赵艺琨, 等. 基于多空间维度联合方法改进的BiLSTM出水氨氮预测方法[J]. 中国农村水利水电, 2025(2): 17-24.

(WANG Lei, ZHANG Yu, ZHAO Yi-kun, et al. Improved BiLSTM Effluent Ammonia Nitrogen Prediction Method Based on Multi-dimensional Joint Method[J]. China Rural Water and Hydropower, 2025(2): 17-24. (in Chinese))

[16]
邹吕熙, 李怀波, 郑凯凯, 等. 太湖流域城镇污水处理厂进水水质特征分析[J]. 给水排水, 2019, 55(7): 39-45.

(ZOU Lü-xi, LI Huai-bo, ZHENG Kai-kai, et al. Analysis on the Characteristics of Influent Water Quality from Wastewater Treatment Plants in Taihu Basin[J]. Water & Wastewater Engineering, 2019, 55(7): 39-45. (in Chinese))

[17]
管业鹏, 苏光耀, 盛怡. 双向长短期记忆网络的时间序列预测方法[J]. 西安电子科技大学学报, 2024, 51(3): 103-112.

(GUAN Ye-peng, SU Guang-yao, SHENG Yi. Time Series Prediction Method Based on the Bidirectional Long Short-term Memory Network[J]. Journal of Xidian University, 2024, 51(3): 103-112. (in Chinese))

[18]
郑志超, 陈进东, 张健. 融合非负正弦位置编码和混合注意力机制的情感分析模型[J]. 计算机工程与应用, 2024, 60(15): 101-110.

DOI

(ZHENG Zhi-chao, CHEN Jin-dong, ZHANG Jian. Sentiment Classification Model Based on Non-negative Sinusoidal Positional Encoding and Hybrid Attention Mechanism[J]. Computer Engineering and Applications, 2024, 60(15): 101-110. (in Chinese))

DOI

[19]
任欢, 王旭光. 注意力机制综述[J]. 计算机应用, 2021, 41(增刊1): 1-6.

(REN Huan, WANG Xu-guang. Review of Attention Mechanism[J]. Journal of Computer Applications, 2021, 41(Supp. 1): 1-6. (in Chinese))

[20]
仵晓聪, 冯鑫, 蒋豪. 基于多头注意力CNN-LSTM碳排放量预测研究[J/OL]. 重庆工商大学学报(自然科学版).(2024-06-06)[2025-04-25].

WU Xiao-cong, FENG Xin, JIANG Hao. Carbon Emission Prediction Based on Multi-head Attention CNN-LSTM[J/OL]. Journal of Chongqing Technology and Business University (Natural Science Edition).(2024-06-06)[2025-04-25]. (in Chinese))

[21]
赖雪梅, 唐宏, 陈虹羽, 等. 基于注意力机制的特征融合-双向门控循环单元多模态情感分析[J]. 计算机应用, 2021, 41(5): 1268-1274.

DOI

(LAI Xue-mei, TANG Hong, CHEN Hong-yu, et al. Multimodal Sentiment Analysis Based on Feature Fusion of Attention Mechanism-bidirectional Gated Recurrent Unit[J]. Journal of Computer Applications, 2021, 41(5): 1268-1274. (in Chinese))

DOI

[22]
王太勇, 王廷虎, 王鹏, 等. 基于注意力机制BiLSTM的设备智能故障诊断方法[J]. 天津大学学报(自然科学与工程技术版), 2020, 53(6): 601-608.

(WANG Tai-yong, WANG Ting-hu, WANG Peng, et al. An Intelligent Fault Diagnosis Method Based on Attention-based Bidirectional LSTM Network[J]. Journal of Tianjin University (Science and Technology), 2020, 53(6): 601-608. (in Chinese))

文章导航

/