少样本场景下基于迁移学习的污水厂进水氨氮预测

吕臣凯; 蒋云鹏; 刘煜; 王浩博; 陆熙; 王泽鑫

doi:10.11988/ckyyb.20250599

长江科学院院报 >

2025 , Vol. 42 >Issue 12: 180 - 187

DOI: https://doi.org/10.11988/ckyyb.20250599

长江中下游地区城市水环境治理技术研究专栏

少样本场景下基于迁移学习的污水厂进水氨氮预测

吕臣凯 ^,¹^,² ,
蒋云鹏 ^,²^,³^,⁴ ,
刘煜 ¹^,² ,
王浩博 ¹^,² ,
陆熙 ²^,³^,⁴^,⁵ ,
王泽鑫 ²^,³^,⁴

展开

¹ 长江生态环保集团有限公司, 武汉 430010
² 中国长江三峡集团有限公司, 武汉 430010
³ 上海勘测设计研究院有限公司, 上海 200335
⁴ 三峡智慧水务科技有限公司, 上海 200335
⁵ 长江经济带生态环境国家工程研究中心, 武汉 430010

蒋云鹏(1997-),男,浙江温州人,工程师,硕士,研究方向为数据驱动模型在水领域的应用、系统优化与实时控制。E-mail: jiang_yunpeng1@ctg.com.cn

吕臣凯(1989-),男,江苏南京人,高级工程师,硕士,研究方向为水务厂站智能控制、城市级水务一体化调控、厂站集控运行等。E-mail: lv_chenkai@ctg.com.cn

Copy editor: 罗玉兰

收稿日期: 2025-06-26

修回日期: 2025-08-25

网络出版日期: 2025-10-17

基金资助

中国长江三峡集团有限公司资助项目(NBWL202300014)

收起

Prediction of Influent Ammonia Nitrogen in Wastewater Treatment Plants Based on Transfer Learning under Few-Shot Scenarios

LÜ Chen-kai ^,¹^,² ,
JIANG Yun-peng ^,²^,³^,⁴ ,
LIU Yu ¹^,² ,
WANG Hao-bo ¹^,² ,
LU Xi ²^,³^,⁴^,⁵ ,
WANG Ze-xin ²^,³^,⁴

Expand

¹ Yangtze Ecology and Environment Co., Ltd., Wuhan 430010, China
² China Three Gorges Corporation, Wuhan 430010, China
³ Shanghai Investigation, Design & Research Institute Co., Ltd., Shanghai 200335, China
⁴ Three Gorges Smart Water Technology Co., Ltd., Shanghai 200335, China
⁵ National Engineering Research Center of Eco-Environment in the Yangtze River Economic Belt, Wuhan 430010, China

Received date: 2025-06-26

Revised date: 2025-08-25

Online published: 2025-10-17

Fold

摘要

在污水处理工程实践中,进水氨氮的预测对保障生物处理工艺稳定运行、实现低碳高效脱氮至关重要,而进水氨氮负荷波动会干扰硝化反硝化动态平衡,导致脱氮效率下降、出水水质风险及成本增加。然而目标污水厂常因监测设备与数据采集限制面临有效样本匮乏问题,传统方式训练的模型易发生欠拟合或者过拟合的情况,使得预测性能受限。为此,提出基于迁移学习的 1DCNN-LSTM 深度混合模型,融合 1DCNN 局部特征提取与 LSTM 时序依赖建模能力,通过迁移相关场景的预训练模型,构建少样本条件下的预测框架。对比试验显示该方法较直接,在少样本数据集上所训练的模型有效地提升了预测性能,R²从0.635升至0.692,RMSE由1.650降至1.515,有效验证了迁移学习在增强泛化能力与精度上的优势,为污水厂精准调控工艺参数、优化药剂投加策略提供可靠技术路径。

关键词： 进水氨氮预测; 迁移学习; 1DCNN-LSTM; 少样本学习

本文引用格式

吕臣凯 , 蒋云鹏 , 刘煜 , 王浩博 , 陆熙 , 王泽鑫 . 少样本场景下基于迁移学习的污水厂进水氨氮预测[J]. 长江科学院院报, 2025 , 42(12) : 180 -187 . DOI: 10.11988/ckyyb.20250599

Abstract

[Objective] Accurate prediction of influent ammonia nitrogen concentration is a key support for ensuring the stability of the biological treatment process in wastewater treatment plants and achieving low-carbon and efficient nitrogen removal. However, target wastewater treatment plants often face a shortage of effective samples due to insufficient monitoring equipment and limited data collection, which leads to poor prediction performance as traditional models are prone to underfitting or overfitting. This study aims to construct a 1DCNN-LSTM deep hybrid model based on transfer learning to overcome the bottleneck of influent ammonia nitrogen prediction under few-shot scenarios and achieve accurate prediction. [Methods] Two wastewater treatment plants with the same process in southeastern China were selected as the source domain and target domain. The source domain comprised hourly monitoring data from February to November 2024, including influent flow rate (Q), pH value, chemical oxygen demand (COD), etc., while the target domain consisted of scarce data from November 10 to 30, 2024. A 1DCNN-LSTM model was constructed, using historical data combined with multi-scale autocorrelation features and first-order difference features of ammonia nitrogen as the model input. Bayesian optimization was used to determine the model hyperparameters. Additionally, the model was first trained on the source domain. For the target domain, transfer learning was applied using a two-stage transfer strategy. First, the convolutional layers and LSTM layers of the source domain pre-trained model were frozen, and only the fully connected layers of the target domain were trained. Then, the entire model was fine-tuned with a small learning rate. Finally, performance was evaluated using indicators such as RMSE, MAPE, and R². [Results] First, the data distributions of the source and target domains exhibited certain similarities while also showing certain differences, which conformed to the application scenario of transfer learning. The source domain model showed excellent performance, with RMSE=1.65, MAPE=4.60%, and R²=0.91 on the test set, and it could accurately capture the short-term fluctuations and long-term trends of ammonia nitrogen concentration. In the target domain, the performance of the transfer learning model was significantly better than the directly trained model. RMSE decreased from 1.650 to 1.515, a reduction of 8.18%. MAPE decreased from 5.62% to 5.21%, a reduction of 7.23%. R² increased from 0.635 to 0.692, an increase of 9.02%. The prediction curve of the transfer model was smoother and aligned more closely with the measured values, demonstrating stronger adaptability and stability, particularly during sudden changes in ammonia nitrogen concentration. [Conclusion] The core innovations of this study are reflected in two aspects. First, this study proposes a 1DCNN-LSTM hybrid architecture that integrates the advantages of local feature extraction and long-term dependency modeling, overcoming the limitations of single models in capturing the complex dynamic changes in ammonia nitrogen. Second, it designs a two-stage transfer strategy that not only preserves the general knowledge learned from the source domain but also adapts to the differences of the target domain through fine-tuning, effectively addressing the issues of small samples and domain shift and avoiding the accuracy decline caused by directly applying the source domain model. The results confirm that the 1DCNN-LSTM model can reliably capture the variation patterns of ammonia nitrogen, and transfer learning can significantly enhance the prediction accuracy and generalization ability under few-shot scenarios. This provides a reliable technical pathway for wastewater treatment plants to precisely regulate process parameters and optimize chemical dosing and offers a new perspective for addressing the issue of scarce water quality monitoring data, which is of great significance for promoting the intelligent and precise wastewater treatment.

Key words： influent ammonia nitrogen prediction; transfer learning; 1DCNN-LSTM; few-shot learning

0 引言

氨氮作为污水处理厂进水的关键水质指标之一,其浓度的准确预测对于保障水环境安全、满足排放标准以及优化污水处理工艺具有重要意义。精准预测氨氮浓度不仅有助于提前预警和调控处理工艺参数,还能够为污水处理厂的运行优化和成本控制提供重要依据。因此,建立有效的进水氨氮浓度预测模型,对于实现污水处理厂的精准控制和智能化运营至关重要。

近年来,随着人工智能技术的快速发展,基于机器学习和深度学习的水质预测方法得到了广泛关注和应用。宦娟等^[1]提出一种基于时空图卷积融合长短记忆神经网络的河流水质时空预测模型,以较短的训练时间得到较高的预测精度,实现了对河流水质的精准预测。龚晓露^[2]在城镇污水处理厂进水预测的实践研究中证明了机器学习方法的有效性。传统的神经网络方法如BP(Back Propagation)神经网络^[3] 、多神经网络^[4]以及各种组合模型^[5-7]在污水水质预测领域均取得了良好效果。Wang等^[8]基于改进的AdaBoost和长短期记忆网络(Long Short-Term Memory, LSTM)开发了水产养殖氨氮浓度预测模型,进一步扩展了氨氮预测的应用范围。Wang等^[9]基于自组织混合神经网络对污水处理厂出水氨氮进行预测,Li等^[10]提出了多子系统协作的Bi-LSTM自适应软传感器用于氨氮浓度的全局预测,Li等^[11]开发了基于注意力机制的深度学习混合模型用于地表水氨氮预测,这些研究表明深度学习方法在水质预测方面具有显著优势。

然而,在实际应用中,污水处理厂的自动化和智能化改造仍处于起步阶段,许多关键水质参数的在线监测设备配置不完善,导致历史监测数据量不足。数据稀缺性问题严重制约了传统深度学习模型的训练效果,使得模型难以充分学习复杂的水质变化规律,进而影响预测精度和模型的泛化能力。

迁移学习作为一种有效的机器学习范式,能够将从源域学习到的知识迁移到目标域,在数据稀缺场景下表现出显著优势。Song等^[12]提出了脉冲迁移学习方法,成功解决了多区域河流氨氮预测中的有限数据问题。Peng等^[13]开发了基于循环微调迁移学习的水质长期预测模型,Chen等^[14]将迁移学习与LSTM结合用于大规模连续缺失数据的插补和水质预测系统。Zhang等^[15]在机电液SBW故障诊断中采用了基于注意力机制和迁移学习的1DCNN-LSTM方法,展现了迁移学习在复杂系统预测中的有效性。这些研究证明了迁移学习在数据稀缺条件下水质预测领域的巨大潜力。

在深度学习模型选择方面,一维卷积神经网络(1D Convolutional Neural Network, 1DCNN)和LSTM的组合模型在时序预测任务中表现突出。1DCNN模型能够有效提取时序数据的局部特征^[16-17],而LSTM模型则擅长捕获长期依赖关系。Kanwal等^[18]提出了BiCuDNNLSTM-1DCNN混合深度学习模型用于股价预测,Li等^[19]开发了基于多通道1DCNN-LSTM的刀具磨损预测模型,Qiao等^[20]将1DCNN-LSTM神经网络结构应用于短期交通流预测。这些跨领域的研究进一步验证了1DCNN-LSTM混合模型在复杂时序预测任务中的优越性能和广泛适用性。

综上,现有深度学习模型在样本数据充足时表现良好,然而在少样本条件下,其数据的稀疏性制约了模型从有限历史数据中学习复杂水质变化规律的能力,导致特征的表征能力不足。同时,模型的高维超参数空间在少量样本上容易引发过拟合,学习到噪声或样本的特异性模式,导致模型的鲁棒性不足,难以满足实际污水处理厂在数据匮乏场景下的精准预测需求。如果直接应用其他厂预训练模型,则容易因源域与目标域在数据条件与机理上的差异,导致预测精度显著下降。

基于上述分析,本研究提出了一种基于迁移学习的1DCNN-LSTM模型,用于少样本条件下的污水厂进水氨氮浓度预测。首先构建1DCNN-LSTM预测模型,通过在数据丰富的源域进行预训练获得初始模型参数,然后将预训练模型迁移到目标污水处理厂,利用少量目标域数据进行微调,实现对进水氨氮浓度的准确预测。

1 材料与方法

1.1 污水处理厂概况

本研究选取中国东南部某典型污水处理厂工艺线作为源域研究对象,以东南另一相同工艺线污水处理厂作为目标域研究对象。源域在线监测数据采集周期为2024年2月至2024年11月,涵盖进水流量(Q)、pH值(pH)、化学需氧量(COD)、氨氮(NH₃-N)、总氮(TN)、总磷(TP)等关键水质指标,各参数以1 h为采样间隔实施连续监测,经数据预处理后采用小时平均值作为分析样本。2个污水处理厂均位于中国东南部,具有相似的地理位置、气候条件和工业结构,且采用相同的处理工艺,为迁移学习提供了基础相似性。源域数据跨越了2—11月份的时间周期,涵盖了春、夏、秋3个季节的水质变化规律,包含了不同气候条件、降雨模式和污染物浓度变化的典型特征。虽然目标域数据时间窗口较短(11月10—30日),但该时段正好处于源域数据的覆盖范围内,使得模型能够利用源域中相应时期的季节性规律进行知识迁移。此外,小时级的高频监测数据确保了充足的样本密度。

1.2 数据预处理

1.2.1 异常检测

首先对在线监测获取的进水水质数据进行异常值检测与填补,确保后续模型的训练避免受到离异值的干扰。本文采用箱线图^[21]的异常检测方法,该方法基于四分位距原理,可以分别针对各项指标分别进行分析,识别潜在的异常值并揭示数据分布的特性。异常值的判定阈值依据历史数据分布特征确定,计算式如下:

(1)

$\mathrm{I}\mathrm{Q}\mathrm{R}={Q}_{3}-{Q}_{1}　,$

(2)

$\mathrm{l}\mathrm{b}={Q}_{1}-1.5\mathrm{I}\mathrm{Q}\mathrm{R}　,$

(3)

$\mathrm{u}\mathrm{b}={Q}_{3}+1.5\mathrm{I}\mathrm{Q}\mathrm{R}　。$

式中:Q₃和Q₁为分别表示上四分位数和下四分位数;IQR(四分位距)为上四分位数与下四分位数之差,表征了数据集中间50%区域观测值的离散程度。异常值的判定规则如下:位于上下边界(ub,lb)区间内的观测值为正常值,超出该区间的观测值则被视为异常值。

1.2.2 数据填补

异常检测环节中诊断出的各指标异常值均从原始数据集中移除,并标记为缺失状态,与初始缺失记录合并构成统一的缺失数据集。针对时间序列中的缺失值,本研究基于连续缺失的时长建立了2种处理策略。

1.2.2.1 短期缺失(缺失时长≤6 h)

采用线性插值方法进行填补,计算式见式(4),该方法利用缺失时段相邻有效观测点构建局部的线性关系,保持序列的连续性。

(4)

$y={y}_{0}+\frac{\left(x-{x}_{0}\right)\left({y}_{1}-{y}_{0}\right)}{\left({x}_{1}-{x}_{0}\right)}　。$

式中:y为待填补时刻x的估计值;y₀、y₁分别为缺失时段前/后相邻的有效时刻x₀、x₁的实测值。

1.2.2.2 长期缺失(缺失时长>6 h)

连续缺失超过6 h的样本点直接从数据集永久移除,考虑到长期缺失导致插值误差呈非线性增长,引入不可控噪声。移除低置信度样本可保障后续模型训练的数据可靠性。

1.3 算法模型构建

1.3.1 1DCNN-LSTM时序预测模型

1.3.1.1 1DCNN网络

1 DCNN是一种专门处理序列数据的深度学习架构,通过滑动一维卷积核自动提取时间序列中的特征^[22-23],尤其适用于时序预测任务。其核心机制包括卷积层、池化层。卷积层通过可学习的滤波器捕捉数据的局部相关性(如趋势变化、周期性波动),池化层对特征图进行降维以减少计算量并增强平移不变性。1DCNN的工作流程如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 1DCNN工作流程

Fig.1 Workflow of 1DCNN

1.3.1.2 LSTM网络

LSTM是递归神经网络(Recurrent Neural Network, RNN)的经典改进架构,通过引入门控机制有效解决了传统 RNN 的长期依赖问题,在时序预测领域广泛应用^[24-25]。其核心结构包含细胞状态(Cell State)和3个门控单元(遗忘门、输入门、输出门),通过自适应调节信息的保留与遗忘,实现长序列关键信息的记忆与传递。LSTM 的门控机制使其能够捕捉时间序列中的复杂依赖关系,尤其适用于处理非平稳数据(如受季节因素影响的污水处理负荷)和长序列预测任务。图2展示了一个LSTM单元及其工作流程图,具体处理步骤如下所示^[26]。

显示原图|下载原图ZIP|生成PPT

图2 LSTM单元工作流程

Fig.2 Workflow of LSTM unit

步骤一:LSTM单元中的遗忘门通过控制历史记忆信息决定上一时刻状态的保留情况,计算式为

(5)

${f}_{t}=\sigma \left({W}_{f}\left[{h}_{t-1},{x}_{t}\right]+{b}_{f}\right)　。$

式中:σ( )表示Sigmoid激活函数;W_f表示遗忘门的权重;b_f表示遗忘门的偏置;h_t_-1表示 LSTM 单元上一时刻的隐藏状态;x_t表示当前时刻的输入数据。遗忘门通过Sigmoid函数将输入与上一时刻的状态映射为0~1之间的值来决定上一时刻状态的保留情况,1表示完全保留,0表示舍弃。

步骤二:由输入门决定当前时刻的输出信息。输入门首先通过tanh函数构建候选向量,然后通过 sigmoid函数选择其遗忘的比例,计算式为:

(6)

$\stackrel{̑}{{C}_{t}}=\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({W}_{c}\left[{h}_{t-1},{x}_{t}\right]+{b}_{c}\right)　,$

(7)

${i}_{t}=\sigma \left({W}_{i}\left[{h}_{t-1},{x}_{t}\right]+{b}_{i}\right)　。$

式中:

$\stackrel{̑}{{C}_{t}}$

表示当前时刻的候选单元状态,由tanh函数生成,用于更新细胞状态;i_t表示输入门的输出,由 sigmoid 函数生成,控制当前候选状态有多少能进入细胞状态;W_c与b_c分别表示构造候选向量时的权重与偏置;W_i与b_i分别表示输入门的权重与偏置。

步骤三:由输出门通过控制记忆状态决定输出值,计算式为:

(8)

${O}_{t}=\sigma \left({W}_{o}\left[{h}_{t-1},{x}_{t}\right]+{b}_{o}\right)　,$

(9)

${C}_{t}={f}_{t}{C}_{t-1}+{i}_{t}\stackrel{̑}{{C}_{t}}　,$

(10)

${h}_{t}={O}_{t}\mathrm{t}\mathrm{a}\mathrm{n}\mathrm{h}\left({C}_{t}\right)　。$

式中:O_t为输出门的输出,由 sigmoid 函数生成,控制细胞状态有多少能输出到隐藏层;f_t为遗忘门的输出;C_t为当前时刻的单元状态;W_o、b_o分别表示输出门权重与偏置;当前时刻的输出h_t为当前状态C_t经过tanh后与Sigmoid层的输出O_t相乘后的结果。

1.3.1.3 1DCNN-LSTM

将从1DCNN网络中获得到的特征向量输入到LSTM网络中,整合1DCNN的局部特征提取能力与LSTM的长期依赖建模优势,构建一维卷积神经网络与长短期记忆网络融合模型(1DCNN-LSTM),实现对多尺度时间序列数据的特征解析。本文采用的具体模型网格如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 1DCNN-LSTM模型结构

Fig.3 Structure of 1DCNN-LSTM model

1.3.2 迁移学习

迁移学习作为机器学习的关键技术,其核心功能在于突破传统方法中训练数据与测试数据需属同一领域且分布一致的限制,通过跨领域知识迁移机制,将源领域中学习到的通用特征、模型参数或训练策略迁移至目标领域,从而显著提升目标任务的学习效率与性能,尤其适用于目标领域数据稀缺、标注成本高昂或数据分布存在差异的场景^[27-28]。本文借助迁移学习的思想,集成以下两种策略实现源域模型向目标域的适应性迁移。

(1)特征提取层冻结。首先将源域预训练的1DCNN-LSTM模型的卷积层与LSTM层参数进行冻结,仅利用目标域数据对末端全连接层进行训练,保留源域模型学习得到的局部特征提取和时序依赖建模能力,例如1DCNN捕获的水质指标波动模式和LSTM对负荷周期性的记忆,使目标模型在少样本条件下快速构建基础预测框架。

(2)微调。在完成全连接层训练的基础上,采用小学习率和有限训练轮次,对整个1DCNN-LSTM模型进行梯度更新,保留源域知识的同时动态调整特征表示以匹配目标域数据分布。

整合两个策略的迁移学习工作流程如图4所示。

显示原图|下载原图ZIP|生成PPT

图4 迁移学习流程

Fig.4 Workflow of transfer learning

1.4 特征工程

本研究构建的特征工程体系围绕进水水质水量的多维度时序表征展开,包括Q、NH₃-N、pH值、TN、TP和COD六项在线监测指标作为基础时序特征,使用历史12 h数据作为输入。在此之上通过滑动窗口构建基于NH₃-N指标的多尺度自相关特征,包括以6 h和12 h窗口计算均值μ、最大值max、最小值min及标准差σ,捕捉NH₃-N的短期波动与中期趋势,同时为强化动态模式识别,进一步引入一阶差分特征,具体如式(11)—式(14)所示:

(11)

$\mathrm{N}{\mathrm{H}}_{s-w}\left(t\right)={\left[\begin{array}{l}{\mu }_{w}\left(t\right)\\ \mathrm{m}\mathrm{a}{\mathrm{x}}_{w}\left(t\right)\\ \mathrm{m}\mathrm{i}{\mathrm{n}}_{w}\left(t\right)\\ {\sigma }_{w}\left(t\right)\end{array}\right]}^{\mathrm{T}},w=\mathrm{6,12}　,$

(12)

$\mathrm{\Delta }\mathrm{N}\mathrm{H}\left(t\right)=\mathrm{N}{\mathrm{H}}_{3}-\mathrm{N}\left(t\right)-\mathrm{N}{\mathrm{H}}_{3}-\mathrm{N}(t-l)　,$

(13)

${X}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e}}\left(t\right)={\left[\begin{array}{l}Q\left(t\right)\\ \mathrm{N}{\mathrm{H}}_{3}-\mathrm{N}\left(t\right)\\ \mathrm{p}\mathrm{H}\left(t\right)\\ \mathrm{T}\mathrm{N}\left(t\right)\\ \mathrm{T}\mathrm{P}\left(t\right)\\ \mathrm{C}\mathrm{O}\mathrm{D}\left(t\right)\end{array}\right]}^{\mathrm{T}}　,$

(14)

$X=\left[\begin{array}{lll}{X}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e}}(t-11)& \dots & {X}_{\mathrm{b}\mathrm{a}\mathrm{s}\mathrm{e}}\left(t\right)\\ \mathrm{N}{\mathrm{H}}_{s-6}(t-11)& \dots & \mathrm{N}{\mathrm{H}}_{s-6}\left(t\right)\\ \mathrm{N}{\mathrm{H}}_{s-12}(t-11)& \dots & \mathrm{N}{\mathrm{H}}_{s-12}\left(t\right)\\ \mathrm{\Delta }\mathrm{N}\mathrm{H}(t-11)& \dots & \mathrm{\Delta }\mathrm{N}\mathrm{H}\left(t\right)\end{array}\right]　。$

式中:NH_s_-_w(t)代表w小时窗口内的NH₃-N统计值,其中w=6 h或12 h,l表示历史步长,取值为[0,11];ΔNH(t)表示NH₃-N的一阶差分值;X_base(t)代表Q、NH₃-N、pH值、TN、TP和COD的时刻值。用历史12个步长的值共同构成了模型的输入X,对未来t+1时刻的NH₃-N进行预测。

1.5 模型训练与测试

1.5.1 数据集划分

在本研究中,源域的数据集按照8∶1∶1的比例进行划分,80%的数据用于训练模型,10%的数据用于验证模型,最后10%用来测试模型。目标域模型由于数据量较少,不设置验证集,按照8∶2的比例划分训练集和测试集。

1.5.2 数据标准化

标准化处理的核心目标在于消除原始数据中各指标间的量纲差异与数值量级偏差。通过将原始数据映射为无量纲的标准化指标,使得不同指标在统一尺度下进行比较与运算,提升后续机器学习模型训练过程中的收敛速度与泛化能力。标准化处理遵循式(15)定义,即

(15)

$z=\frac{a-\mu }{\sigma }　。$

式中:z代表集中标准化处理后的指标变量;a代表原始数据集中待处理的指标变量。

1.6 性能评价指标

为全面地评估模型性能,本研究选用均方根误差(Root Mean Squared Error, RMSE)、平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)和决定系数(Coefficient of Determination,R²)3项指标,对模型模拟结果展开系统性分析。各评估指标的数学定义具体如式(16)—式(18)所示:

(16)

$RMSE=\sqrt{\frac{1}{n}\stackrel{n}{\sum _{i=1}}{\left({y}_{i}-{\stackrel{\wedge }{y}}_{i}\right)}^{2}}　,$

(17)

$\mathrm{M}\mathrm{A}\mathrm{P}\mathrm{E}=\frac{1}{n}\stackrel{n}{\sum _{i=1}}\left|\frac{{y}_{i}-{\stackrel{\wedge }{y}}_{i}}{{y}_{i}}\right|\times 100\mathrm{\%}　,$

(18)

${R}^{2}=1-\frac{\stackrel{n}{\sum _{i=1}}{\left({y}_{i}-{\stackrel{\wedge }{y}}_{i}\right)}^{2}}{\stackrel{n}{\sum _{i=1}}{\left({y}_{i}-\stackrel{-}{y}\right)}^{2}}　。$

式中:n代表样本数;y_i和

${\stackrel{\wedge }{y}}_{i}$

分别表示第i个样本的实际观测值与模型预测值;

$\stackrel{-}{y}$

代表实际观测值的均值。

RMSE通过计算预测值与实际值偏差的均方根,刻画了预测结果的平均离散程度,其数值越小表明预测值与实际值的总体偏差越小。MAPE以百分比形式衡量预测误差,规避了因目标变量数值量级差异导致的误差评估偏差,适用于不同尺度数据的误差对比。R²为衡量模型拟合优度的关键指标,表征了模型自变量对响应变量变异的解释比例,其取值区间为[0,1],越趋近于1,说明模型对数据变异的解释能力越强,预测性能越优。

2 结果与讨论

2.1 源域与目标域数据分布

图5展示了6个监测进水指标(pH值、TN、TP、COD、Q、NH₃-N)在源域(黑色)和目标域(灰色)经过标准化后的概率密度分布。横轴表示标准化后的数值范围,纵轴表示概率密度。各指标分布表现出不同特点:pH值在目标域更集中;TN在源域分布更窄且峰值更高;TP显示源域与目标域分布中心有偏移;COD在两域间分布形态相似;Q展示较高的分布重叠;NH₃-N在两域间保持相似形态但有轻微偏移。表明源域和目标域在多个特征上既有足够的共性,又存在需要适应的差异,适合迁移学习的应用。

显示原图|下载原图ZIP|生成PPT

图5 源域和目标域的pH、TN、TP、COD、Q和NH₃-N分布(标准化后)

Fig.5 Distribution of standardized source domain and target domain data (pH, TN, TP, COD, Q, and NH₃-N concentration)

2.2 源域模型结果

构建的1DCNN-LSTM进水NH₃-N预测模型首先在源域数据集上进行训练,模型的超参数配置如表1所示,结构性参数如卷积核大小、LSTM单元数、卷积滤波器数量等基于人工经验设定,而优化控制参数如丢弃率、训练批次大小、优化器类型等的最优值则通过贝叶斯优化在预设范围内寻优确定。其在测试集上的预测对比结果如图6所示,评估指标结果如表2所示。源域模型在测试集上展现了优秀的预测性能,预测值与实测值高度吻合,模型成功捕捉了NH₃-N浓度的时间动态特征,包括短期波动和长期趋势。特别是在浓度急剧变化区间,如2024年10月下旬和11月中旬的峰谷值,模型依然保持了较高的预测精度。表明所构建的模型在源域具有出色的学习能力和预测准确性,为后续向数据稀缺的目标域进行迁移学习提供了基础。

表1 1DCNN-LSTM模型超参数

Table 1 Hyper-parameters of 1DCNN-LSTM model

超参数	设定值	含义
batch_size	64	训练的批次大小
conv_kernel_size	3	卷积核大小
conv_pool_size	2	池化大小
conv_filters	64	卷积滤波器数
lstm_units	32	lstm单元数
dense_units	32	全连接层单元数
dropout_rate	0.2	丢弃率
optimizer	Adam	优化器
earlystop_patience	20	早停耐心值
epochs	150	训练轮数上限

显示原图|下载原图ZIP|生成PPT

图6 源域测试集预测值与实测值对比

Fig.6 Comparison between predicted and measured values on source domain test set

表2 源域测试集效果评估结果

Table 2 Performance evaluation results on source domain test set

RMSE/(mg·L^-1)	MAPE/%	R²
1.65	4.60	0.91

2.3 目标域模型结果对比

目标域上模型的直接训练沿用表1中的超参数配置,而迁移学习则采用两阶段训练策略:首阶段进行部分冻结训练,仅更新高层网络参数以适应新任务,设置epochs为50;次阶段进行整体微调,设置epochs为15,以较小学习率更新全部网络参数,进一步提升模型在目标域的适应性。两种模型预测值与实测值的对比如图7所示,从预测曲线可观察到,迁移学习模型生成的轨迹更加平滑且与实测数据吻合度更高,特别是在NH₃-N浓度突变的时刻,表现出更强的适应性和稳定性。

显示原图|下载原图ZIP|生成PPT

图7 目标域测试集预测值与实测值对比

Fig.7 Comparison between predicted and measured values on target domain test set

评估指标如表3所示,迁移学习策略下模型取得了更优异的预测性能,其RMSE降至1.650 mg/L,较直接训练模型降低了8.18%;MAPE为5.21%,相比直接训练模型的5.62%降低了7.23%; R²提升至0.692,比直接训练策略下高出9.02%,验证了迁移学习在进水NH₃-N预测任务上具备一定的优势。

表3 目标域测试集效果评估结果

Table 3 Performance evaluation results on target domain test set

策略	RMSE/(mg·L^-1)	MAPE/%	R²
直接训练	1.650	5.62	0.635
迁移学习	1.515	5.21	0.692

综合上述结果表明,迁移学习模型有效地从源域数据中提取了关键特征和潜在规律,并成功地将这些知识迁移至目标域,从而弥补了目标域数据量不足的缺陷。

3 结束语

本研究基于1DCNN-LSTM深度学习架构,探索了迁移学习在污水处理厂进水NH₃-N预测中的应用。首先1DCNN-LSTM模型在时间序列进水NH₃-N预测中展现出优异性能。模型在源域数据集上的预测结果表明,该架构能够有效捕捉NH₃-N浓度变化的时间动态特性。CNN层成功提取局部时间特征模式,而LSTM层则有效建模长期依赖关系,两者结合为进水NH₃-N的预测提供了强大的建模能力。

迁移学习策略在源域与目标域存在共性又具有一定差异的情况下表现出一定的优势。尽管两个污水处理厂在规模、工艺和进水特性方面存在差异,但通过迁移学习,模型成功将源域提取的水质变化规律迁移至目标域。同时在目标域数据样本较少的条件下,迁移学习模型相较于直接训练模型性能明显提升。表明迁移学习有效克服了领域偏移问题,解决了目标域数据稀缺时的模型训练问题,为不同污水处理设施间的知识迁移提供了理论基础。

综上,本研究验证了1DCNN-LSTM架构的有效性,并证明迁移学习能够在源域和目标域存在差异、目标域数据有限的情况下有效提升预测性能。为解决水质监测中的数据稀缺问题提供了新思路,对推动污水处理智能化和精准化具有重要的理论和实践意义。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]

宦娟, 张浩, 徐宪根, 等. 基于图卷积STG-LSTM的京杭运河水质时空预测研究[J]. 中国农村水利水电, 2022(8): 14-22.

(HUAN

Juan

, ZHANG

Hao

, XU

Xian-gen

, et al. Research on the Temporal and Spatial Prediction of the Water Quality of Beijing-Hangzhou Canal Based on Graph Convolution STG-LSTM[J]. China Rural Water and Hydropower, 2022(8): 14-22. (in Chinese))

[2]	龚晓露. 机器学习用于城镇污水处理厂进水预测的实践研究[J]. 给水排水, 2024, 60(3): 142-147. (GONG Xiao-lu. Research on Daily Inflow Prediction of Urban Sewage Treatment Plant by Machine Learning[J]. Water & Wastewater Engineering, 2024, 60(3): 142-147. (in Chinese))

[3]

米莎, 韦安磊, 王小文, 等. 基于BP神经网络的污水处理厂进水水质预测模型[J]. 给水排水, 2012, 48(增刊1): 488-491.

(MI

Sha

, WEI

An-lei

, WANG

Xiao-wen

, et al. Prediction Model Research of BP Neural Network of Water Quality Time Series in Wastewater Treatment Plant[J]. Water & Wastewater Engineering, 2012, 48(Supp. 1): 488-491. (in Chinese))

[4]

余伟, 罗飞, 杨红, 等. 基于多神经网络的污水氨氮预测模型[J]. 华南理工大学学报(自然科学版), 2010, 38(12): 79-83.

DOI

(YU

Wei

, LUO

Fei

, YANG

Hong

, et al. Multiple Neural Network-based Model to Predict Ammonia Nitrogen Content in Wastewater[J]. Journal of South China University of Technology (Natural Science Edition), 2010, 38(12): 79-83. (in Chinese))

[5]	王娜, 韩帅, 吴玉龙. 基于机器学习的西藏某污水处理厂进水水质预测研究[J]. 信息与电脑, 2025, 37(1):10-13. (WANG Na, HAN Shuai, WU Yu-long. Research on Prediction of Intake Water Quality of a Sewage Treatment Plant in Tibet Based on Machine Learning[J]. Information & Computer, 2025, 37(1): 10-13. (in Chinese))

[6]	闵振辉, 张志强. 基于灰色神经网络的污水处理厂水质预测研究[J]. 自动化与仪器仪表, 2013(3):10-11, 16. (MIN Zhen-hui, ZHANG Zhi-qiang. Research on Water Quality Forecast of Sewage Treatment Plant Based on Grey Neural Network[J]. Automation & Instrumentation, 2013(3): 10-11, 16. (in Chinese))

[7]	陆超, 张峻, 赵俊. 基于神经网络的污水处理厂水质预测模型[J]. 净水技术, 2013, 32(4): 100-105. (LU Chao, ZHANG Jun, ZHAO Jun. Prediction Model Based on Neural Network for Water Quality of Sewage Treatment Plant[J]. Water Purification Technology, 2013, 32(4): 100-105. (in Chinese))

[8]	WANG Y, XU D, LI X, et al. Prediction Model of Ammonia Nitrogen Concentration in Aquaculture Based on Improved AdaBoost and LSTM[J]. Mathematics, 2024, 12(5): 627. DOI

[9]	WANG J, GUO Y, PENG S, et al. Prediction of Effluent Ammonia Nitrogen in Wastewater Treatment Plant Based on Self-organizing Hybrid Neural Network[J]. Journal of Water Process Engineering, 2024, 59: 104930. DOI

[10]	LI D, YANG C, LI Y. A Multi-subsystem Collaborative Bi-LSTM-based Adaptive Soft Sensor for Global Prediction of Ammonia-nitrogen Concentration in Wastewater Treatment Processes[J]. Water Research, 2024, 254: 121347. DOI

[11]	LI Y, LI R. Predicting Ammonia Nitrogen in Surface Water by a New Attention-based Deep Learning Hybrid Model[J]. Environmental Research, 2023, 216: 114723. DOI

[12]	SONG Z, NIE B, HUANG S. Pulse Transfer Learning: Multi-area River Ammonia Nitrogen Prediction with Limited Data[J]. Expert Systems with Applications, 2025, 263: 125730. DOI

[13]	PENG L, WU H, GAO M, et al. TLT: Recurrent Fine-tuning Transfer Learning for Water Quality Long-term Prediction[J]. Water Research, 2022, 225: 119171. DOI

[14]	CHEN Z, XU H, JIANG P, et al. A Transfer Learning-based LSTM Strategy for Imputing Large-scale Consecutive Missing Data and Its Application in a Water Quality Prediction System[J]. Journal of Hydrology, 2021, 602: 126573. DOI

[15]	ZHANG S, LIANG W, ZHAO W, et al. Electro-hydraulic SBW Fault Diagnosis Method Based on Novel 1DCNN-LSTM with Attention Mechanisms and Transfer Learning[J]. Mechanical Systems and Signal Processing, 2024, 220: 111644. DOI

[16]	NAMDARI H, HAGHIGHI A, ASHRAFI S M. Short-term Urban Water Demand Forecasting: Application of 1D Convolutional Neural Network (1D CNN) in Comparison with Different Deep Learning Schemes[J]. Stochastic Environmental Research and Risk Assessment, 2023, 39:4211-4226. DOI

[17]	GUESSOUM S, BELDA S, FERRANDIZ J M, et al. The Short-term Prediction of Length of Day Using 1D Convolutional Neural Networks (1D CNN)[J]. Sensors, 2022, 22(23): 9517. DOI

[18]	KANWAL A, LAU M F, NG S P H, et al. BiCuDNNLSTM-1DCNN—A Hybrid Deep Learning-based Predictive Model for Stock Price Prediction[J]. Expert Systems with Applications, 2022, 202: 117123. DOI

[19]	LI B, LU Z, JIN X, et al. Tool Wear Prediction in Milling CFRP with Different Fiber Orientations Based on Multi-channel 1DCNN-LSTM[J]. Journal of Intelligent Manufacturing, 2024, 35(6): 2547-2566. DOI

[20]	QIAO Y, WANG Y, MA C, et al. Short-term Traffic Flow Prediction Based on 1DCNN-LSTM Neural Network Structure[J]. Modern Physics Letters B, 2021, 35(2): 2150042. DOI

[21]	GAURA E I, BRUSEY J, ALLEN M, et al. Edge Mining the Internet of Things[J]. IEEE Sensors Journal, 2013, 13(10): 3816-3825. DOI

[22]	ABDELJABER O, AVCI O, KIRANYAZ S, et al. Real-time Vibration-based Structural Damage Detection Using One-dimensional Convolutional Neural Networks[J]. Journal of Sound and Vibration, 2017, 388: 154-170. DOI

[23]	CHEN K, CHEN F, LAI B, et al. Dynamic Spatio-temporal Graph-based CNNS for Traffic Flow Prediction[J]. IEEE Access, 2020, 8:185136-185145. DOI

[24]	HOCHREITER S, SCHMIDHUBER J. Long Short-term Memory[J]. Neural Computation, 1997, 9(8): 1735-1780. DOI PMID

[25]	SHERSTINSKY A. Fundamentals of Recurrent Neural Network (RNN) and Long Short-term Memory (LSTM) Network[J]. Physica D: Nonlinear Phenomena, 2020, 404: 132306. DOI

[26]	宋波涛, 许广亮. 基于LSTM与1DCNN的导弹轨迹预测方法[J]. 系统工程与电子技术, 2023, 45(2):504-512. DOI (SONG Bo-tao, XU Guang-liang. Missile Trajectory Prediction Method Based on LSTM and 1DCNN[J]. Systems Engineering and Electronics, 2023, 45(2): 504-512. (in Chinese)) DOI

[27]	ZHUANG F, QI Z, DUAN K, et al. A Comprehensive Survey on Transfer Learning[J]. Proceedings of the IEEE, 2021, 109(1): 43-76. DOI

[28]	WEISS K, KHOSHGOFTAAR T M, WANG D. A Survey of Transfer Learning[J]. Journal of Big Data, 2016, 3(1):9. DOI

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

0 引言

1 材料与方法

1.1 污水处理厂概况

1.2 数据预处理

1.2.1 异常检测

1.2.2 数据填补

1.2.2.1 短期缺失(缺失时长≤6 h)

1.2.2.2 长期缺失(缺失时长>6 h)

1.3 算法模型构建

1.3.1 1DCNN-LSTM时序预测模型

1.3.1.1 1DCNN网络

图1 1DCNN工作流程

1.3.1.2 LSTM网络

图2 LSTM单元工作流程

1.3.1.3 1DCNN-LSTM

图3 1DCNN-LSTM模型结构

1.3.2 迁移学习

图4 迁移学习流程

1.4 特征工程

1.5 模型训练与测试

1.5.1 数据集划分

1.5.2 数据标准化

1.6 性能评价指标

2 结果与讨论

2.1 源域与目标域数据分布

图5 源域和目标域的pH、TN、TP、COD、Q和NH3-N分布(标准化后)

2.2 源域模型结果

表1 1DCNN-LSTM模型超参数

图6 源域测试集预测值与实测值对比

表2 源域测试集效果评估结果

2.3 目标域模型结果对比

图7 目标域测试集预测值与实测值对比

表3 目标域测试集效果评估结果

3 结束语

参考文献

图5 源域和目标域的pH、TN、TP、COD、Q和NH₃-N分布(标准化后)