Optimal Scheduling Method for Power Generation of Cascade Reservoirs Based on RLDE Algorithm

CHEN Jia-wen; ZHU Xin; TANG Zheng-yang; SHEN Ke-yan; CHEN Xiao-lin; QIN Hui

doi:10.11988/ckyyb.20240431

Journal of Changjiang River Scientific Research Institute >

2025 , Vol. 42 >Issue 6: 210 - 218

DOI: https://doi.org/10.11988/ckyyb.20240431

Multi-Objective Optimization Scheduling for Reservoir Groups

Optimal Scheduling Method for Power Generation of Cascade Reservoirs Based on RLDE Algorithm

CHEN Jia-wen ^,¹^,² ,
ZHU Xin ¹^,² ,
TANG Zheng-yang ³ ,
SHEN Ke-yan ³ ,
CHEN Xiao-lin ¹^,² ,
QIN Hui ^,¹^,²

Expand

¹ School of Civil and Hydraulic Engineering, Huazhong University of Science and Technology, Wuhan 430074,China
² Hubei Key Laboratory of Digital Valley Science and Technology, Huazhong University of Science andTechnology, Wuhan 430074, China
³ Three Gorges Cascade Dispatch and Communication Center,China Yangtze Power Co., Ltd., Yichang 443000, China

Received date: 2024-04-29

Revised date: 2024-07-03

Online published: 2024-12-27

Fold

Abstract

[Objective] To address the shortcomings of differential evolution (DE) algorithms in cascade reservoir optimization, this study proposes an intelligent algorithm that couples reinforcement learning and differential evolution (RLDE). [Methods] The RLDE algorithm improved the standard DE algorithm through three key strategies: chaotic mapping to enhance initial solution quality, Q-learning-based adaptive parameter adjustment, and a variable step-size strategy. Specifically, (1) chaotic mapping enhanced the initial solution quality. Logistic mapping with the best experimental performance was selected and applied to the population initialization of the RLDE algorithm. (2) The adaptive parameter adjustment was conducted based on the Q-learning algorithm. (3) A variable step-size strategy was designed for the actions in the Q-table, where the precision of action rows gradually increased with the number of iterations. To validate the feasibility and effectiveness of the RLDE algorithm, it was applied to optimize the power generation scheduling model for four major cascade reservoirs (Wudongde, Baihetan, Xiluodu, and Xiangjiaba) on the lower Jinsha River. [Results] (1) The chaotic initialization strategy effectively improved the initial solution quality. The adaptive parameter adjustment strategy based on the Q-learning algorithm enabled the algorithm to continuously adapt by receiving feedback from the environment. This process enhanced population diversity, greatly mitigated problems such as premature convergence or population evolutionary stagnation found in the traditional DE algorithm, thereby improving optimization performance. The variable step-size strategy allowed the algorithm to better respond to environmental feedback, further strengthening the optimization capability of the algorithm. (2) Compared with the traditional DE algorithm and adaptive genetic algorithm, the RLDE algorithm achieved an average annual power generation increase of 2.02% and 2.06%, respectively, under three typical inflow scenarios (wet, normal, and dry). Moreover, the average standard deviation of the proposed algorithm after multiple runs was reduced by an average of 729 million kW·h compared with the traditional DE algorithm, and by 844 million kW·h compared with the adaptive genetic algorithm. [Conclusions] This study proposes an intelligent algorithm that integrates reinforcement learning with differential evolution, effectively addressing issues such as premature convergence and search stagnation in the traditional DE algorithm. The proposed method provides an efficient and reliable solution for the optimal scheduling of cascade reservoirs.

Key words： cascade reservoirs; optimal scheduling; differential evolution; reinforcement learning; adaptive parameter adjustment

Cite this article

CHEN Jia-wen , ZHU Xin , TANG Zheng-yang , SHEN Ke-yan , CHEN Xiao-lin , QIN Hui . Optimal Scheduling Method for Power Generation of Cascade Reservoirs Based on RLDE Algorithm[J]. Journal of Changjiang River Scientific Research Institute, 2025 , 42(6) : 210 -218 . DOI: 10.11988/ckyyb.20240431

开放科学(资源服务)标识码(OSID):

0 引言

目前,能源短缺与环境污染问题促使各国加速能源转型,水电作为全球范围内开发技术最成熟且目前商业开发规模最大的清洁能源,是世界范围内具有水能资源国家实现可持续发展的共同选择。自我国大力推动流域水利水电工程开发建设,各流域不同规模水库先后建成并投产运行,大规模梯级水库群逐步形成,相较于单一水库,梯级水库群联合运用可以充分发挥流域综合利用价值,但同时梯级水库群优化调度是复杂的系统性问题,对实际调度运行提出了一系列新的需求和挑战。因此,开展水库群调度优化方法研究,优化算法计算思路,增强算法应对复杂梯级水库群调度的能力,充分发挥水电站在电力系统中的骨干作用,是亟待研究和解决的问题^[1-4]。

水库群联合优化调度模型求解方法主要有线性规划、非线性规划、动态规划法和启发式算法等。其中,线性规划方法求解技术成熟,但由于线性规划模型与水库群系统之间存在一定差异,单纯的线性规划模型不一定能够反映库群联合调度的基本规律;相较于线性规划方法,非线性规划在处理水库群发电调度问题时有更强的适应性,但非线性规划没有适应于各种问题的一般算法,求解非线性规划问题较线性规划问题困难得多;动态规划算法能够求解能构成多阶段决策过程的问题,但随决策阶段数的增加会出现“维数灾”问题,使其应用受到很大的限制;启发式进化算法不依赖于目标函数的梯度信息,尤其适于处理传统搜索方法难以解决的复杂问题和非线性问题,具有较快的收敛速度和较高的求解精度^[5]。如张琪等^[6]将改进的遗传算法(Genetic Algorithm,GA)应用于求解实际防洪优化调度模型,优化效果明显。差分进化(Differential Evolution,DE)算法是一种基于群体差异的启发式并行搜索方法,具有非常优秀的寻优能力,但算法中涉及的参数设置以及进化策略的选择通常依据经验确定,容易出现早熟收敛或搜索停滞等现象^[7]。针对DE算法存在的缺陷,学者们研究了许多改进措施:刘孟桦等^[8]提出的改进差分进化算法应用带有考虑适应度排序的变异策略提升算法搜索能力。王冠中等^[9]针对传统DE算法的不足,通过改进突变策略、引入参数自适应调节机制等策略对算法进行改进,在实际应用中效果良好。

目前对于将强化学习与差分进化算法进行结合并运用于水库优化调度领域的研究较少,因此本文针对梯级水库群优化调度问题,对DE算法存在的缺陷进行改进,提出了耦合强化学习与差分进化的智能算法(Intelligent Algorithm Coupling Reinforcement Learning and Differential Evolution,RLDE)。RLDE算法选择强化学习中具有普遍适用性的Q-learning算法,利用强化学习通过与环境交互学习来指导个体行动以获取最大累计奖励的机制,依据环境反馈的信息做出合理调整实现DE算法自适应参数调整,有效解决DE算法的早熟收敛及搜索停滞问题。同时,针对梯级水库群发电优化模型,提出相应约束处理策略。

本文将RLDE算法应用于求解金沙江下游乌东德、白鹤滩、溪洛渡、向家坝4座巨型水库的梯级水库发电优化调度模型,并将其与DE算法和自适应遗传算法(Adaptive Genetic Algorithm,AGA)进行结果对比,验证了该算法可行性及有效性,以期为梯级水库发电优化调度提供新的有效可行的求解方法。

1 问题描述与模型建立

本文采用梯级总发电量最大为优化目标展开研究,综合考虑水量平衡、水力联系、下泄能力、出力约束等因素构建发电优化调度模型。

1.1 目标函数

目标函数为

(1)

m a x E = ∑ i = 1 S n u m ∑ t = 1 T K i H i, t Q i, t Δ t 。

式中:E表示调度期内总发电量;S_num表示流域枢纽电站数量;

t

、T分别表示调度期内的时段编号、总时段数;

K i

表示第i个电站的出力系数;

H i, t

表示第i个电站第t时段的平均水头;

Q i, t

表示第i个电站第t时段的发电流量;

Δ t

表示单个时段长度。

1.2 约束条件

(1)水量平衡约束条件为

(2)

V i, t + 1 = V i, t + I i, t - Q i, t c k Δ t 。

式中:

V i, t 、 V i, t + 1

分别表示第i个电站第t时段和第t+1时段的库容;

I i, t

表示第i个电站第t时段的总入流量;

Q i, t c k

表示第i个电站第t时段的下泄流量。

(2)水位约束条件为

(3)

Z i, t m i n ≤ Z i, t ≤ Z i, t m a x 。

式中:

Z i, t

为第i个电站第t时段的水位;

Z i, t m i n 、 Z i, t m a x

分别为第i个电站第t时段所规定水位下限和上限。

(3)下泄流量约束条件为

(4)

Q i, t m i n ≤ Q i, t c k ≤ Q i, t m a x 。

式中:

Q i, t m i n 、 Q i, t m a x

分别表示第i个电站第t时段下泄流量的下限与上限,其中

Q i, t m i n

为第i个电站规定的最小下泄流量,

Q i, t m a x

通过插值第i个电站的水位-下泄能力曲线获得。

(4)发电出力限制条件为

(5)

N i, t m i n ≤ N i, t ≤ N i, t m a x 。

式中:

N i, t

表示第i个电站第t时段的出力;

N i, t m i n

、

N i, t m a x

分别表示第i个电站第t时段出力的下限与上限,其中

N i, t m i n

为第i个电站保证出力,

N i, t m a x

为第i个电站预想出力和装机容量的较小值。

(5)梯级水库间水力联系约束条件为

(6)

I i, t = Q i - 1, t c k + q i, t 。

式中

q i, t

表示梯级水库区间入流量,本文研究内容时滞小于时段长度,故滞时可以忽略^[10]。

2 耦合强化学习与差分进化的智能算法

2.1 标准DE算法

差分进化算法是一种利用多维参数向量实现并行搜索的算法,其演化流程与传统遗传算法非常相似,基本包括初始化、变异、交叉和选择操作,但具体定义又有所不同^[9,11],具体描述如下。

2.1.1 初始化

首先,设置如下相关参数:种群规模、种群个体维数、最大迭代数、交叉概率等,并随机生成种群规模数量的初始向量,即初代种群,如式(7)所示。

(7)

x i, j 0 = r a n d j b j, U - b j, L + b j, L 。

式中:

x i, j 0

表示第0代第i个种群个体的第j个解向量;rand_j表示

0,1

范围内均匀分布的随机数,j表示为每一个解向量分别产生一个新的随机数;

b j, L 、 b j, U

分别表示第j个解向量的下界和上界。

2.1.2 变异

初始化之后,DE将对种群进行变异操作,区别于其他优化算法,DE算法变异操作基于个体的差分信息实现的。由于种群初始化是随机的,在进化早期,种群个体差异性较大,基于个体差分信息产生的扰动量大,使算法搜索范围扩大;到进化后期,算法趋于收敛,种群个体差异较小,扰动量随之减小,算法搜索精度得到提升。具体操作为:将一个可缩放且随机选取的向量差分量增加给一个第三方向量,如式(8)所示。

(8)

v i g = x r 0 g + F x r 1 g - x r 2 g 。

式中:

v i g

为新产生的变异向量;g表示当前种群迭代次数;r0、r1、r2及i为随机选取的个体索引,要求4个索引均不相同,即

r 0 ≠ r 1 ≠ r 2 ≠ i

;F为缩放因子,是控制种群进化率的正实数,但其有效值很少>1,因此本文将F取值范围设定为

0,1

。

2.1.3 交叉

变异操作之后,将按照交叉概率对种群进行交叉操作,交叉操作利用从2个不同种群个体中复制解向量的值构造新的向量从而增加种群多样性,标准DE算法选择一个种群中的向量与一个变异向量进行交叉,如式(9)所示。

(9)

u j, i g = v j, i g, r a n d j 0,1 ≤ C r 或 j = j r a n d; x j, i g, 其 他 。

式中:

u j, i g

为新产生的第i个交叉向量个体的第j个解向量;

v j, i g

为第i个变异向量个体的第j个解向量;Cr为交叉概率。

2.1.4 选择

交叉操作之后,DE算法将选择适应度更优的向量作为下一代种群个体,选择操作能够保留优秀个体,使得子代个体总是不劣于父代个体。具体操作为:若

u i g

的适应度小于或等于目标向量

x i g

,那么

u i g

就将作为下一代的目标向量,否则目标向量

x i g

将保持到下一代,如式(10)所示。

(10)

x i g + 1 = u i g, f u i g ≤ f x i g; x i g, 其 他 。

式中

f

为适应度函数。

2.2 Q-learning算法

强化学习是一个独立的机器学习领域,结构上可分为两部分及三要素:两部分分别是智能体和环境;三要素分别是状态(或观察值)、动作以及奖励。强化学习讨论的问题是一个智能体如何在环境中学习到一个策略使其获得最大的累计奖励,在强化学习中,智能体通过观测环境的状态,依照策略,选择并执行某个动作,环境接受到动作后,更新状态并给予智能体相应的奖励反馈,强化学习模型见图1。

显示原图|下载原图ZIP|生成PPT

图1 强化学习模型

Fig.1 Reinforcement learning model

Q-learning算法是强化学习中非常经典的一种算法,对大多数问题具有普适性。具体来说,Q-learning算法将创建一个Q-table,以状态为列,动作为行,通过智能体与环境不断交互更新Q-table,学习各个状态下采取不同动作的价值,从而通过该表获取在不同状态下采取哪种动作最优,以期最大化累计奖励。步骤如下:

(1)初始化Q-table:依据状态和动作的情况创建二维表格,初始值均为0。

(2)按照设置好的选择策略选择动作并实施。

(3)观察采取动作的结果并按式(11)更新Q-table。

(11)

Q s, a n e w = Q s, a o l d + β R s, a + γ m a x Q s', a' - Q s, a o l d 。

式中:Q

s, a

为状态为s动作为a的Q值;s'和a'为下一步的状态及动作;R

s, a

为状态为s动作为a的奖励值;

β

为学习率,决定了智能体学习新事物的比例;

γ

为衰减率,决定了智能体考虑未来奖励的比例。

2.3 耦合强化学习与差分进化的智能算法

标准的DE算法是高效的启发式并行搜索技术,具有算法效率高、易操作及简单通用等优点,但往往容易出现种群个体早熟、搜索停滞等问题。在大部分关于改进DE算法的文献中,均主要针对DE算法的2个缺陷:①早熟收敛问题,即种群个体集中到某一局部最优点,无法实现想全局最优进化;②搜索停滞问题,即新一代种群个体比原种群个体适应度差^[7]。本文所提出的耦合强化学习与差分进化的智能算法也将针对这两类缺陷进行改进。

如前所述缩放因子F是控制种群进化率的参数,若设置不合理,如在早期F设置过小,对个体扰动过小,则种群个体逐渐丧失多样性诱发种群早熟或使种群进化缓慢甚至停滞。故本节所提出的算法将利用Q-learning算法与环境不断交互以获取最大化累计效益策略的机制,及时利用反馈信息,不断调整F,以寻求对于种群中每个个体的最佳F值,避免因F设置不合理导致种群丧失多样性。此外,RLDE算法在运行过程中不断响应反馈信息,进行合理调整,大大降低了种群进化停滞的风险。

RLDE算法主要改进策略为:

(1)混沌映射提升初始解质量。在现代科学中,混沌是指不具备周期性和对称性特征的有序状态,在确定关系中出现的不规则性,以及在有限相空间里的高度不稳定运动^[12]。将混沌映射方法与优化算法结合是常见的改进方式,用混沌的随机性取代常规随机数发生器的随机性运用在算法初始化中,以期提高初始解质量,从而找到更优解。本文选取Logistic映射^[13]运用于算法初始化,如式(12)所示。

(12)

z n + 1 = μ z n 1 - z n 。

式中:

z n

为第n次迭代时的取值,

μ

为控制参数,当μ=4时,系统将进入完全混沌状态,故本文取

μ

=4。

(2)Q-learning算法实现自适应参数调整。首先,设置Q-table的动作行f分别为-0.1、0、0.1,通过式(13)对缩放因子F进行调整,考虑到随迭代次数增加,F与最优值的差值减小,故设计动作行f随迭代次数增加,精度增加的步长策略。以最大迭代次数500为例:当迭代次数为0—400代时,动作行f分别为-0.1、0、0.1;当迭代次数为401—450代时,动作行f分别为-0.08、0、0.08;当迭代次数为451—500代时,-0.05、0、0.05。

(13)

F = F + f 。

同时,设置Q-table的状态列分别为0、1,状态0表示原解向量的适应度较新产生解向量更优,即不认可该次动作;状态1则表示新产生解向量的适应度更优,即认可该次动作。此外,考虑到种群个体之间的差异,每个个体所对应的最优缩放因子值可能不同,故每个个体均有独立的Q-table进行更新。

其次,设置依据Q-table选取不同状态下动作的策略为

ε - g r e e d y

策略:

ε - g r e e d y

算法与常见的greedy算法非常相似,greedy算法总是选择当前时刻算法认为最好的动作;而

ε - g r e e d y

算法一般会选择最好的动作,也会探索其他可行的动作^[14]。具体操作为:状态s下,Q值最大的动作a被选中的概率设为

1 - ε

,剩余动作被选中的概率为

ε, ε

的取值范围为

0,1

。

最后,设置奖励行为规则,依据Q-table选择动作调整F,进行变异、交叉操作后,判断新产生解向量的适应度是否优于原解向量,若是,则奖励值为100,并将状态改至1;否则,奖励值为0,状态值改为0。

具体步骤如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 RLDE算法流程

Fig.2 Flowchart of RLDE algorithm

(1)设置相关参数,包括差分进化算法以及Q-learning算法的相关参数,具体包括:种群规模

N p

、种群个体维数SIZE、最大迭代次数maxGEN、交叉概率CR、高斯函数均值F_mean、高斯函数方差F_var、学习率

α

、衰减率

γ

等。

(2)依据待求解问题确定适应度函数。

(3)采用混沌映射初始化种群并计算初代种群适应度。

(4)初始化Q-table并按高斯分布为每个个体随机初始F值并设置初始状态为0。

(5)依据

ε - g r e e d y

策略选择f后按式(13)计算F。

(6)依据式(8)进行变异操作,并对变异后新产生的向量进行边界判断至满足为止。

(7)依据式(9)进行交叉操作。

(8)依据式(11)更新Q表及状态。

(9)依据式(10)进行选择操作并记录最优个体。

(10)循环步骤(5)—步骤(9)直到迭代次数达到最大迭代次数。

2.4 RLDE算法求解梯级水库发电调度优化问题

2.4.1 约束处理策略

如前所述,梯级水库发电优化调度模型主要包括5个约束条件:水量平衡方程和水位、流量、出力及梯级水库间水力联系约束。对于水量平衡方程及梯级水库间水力联系约束,将在计算过程中强制性满足该条件;水位约束作为种群个体解向量的上下界强制性满足;对于流量及出力约束,采用惩罚函数法处理约束破坏项,如式(14)及式(15)所示。

(14)

P X = ∑ a x - x',

(15)

f X = - E X + P X 。

式中:P

X

为个体惩罚值;a为惩罚函数系数;x为个体X破坏约束的解向量;

x'

为约束条件所要求的极值;f

X

为个体X的适应度;E

X

为个体X计算发电量结果。

2.4.2 具体求解流程

(1)确定参与计算的梯级水库及其水力联系,收集各水库调度期内区间来水信息,以及水位、出力、流量约束等信息。

(2)按照2.3节中步骤(1)设置必要的参数。

(3)依据式(15)设置适应度函数。

(4)按照2.3节中步骤(3)及步骤(4)进行初始化,将水位约束条件作为解向量随机初始化的上下界。

(5)执行2.3节中步骤(5)—步骤(9),即求解得确定来水情况下目标函数为梯级总发电量最大的最优水位调度过程。

3 工程实例

3.1 实例概况

本文以金沙江下游4座水库为实例进行研究,梯级水库特征参数见表1^[15]。金沙江下游流域作为长江流域水库群联合格局中的骨干^[16],水量充沛,干流建设有乌东德、白鹤滩、溪洛渡和向家坝4座巨型电站,4座梯级电站总装机容量达到4 646万kW,多年平均发电量约1 900亿kW·h,在优化我国能源结构、促进节能减排、拉动经济社会发展等方面发挥重要作用。

表1 梯级水库特征参数^[15]

Table 1 Characteristic parameters of cascade reservoirs^[15]

电站名称	调节性能	调节库容/ (亿m³)	控制面积/ (万km²)	死水位/ m	正常蓄水位/m	汛限水位/ m	装机容量/ (万kW)
乌东德	季调节	30.20	40.61	945	975	952	1 020
白鹤滩	年调节	104.36	43.03	765	825	785	1 600
溪洛渡	不完全年调节	64.32	45.44	540	600	560	1 386
向家坝	不完全季调节	9.03	45.88	370	380	370	640

3.2 实例分析1

为验证算法的可行性和有效性,本文采用DE、AGA、RLDE3种算法,由长系列来水中选取丰水年(来水频率25%)、平水年(来水频率50%)、枯水年(来水频率75%)3个代表年份,并对3种不同典型年的来水进行月尺度的求解计算,考虑到试验过程的偶然性,不同来水情况下每种算法独立运行10次。其中,各算法种群规模均设置为50;最大迭代次数为500代;DE和RLDE算法的交叉概率均设置为0.9,

ε - g r e e d y

策略中

ε

设置为0.2;此外,DE算法缩放因子F设置为0.8;AGA算法最大交叉概率为0.9,最小交叉概率为0.3,前

78 G

代变异概率为0.05,后

18 G

代变异概率为0.02;RLDE算法中高斯函数均值和方差分别设置为0.4和0.7,学习率和衰减率分别设置为0.2和0.9。以上相关参数为通过多次试验选取的稳定值,为展示缩放因子对优化结果的影响,同一来水DE算法采用不同缩放因子各进行10次试验的优化结果见表2。不同来水情况下各算法运行结果平均值见表3,相应统计结果(包括最优值、最差值、均值、极差及标准差等)见表4,各算法运行结果箱型图见图3,平水年各水库DE算法与RLDE算法水位出力过程对比如图4所示。

表2 采用不同缩放因子的DE算法优化结果

Table 2 Optimization results of DE algorithm withdifferent scaling factors

缩放因子F	平均发电量/ (亿kW·h)	最优发电量/ (亿kW·h)	标准差/ (亿kW·h)
0.8	2 150.35	2 158.06	6.05
0.6	2 132.22	2 149.95	10.77
0.4	2 067.76	2 100.91	23.20
0.2	2 020.30	2 045.15	22.77

表3 不同来水情况下各算法运行结果均值对比

Table 3 Comparison of mean results of algorithms under different water supply scenarios

来水情况	算法名称	平均值/ (亿kW·h)	绝对提升量/ (亿kW·h)	相对提升量/%
	DE	2 150.35	39.65	1.84
平水年	AGA	2 146.03	43.97	2.05
	RLDE	2 190.00
	DE	2 300.89	40.37	1.75
丰水年	AGA	2 302.12	39.14	1.70
	RLDE	2 341.26
	DE	1 986.54	49.03	2.47
枯水年	AGA	1 987.22	48.34	2.43
	RLDE	2 035.56

注:绝对提升量及相对提升量均为RLDE算法相较其他算法的对比结果。

表4 不同来水情况下各算法运行统计结果

Table 4 Statistical results of each algorithm under different water supply scenarios

来水情况	算法名称	最优值	平均值	最差值	极差	标准差	平均执行时长/s
	DE	2 158.06	2 150.35	2 139.00	19.07	6.05	2.20
平水年	AGA	2 161.90	2 146.03	2 133.64	28.25	9.50	3.10
	RLDE	2 190.62	2 190.00	2 189.01	1.62	0.54	3.90
	DE	2 313.85	2 300.89	2 282.26	31.59	10.09	2.00
丰水年	AGA	2 312.11	2 302.12	2 290.00	22.10	8.41	3.00
	RLDE	2 343.21	2 341.26	2 339.93	3.28	1.00	3.70
枯水年	DE	2 001.72	1 986.54	1 970.13	31.59	8.33	2.50
	AGA	1 997.98	1 987.22	1 970.38	27.60	10.00	3.00
	RLDE	2 036.78	2 035.56	2 033.53	3.25	1.07	4.00

注:最优值、平均值、最差值、极差标准差单位均为亿kW·h。

显示原图|下载原图ZIP|生成PPT

图3 各算法运行结果箱型

Fig.3 Box plots of results for each algorithm

显示原图|下载原图ZIP|生成PPT

图4 平水年各水库水位出力过程对比

Fig.4 Comparison of reservoir levels and power generation processes in a normal inflow year

由表2可以明显看出,在其余参数均相同的情况下,缩放因子F是优化结果优劣及稳定性的重要影响因子。由表3可知,在3种典型来水情况下, RLDE算法求得的平均发电量较DE算法分别提升39.65亿、40.37亿、49.03亿kW·h,相对提升1.84%、1.75%、2.47%;较AGA算法分别提升43.97亿、39.14亿、48.34亿kW·h,相对提升2.05%、1.70%、2.43%。即不同来水情况下,RLDE算法求得的平均总发电量均优于DE算法及AGA算法,且在来水较枯年份提升更加明显。

由表4可知,RLDE算法的极差及标准差在各来水情况下均小于AGA算法及DE算法,RLDE算法多次运行平均标准差较DE算法分别减小5.51亿、9.10亿、7.26亿kW·h;较AGA算法分别减小8.96亿、7.41亿、8.94亿kW·h,说明RLDE算法较AGA算法及DE算法稳定,反映了RLDE算法具有良好的鲁棒性。图3箱型图清晰反映了各算法结果分布情况,可以看出,RLDE算法较AGA算法及DE算法结果分布更加集中,且不同来水情况下,RLDE算法的最差值均优于AGA算法及DE算法的最优值,说明RLDE算法整体优于AGA算法及DE算法,证明了RLDE算法的可行性及有效性。RLDE算法平均执行时长较DE算法及AGA算法增长0.7~1.7 s,但计算结果及稳定性均优于DE算法及AGA算法。

由图4可知,RLDE算法在时段初期蓄水,保持较高水位运行,此时出力相应较小;而后进行下泄,由于水位先前被抬高,水头增大,出力相应增大;图4中清晰反映了在较前时段,DE算法出力大于RLDE算法,而后RLDE算法出力大于DE算法或二者相差不大。此外,通过图4反映的水位出力过程可以看出,RLDE算法的优化结果满足各类约束条件。

综上所述,RLDE算法通过耦合DE算法与Q-learning算法,不断接收环境反馈并自适应做出相应调整,有效提升了算法寻优能力及鲁棒性,极大程度避免了DE算法发生早熟或种群进化停滞等问题。在实际应用中,RLDE算法进一步提升流域梯级整体效益,证明其具有较强实用价值。

3.3 实例分析2

为进一步检验初始化策略、自适应调参策略及步长策略等改进措施对算法寻优能力的影响,本节设计同一来水情况下5组对比方案进行试验,结果对比见表5。本文所提RLDE算法为使用步长策略及初始化策略的RLDE算法。

表5 不同情景寻优过程对比

Table 5 Comparison of optimization processes for different scenarios

方案	不同进化代数梯级发电量/(亿kW·h)								方法
方案	1	100	200	300	400	450	480	500	方法
1	有破坏	2 165.70	2 167.80	2 167.86	2 167.86	2 167.86	2 167.86	2 167.86	DE
2	1 936.83	2 122.12	2 149.32	2 160.41	2 164.98	2 165.05	2 168.33	2 168.33	AGA
3	1 928.94	2 168.51	2 191.21	2 195.72	2 199.34	2 199.96	2 200.13	2 200.29	简单RLDE
4	1 928.94	2 168.51	2 191.21	2 195.72	2 199.34	2 200.01	2 200.20	2 200.33	RLDE+步长策略
5	1 963.49	2 155.80	2 192.36	2 198.30	2 200.34	2 200.61	2 200.70	2 200.74	RLDE +步长策略+ 初始化策略

通过对比方案1与方案2、方案3容易看出相较于标准DE算法存在的早熟问题,AGA及简单RLDE算法没有出现种群早熟问题,简单RLDE算法不仅能够维持种群多样性,且拥有良好的寻优能力。对比方案3和方案4,可以看出,步长策略是合理的,相较于不变化的动作行,随迭代次数增加,提升动作行的精度能够增加缩放因子精度,从而更好响应环境所反馈的信息,增强算法寻优能力。对比方案4和方案5可以看出,初始化策略提升了初代解的质量,结合最终结果,采用合适的混沌映射进行种群初始化能够使算法寻得更优解。

4 结论

本文针对DE算法存在的早熟收敛及搜索停滞等问题,采用混沌映射提高初始解质量;通过Q-learning算法实现自适应参数调整等多种改进措施,提出基于强化学习与差分进化算法耦合的计算方法;同时,针对梯级水库群发电优化模型,提出相应约束处理策略等。

金沙江下游流域实践结果表明:RLDE算法具有优秀的全局寻优能力及鲁棒性,在3种典型来水情况下,RLDE算法求得的平均发电量较DE算法分别提升39.65亿、40.37亿、49.03亿kW·h,相对提升1.84%、1.75%、2.47%;较AGA算法分别提升43.97亿、39.14亿、48.34亿kW·h,相对提升2.05%、1.70%、2.43%。多次运行平均标准差结果表明:RLDE算法较DE算法分别减小5.51亿、9.10亿、7.26亿kW·h;较AGA算法分别减小8.96亿、7.41亿、8.94亿kW·h,验证了RLDE算法的可行性及有效性,是求解梯级水库群发电优化调度模型的一种新思路。此外,本文中RLDE算法涉及的部分参数是在重复试验中择优确定的,存在一定局限性,还需进一步探讨。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	沈柯言. 考虑径流不确定性的梯级水库中长期优化调度及评价决策研究[D]. 武汉: 华中科技大学, 2022. SHEN Ke-yan. Research on Medium-and Long-term optimal Dispatch and Evaluation Decisions of Cascaded Reservoirs Considering Runoff Uncertainty[D]. Wuhan: Huazhong University of Science and Technology, 2022. (in Chinese)

[2]

马宇航, 黄媛, 刘俊勇, 等. 考虑日内来水不确定和电网断面约束的梯级水电日前调度[J]. 电力建设, 2020, 41(9):39-49.

DOI

(MA

Yu-hang

, HUANG

Yuan

, LIU

Jun-yong

, et al. Day-ahead Dispatching of Cascade Hydropower Stations Considering Daily Interval Flow Uncertainty and the Section Constraint of Power Grid[J]. Electric Power Construction, 2020, 41(9):39-49. (in Chinese))

DOI

[3]	陶湘明. 水库中长期发电优化调度的解析方法及应用[D]. 武汉: 武汉大学, 2017. (TAO Xiang-ming. Derivation and Application of Analytic Method for Reservoir Mid-Long Term Optimal Operation[D]. Wuhan: Wuhan University, 2017. (in Chinese))

[4]	廖灵明, 钟芳仁. 水库优化调度方法研究进展[J]. 机电技术, 2022, 45(6): 33-35, 45. (LIAO Ling-ming, ZHONG Fang-ren. Research Progress of Reservoir Optimal Operation Method[J]. Mechanical & Electrical Technology, 2022, 45(6): 33-35, 45. (in Chinese))

[5]	郭生练, 陈炯宏, 刘攀, 等. 水库群联合优化调度研究进展与展望[J]. 水科学进展, 2010, 21(4):496-503. (GUO Sheng-lian, CHEN Jiong-hong, LIU Pan, et al. State-of-the-art Review of Joint Operation for Multi-reservoir Systems[J]. Advances in Water Science, 2010, 21(4): 496-503. (in Chinese))

[6]

张琪, 任明磊, 王凯, 等. 基于改进遗传算法的水库群防洪联合优化调度研究及其应用[J]. 中国防汛抗旱, 2022, 32(6): 21-26.

(ZHANG

, REN

Ming-lei

, WANG

Kai

, et al. Research and Application of Joint Optimal Operation for Flood Defense of Reservoir Group Based on Improved Genetic Algorithm[J]. China Flood & Drought Management, 2022, 32(6): 21-26. (in Chinese))

[7]	丁青锋, 尹晓宇. 差分进化算法综述[J]. 智能系统学报, 2017, 12(4): 431-442. (DING Qing-feng, YIN Xiao-yu. Research Survey of Differential Evolution Algorithms[J]. CAAI Transactions on Intelligent Systems, 2017, 12(4): 431-442. (in Chinese))

[8]	刘孟桦, 何中政, 盛卫荣, 等. 基于改进差分进化算法的万安水库防洪优化调度[J]. 水电能源科学, 2023, 41(6): 54-58. (LIU Meng-hua, HE Zhong-zheng, SHENG Wei-rong, et al. Optimal Operation of Flood Control in Wan’an Reservoir Based on Improved Differential Evolution Algorithm[J]. Water Resources and Power, 2023, 41(6): 54-58. (in Chinese))

[9]	王冠中, 王士军, 冉川东. 基于改进差分进化算法的自由曲面测量路径优化[J]. 制造技术与机床, 2024(3):51-56. (WANG Guan-zhong, WANG Shi-jun, RAN Chuan-dong. Optimization of Free Surface Measurement Path Based on Improved Differential Evolution Algorithm[J]. Manufacturing Technology & Machine Tool, 2024(3): 51-56. (in Chinese))

[10]	邓先礼. 时滞对梯级水电站经济运行的影响[J]. 重庆大学学报(自然科学版), 1982, 5(2): 91-102. (DENG Xian-li. On the Effect of Time Lag Upon the Economical Operation of Cascade Hydroelectric Power Stations[J]. Journal of Chongqing University (Natural Science), 1982, 5(2): 91-102. (in Chinese))

[11]	STORN R, PRICE K. Differential Evolution—A Simple and Efficient Heuristic for Global Optimization over Continuous Spaces[J]. Journal of Global Optimization, 1997, 11(4): 341-359.

[12]	郑肇葆. 混沌映射在优化计算中的应用[J]. 武汉大学学报(信息科学版), 2007, 32(11): 998-1000. (ZHENG Zhao-bao. Application of Chaos Mappings in Optimization Calculation[J]. Geomatics and Information Science of Wuhan University, 2007, 32(11): 998-1000. (in Chinese))

[13]	ZHU C, LI S, LÜ Q. Pseudo-random Number Sequence Generator Based on Chaotic Logistic-Tent System. 2019, 547-551.

[14]	王素琴, 张洋, 蒋浩, 等. 针对新用户冷启动问题的改进Epsilon-greedy算法[J]. 计算机工程, 2018, 44(11):172-177. DOI (WANG Su-qin, ZHANG Yang, JIANG Hao, et al. Improved Epsilon-greedy Algorithm for Cold-start Problem of New Users[J]. Computer Engineering, 2018, 44(11): 172-177. (in Chinese)) DOI

[15]

谢雨祚, 郭生练, 钟斯睿, 等. 金下-三峡-葛洲坝梯级水库联合优化调度方案比较研究[J]. 水力发电学报, 2024, 43(11):39-48.

(XIE

Yu-zuo

, GUO

Sheng-lian

, ZHONG

Si-rui

, et al. Comparative Study of Joint and Optimal Operation Schemes for Lower Jinsha-Three Gorges-Gezhouba Cascade Reservoirs[J]. Journal of Hydroelectric Engineering, 2024, 43(11): 39-48. (in Chinese))

[16]	陈进. 长江梯级水库群联合调度成效、挑战及对策[J]. 长江科学院院报, 2024, 41(5): 1-7. DOI (CHEN Jin. Achievements, Challenges and Measures of Joint Operation of Cascade Reservoirs on the Yangtze River[J]. Journal of Changjiang River Scientific Research Institute, 2024, 41(5): 1-7. (in Chinese))

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

0 引言

1 问题描述与模型建立

1.1 目标函数

1.2 约束条件

2 耦合强化学习与差分进化的智能算法

2.1 标准DE算法

2.1.1 初始化

2.1.2 变 异

2.1.3 交 叉

2.1.4 选择

2.2 Q-learning算法

图1 强化学习模型

2.3 耦合强化学习与差分进化的智能算法

图2 RLDE算法流程

2.4 RLDE算法求解梯级水库发电调度优化问题

2.4.1 约束处理策略

2.4.2 具体求解流程

3 工程实例

3.1 实例概况

表1 梯级水库特征参数[15]

3.2 实例分析1

表2 采用不同缩放因子的DE算法优化结果

表3 不同来水情况下各算法运行结果均值对比

表4 不同来水情况下各算法运行统计结果

图3 各算法运行结果箱型

图4 平水年各水库水位出力过程对比

3.3 实例分析2

表5 不同情景寻优过程对比

4 结论

References

2.1.2 变异

2.1.3 交叉

表1 梯级水库特征参数^[15]