一种逆变器控制的强化学习训练过程加速方法
- 国知局
- 2024-07-31 17:23:53
本发明涉及dc-ac变换器智能控制,尤其是涉及一种逆变器控制的强化学习训练过程加速方法。
背景技术:
1、随着电力电子和智能电网技术的快速进步,各类分布式可再生能源系统已经集成到现有的电力系统中。在这种背景下,dc-ac变换器作为一种成本低、结构简单且高效的解决方案,引起了广泛的研究关注。这些变换器已广泛应用于不间断电源、变频电源和电机传动等领域,并在未来的工业、交通和军事等应用中显示出巨大的潜力。
2、然而,在变换器的实际应用过程中,会遇到各种不确定性和干扰因素,如电路参数的变动、负载的变化以及供电电压的波动等。这些因素对变换器的性能产生不利影响,导致电压电流调节的精度大幅下降。强化学习控制是克服以上障碍因素的控制手段之一,然而在逆变器训练过程中,智能体需要在稳定状态经历完整的逆变器工作周期,这项要求制约着针对逆变器控制的强化学习智能体的训练速度,因此有必要提出一种逆变器控制的强化学习训练过程加速方法,来解决以上问题。
技术实现思路
1、本发明的目的是提供一种逆变器控制的强化学习训练过程加速方法,在训练过程中提高逆变器的输出电压频率,缩短了训练所需周期数下的训练时间,更快使强化学习智能体学习到最优策略,有效解决了针对逆变器控制的强化学习训练过程时间过长的问题。
2、为实现上述目的,本发明提供了一种逆变器控制的强化学习训练过程加速方法,包括以下步骤:
3、s1、强化学习控制模型构建;建立逆变器电路仿真模型作为强化学习训练环境,基于强化学习算法构建强化学习控制器模型;
4、s2、强化学习算法设计,基于即时奖励更新强化学习智能体的神经网络参数;
5、s3、即时奖励更新所述强化学习智能体的神经网络参数,直至参数收敛,提取出收敛的强化学习智能体参数应用于实际电路的控制。
6、优选的,在步骤s1中,逆变器仿真模型的输出电压交变频率为实际电路输出电压交变频率的 n倍。
7、优选的,在步骤s1中,强化学习控制模型包括强化学习控制器模型,奖励模块和状态观测向量。
8、优选的,在步骤s1中,将状态观测向量输入强化学习智能体,得到行为动作,作用于逆变器并形成新状态观测向量;奖励模块基于该控制动作下逆变器的反馈得到即时奖励。
9、优选的,在步骤s3中,将在逆变器仿真模型输出电压交变频率为实际电路的 n倍情况下训练得到的神经网络参数,应用于实际电路的控制。
10、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
技术特征:1.一种逆变器控制的强化学习训练过程加速方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种逆变器控制的强化学习训练过程加速方法,其特征在于:在步骤s1中,逆变器仿真模型的输出电压交变频率为实际电路输出电压交变频率的n倍。
3.根据权利要求1所述的一种逆变器控制的强化学习训练过程加速方法,其特征在于:在步骤s1中,强化学习控制模型包括强化学习控制器模型,奖励模块和状态观测向量。
4.根据权利要求3所述的一种逆变器控制的强化学习训练过程加速方法,其特征在于:在步骤s1中,将状态观测向量输入强化学习智能体,得到行为动作,作用于逆变器并形成新状态观测向量;奖励模块基于该控制动作下逆变器的反馈得到即时奖励。
5.根据权利要求2所述的一种逆变器控制的强化学习训练过程加速方法,其特征在于:在步骤s3中,将在逆变器仿真模型输出电压交变频率为实际电路的n倍情况下训练得到的神经网络参数,应用于实际电路的控制。
技术总结本发明公开了一种逆变器控制的强化学习训练过程加速方法,包括以下步骤:S1、强化学习控制模型构建;建立逆变器电路仿真模型作为强化学习训练环境,基于强化学习算法构建强化学习控制器模型;S2、强化学习算法设计,基于即时奖励更新强化学习智能体的神经网络参数;S3、即时奖励更新所述强化学习智能体的神经网络参数,直至参数收敛,提取出收敛的强化学习智能体参数应用于实际电路的控制。本发明采用上述的一种逆变器控制的强化学习训练过程加速方法,在训练过程中提高逆变器的输出电压频率,缩短了训练所需周期数下的训练时间,更快使强化学习智能体学习到最优策略,有效解决了针对逆变器控制的强化学习训练过程时间过长的问题。技术研发人员:叶剑,赵迪受保护的技术使用者:哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)技术研发日:技术公布日:2024/7/25本文地址:https://www.jishuxx.com/zhuanli/20240731/175311.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表