神经网络控制.pdf
第6章 神经网络控制 第6章 神经网络控制 教学内容 教学内容 首先介绍人工神经网络的基本概念和 ANN 的特性,以及神经网络的学习方法。然后讲授典型的前向神经网 络、反馈神经网络的原理、结构、基本算法,给出了 BP 网络的算法改进。最后介绍了神经网络 PID 控制。 教学重点 教学重点 1. 神经网络的各种学习算法,神经网络的训练。 2. 感知器网络、BP 网络的结构和算法、BP 网络学习算法的改进,反馈网络的结构、学习算法。 3. 神经网络 PID 控制。 教学难点 教学难点 神经网络的各种学习算法以及神经网络 PID 控制。 教学要求 教学要求 1.理解神经网络的基本概念。 2.掌握无监督 Hebb 学习规则、有监督的 学习规则或 Widow-Hoff 学习规则、有监督 Hebb 学习规则。 3.熟练掌握典型的前向神经网络、反馈神经网络的原理、结构、基本算法。 4.掌握 BP 网络的算法改进。 5.了解和掌握神经网络 PID 控制。 6.1 概述概述 基于人工神经网络的控制(ANNbased Control)简称神经控制(Neural Control) 。神经网络是由大量人工 神经元(处理单元)广泛互联而成的网络,它是在现代神经生物学和认识科学对人类信息处理研究的基础上提出 来的,具有很强的自适应性和学习能力、非线性映射能力、鲁棒性和容错能力。充分地将这些神经网络特性应用 于控制领域,可使控制系统的智能化向前迈进一大步。 随着被控系统越来越复杂,人们对控制系统的要求越来越高,特别是要求控制系统能适应不确定性、时变的 对象与环境。传统的基于精确模型的控制方法难以适应要求,现在关于控制的概念也已更加广泛,它要求包括一 些决策、规划以及学习功能。神经网络由于具有上述优点而越来越受到人们的重视。 本节将介绍人工神经网络的基本概念 和 ANN 的特性,以及神经网络的学习方法。 6.1.1 生物神经元模型生物神经元模型 人脑大约包含 1012个神经元,分成约 1000 种类型,每个神经元大约与 102~104个其他神经元相连接,形成 极为错综复杂而又灵活多变的神经网络。每个神经元虽然都十分简单,但是如此大量的神经元之间、如此复杂的 连接却可以演化出丰富多彩的行为方式。 同时, 如此大量的神经元与外部感受器之间的多种多样的连接方式也蕴 含了变化莫测的反应方式。 一个神经元结构的模型示意图如图所示。 由图看出,神经元由胞体、树突和轴突构成。胞体是神经元的代谢中心,它本身又由细胞核、内质网和高尔 基体组成。内质网是合成膜和蛋白质的基础,高尔基体主要作用是加工合成物及分泌糖类物质,胞体一般生长有 许多树状突起,称为树突,它是神经元的主要接受器。胞体还延伸出一条管状纤维组织,称为轴突。轴突外面可 能包有一层厚的绝缘组织, 称为髓鞘 (梅林鞘) , 髋鞘规则地分为许多短段, 段与段之间的部位称为郎飞节 (Ranvier 节) 。 轴突的作用主要是传导信息,传导的方向是由轴突的起点传向末端。通常,轴突的末端分出许多末梢,它们 同后一个神经元的树突构成一种称为突触的机构。其中,前一个神经元的轴突末梢称为突触的前膜,后一个神经 元的树突称为突触的后膜; 前膜和后膜两者之间的窄缝空间称为突触的间隙, 前一个神经元的信息由其轴突传到 末梢之后,通过突触对后面各个神经元产生影响。 从生物控制论的观点来看,神经元作为控制和信息处理的基本单元,具有下列一些重要的功能与特性 1. 时空整合功能 神经元对于不同时间通过同一突触传入的神经冲动, 具有时间整合功能; 对于同一时间通过不同突触传人的 神经冲动,具有空间整合功能。两种功能相互结合,具有时空整合的输入信息处理功能,所谓整合是指抑制和兴 奋的受体电位或突触电位的代数和。 2. 兴奋与抑制状态 神经元具有两种常规工作状态兴奋当传人冲动的时空整合结果,使细胞膜电位升高,超过被称为动作 电位的阈值(约为 40mV)时,细胞进人兴奋状态,产生神经冲动,由轴突输出;抑制当传人冲动的时空整 合结果,使膜电位下降至低于动作电位的阈值时,细胞进人抑制状态,无神经冲动输出,满足“0-1”律,即“兴 奋、抑制”状态。 3. 脉冲与电位转换 突触界面具有脉冲/电位信号转换功能。沿神经纤维传递的电脉冲为等幅、恒宽、编码(60~100mV)的离 散脉冲信号,而细胞膜电位变化为连续的电位信号。在突触接口处进行“数/模”转换,是通过神经介质以量子 化学方式实现(电脉冲神经化物质膜电位)的变换过程。 4. 神经纤维传导速度 神经冲动沿神经传导的速度在 1~150 m/s 之间,因纤维的粗细、髓鞘的有无而有所不同有髓鞘的粗纤维, 其传导速度在 100 m/s 以上;无髓鞘的纤维细,其传导速度可低至每秒数米。 5. 突触延时和不应期 突触对神经冲动的传递具有延时和不应期。在相邻的两次冲动之间需要一个时间间隔,即为不应期,在此期 间对激励不响应,不能传递神经冲动。 6. 学习、遗忘和疲劳 由于结构可塑性, 突触的传递作用可增强、 减弱和饱和, 所以细胞具有相应的学习功能, 遗忘或疲劳效应 (饱 和效应) 。 随着脑科学和生物控制论研究的进展, 人们对神经元的结构和功能有了进一步的了解, 神经元并不是一个筒 单的双稳态逻辑元件,而是超级的微型生物信息处理机或控制机单元。 6.1.2 人工神经元模型人工神经元模型 人工神经元是对生物神经元的一种模拟与简化, 它是神经网络的基本处理单元。 如图所示为一种简化的人工 神经元结构。它是一个多输入、单输出的非线性元件。 其输入、输出关系为 ∑ − n j ijiji xwI 1 θ ii Ify 其中,,, 2 , 1njxj⋅ ⋅ ⋅是从其他神经元传来的输入信号; ij w表示从神经元 j 到神经元 i 的连接权值; i θ为阈值; f称为激发函数或作用函数。 方便起见,常把 i θ−也看成是恒等于 1 的输 0 x的权值,因此上式可写成 ∑ n j jiji xwI 0 其中 ii wθ− 0 ,1 0 x。 输出激发函数f又称为变换函数,它决定神经元(节点)的输出。该输出为 1 或 0,取决于其输入之和 大于或小于内部阈值 i θ。f函数一般具有非线性特性。下图为几种常见的激发函数图。 1. 阈值型函数(见图 a,b) 当 i y取 0 或 1 时,xf为图(a)所示的阶跃函数 ⎩ ⎨ ⎧ −ηη ijijijij ppkwkW 当 ijij pp−小于一定容限时,学习结束。 由于模拟退火过程要求高温使系统达到平衡状态,而冷却(即退火)过程又必须缓慢地进行,否则容易造成 局部最小,所以这种学习规则的学习收敛速度较慢。 4.竞争式学习 竞争式学习属于无教师学习方式。 此种学习方式利用不同层间的神经元发生兴奋性联接, 以及同一层内距离 很近的神经元间发生同样的兴奋性联接, 而距离较远的神经元产生抑制性联接。 在这种联接机制中引人竞争机制 的学习方式称为竞争式学习。它的本质在于神经网络中高层次的神经元对低层次神经元的输入模式进行竞争识 别。 竞争式机制的思想来源于人脑的自组织能力。大脑能够及时地调整自身结构,自动地向环境学习,完成所需 执行的功能,而并不需要教师训练。竞争式神经网络亦是如此,所以,又把这一类网络称为自组织神经网络(自 适应共振网络模型 Adaptive Resonance Theory ART) 。 自组织神经网络要求识别与输入最匹配的节点,定义距离 j d为接近距离测度,即 ∑ − − 1 0 2 N i ijij wud 其中,u为N维输入向量,具有最短距离的节点选作胜者,它的权向量经修正使该节点对输入u更敏感。 定义 c N,其半径逐渐减小至接近于零,权值的学习规则为 ⎩ ⎨ ⎧ ∉ ∈− Δ c ciji ij Ni Niwu w 0 α 在这类学习规则中, 关键不在于实节点的输出怎样与外部的期望输出相一致, 而在于调整权向量以反映观察 事件的分布,提供基于检测特性空间的活动规律的性能描写。 从上述几种学习规则可见,要使人工神经网络具有学习能力,就是使神经网络的知识结构变化,即使神经元 间的结合模式变化,这同把连接权向量用什么方法变化是等价的。所以,所谓神经网络的学习,目前主要是指通 过一定的学习算法实现对突触结合强度(权值)的调整,使其达到具有记忆、识别、分类、信息处理和问题优化 求解等功能,这是一个正在发展中的研究课题。 6.2 前向神经网络前向神经网络 6.2.1 感知器网络感知器网络 感知器(perceptron)是一个具有单层神经元的神经网络,并由线性阈值元件组成,是最简单的前向网络。 它主要用于模式分类,单层的感知器网络结构如下图所示。 其中 T n xxxX],,,[ 21 ⋅ ⋅ ⋅是输入特征向量;,, 2 , 1miyi⋅ ⋅ ⋅为输出量, 是按照不同特征分类的结果; ij w是 j x 到 i y的连接权值,此权值是可调整的,因而有学习功能。 由于按不同特征的分类是相互独立的,因而可以取出其中的一个神经元来讨论,如图所示。 为方便起见,令输入量1 0 x,将阈值θ并入权中(因为θ值也需要学习) , 0 w−θ,感知器的输入输出 关系可表示为 0 ∑ n i iix wfy 当其输入的加权和大于或等于阈值时,输出为 1,否则为-1(或为 0) 。 下面给出感知器的一种学习算法 1. 随机地给定一组连接权0 i w(较小的非零值) ,这里kwi为k时刻第i个输入上的权1 ni ≤≤, 0 kw为k时刻的阈值。 2. 输入一组样本,,, 10n xxxX⋅ ⋅ ⋅和期望的输出d(亦称之为教师信号) 。如果 X∈A 类(某一类) ,则 1 d y,如果 X∈B 类(另一类) ,则1− d y。 3. 计算感知器实际输出 ⎪ ⎪ ⎩ ⎪ ⎪ ⎨ ⎧ − ≥ ∑ ∑ ∑ − − n i ii n i iin i ii xkw xkw xkwfky 0 0 0 0, 1 0, 1 0, 1 00 θ−wx 4. 按下式修正权值 ni xkykdkwkw iii ,, 2 , 1 , 0 ][ 1 ⋅ ⋅ ⋅ −η 其中,kwi为当前的权值;kd为导师信号;ky为感知器的输出值;η为学习速率 10η; jk k kjk w net net E w E ∂ ∂ ∂ ∂ ∂ ∂ 定义反传误差信号 k δ为 k k kk k net O O E net E ∂ ∂ ∂ ∂ ∂ ∂ −δ 式中 kk k Od O E −− ∂ ∂ kk kk k netfnetf netnet O ∂ ∂ ∂ ∂ 1 kkkkkkkk OdOOnetfOd−−−δ ∑ ∂ ∂ ∂ ∂ q j jjjk jkjk k OOw ww net 1 由此可得输出层的任意神经元权系数的修正公式为 jkjkkkjk OOnetfOdwηδη−Δ 或 jkkkkjk OOdOOw1 −−Δη 2. 隐含层节点权系数的调整 计算权系数的变化量为 i jij j jij ij O net E w net net E w E w ∂ ∂ − ∂ ∂ ∂ ∂ − ∂ ∂ −Δηηη ijij j i j j j OOnetf O E O net O O E ηδηη ∂ ∂ − ∂ ∂ ∂ ∂ − 式中 j O E ∂ ∂ 不能直接计算,需通过其他间接量进行计算,即 ∑∑∑ ∂ ∂ ∂ ∂ − ∂ ∂ ∂ − ∂ ∂ − L k L k q j jjk jkj j kj Ow Onet E O net net E O E 111 ∑∑ ∂ ∂ − L k jkk L k jk k ww net E 11 δ 显然有 ∑ L k jkkjj wnetf 1 δδ 将样本标记p记入公式后,有 对于输出节点k pjpkpkpkpjpkpkpkjkp OOdOOOdnetfw −−Δηη 对于隐含节点j pi L k jkpkpjpjpi L k jkpkpjijp OwOOOwnetfw1 11 ∑∑ −Δδηδη 式中, pk O是输出节点k的输出, pj O是隐含节点j的输出, pi O是输入节点i的输出。 从上面推导的结果可得网络连接权值调整式 ]1[ 1−−twtwOtwtw ijijiiijij αηδ 式中,1t表示第1t步,α为平滑因子,10Δ ε,只要能找到一组权值},{θW使条件ε得到满足,则称,,θWXNNy是对未知函数的 一个逼近。这可能是一个最优点,也可能是一个满足要求的极小点。 神经网络训练的具体步骤如下 1.获取训练样本集 获取训练样本集合是训练神经网络的第一步,也是十分重要和关键的一步。它包括训练数据的收集、分析、 选择和预处理等。 首先要在大量的测量数据中确定出最主要的输人模式。 即对测量数据进行相关性分析, 找出其中最主要的量 作为输人。在确定了主要输人量后,要对其进行预处理,将数据变化到一定的范围,如] 1 , 1[−或] 1 , 0[等,并剔除 野点,同时还可以检验其是否存在周期性、固定变化趋势或其它关系。对数据的预处理分析的目的是使得到的数 据便于神经网络学习和训练。 2.选择网络类型与结构 神经网络的类型很多,需要根据任务的性质和要求来选择合适的网络类型。如对函数估计问题,可选用 BP 网络。当然也可以设计一个新的网络类型,来满足特定任务的需要,但这一般比较困难。通常是从已有的网络类 型中选择一种比较简单而又满足要求的网络。 网络类型确定后,就要确定网络的结构及参数。以 BP 网络为例,就是要确定网络的层数、每层的节点数、 节点激活函数、初始权值、学习算法等。如前所述,这些选项有一定的指导原则,但更多的是靠经验和试凑。 对具体问题,若输人输出确定后,则网络的输入层和输出层节点数即可确定。关于隐层及其节点数的选择比 较复杂。 一般原则是 在能正确反映输入输出关系的基础上, 应选用较少的隐层节点数, 以使网络结构尽量简单。 3.训练与测试 最后一步是利用获取的训练样本对网络进行反复训练,直至得到合适的映射结果。这里应注意的是,并非训 练的次数越多,结果就越能正确反映输入输出的映射关系。这是由于所收集到的样本数据都包含有测量噪声,训 练次数过多,网络将噪声也复制了下来,反而影响了它的泛化能力。 在训练过程中,网络初始权值的选择可采用随机法产生。为避免产生局部极值,可选取多组初始权值,然后 通过检验测试误差来选用一组较为理想的初始权值。 6.3 反馈神经网络反馈神经网络 反馈网络Recurrent Network,又称自联想记忆网络,其目的是为了设计一个网络,储存一组平衡点,使 得当给网络一组初始值时,网络通过自行运行而最终收敛到这个设计的平衡点上。 反馈网络能够表现出非线性动力学系统的动态特性。它所具有的主要特性为以下两点 第一、网络系统具有若干个稳定状态。当网络从某一初始状态开始运动,网络系统总可以收敛到某一个稳定 的平衡状态; 第二,系统稳定的平衡状态可以通过设计网络的权值而被存储到网络中。 Hopfield网络是单层对称全反馈网络,根据其激活函数的选取不同,可分为离散型的Hopfield网络Discrete Hopfield Neural Network, 简称DHNN和连续型的Hopfield网络Continuous Hopfield Neural Network, 简称CHNN。 离散Hopfield网络的激活函数为二值型的,其输入、输出为{0,1}的反馈网络,主要用于联想记忆。 离散Hopfield 网络的激活函数的输入与输出之间的关系为连续可微的单调上升函数,主要用于优化计算。 Hopfield网络是利用稳定吸引子来对信息进行储存的,利用从初始状态到稳定吸引子的运行过程来实现对信 息的联想存取的。 6.3.1 离散离散 Hopfield 网络网络 1. 网络的结构和工作方式 离散 Hopfield 网络是一个单层网络,有n个神经元节点,每个神经元的输出均接到其它神经元的输入。 各节点没有自反馈,每个节点都附有一个阀值 j θ。 ij w是神经元i与神经元j间都连接权值。每个节点都可 处于一种可能的状态(1 或-1) ,即当该神经元所受的刺激超过其阀值时,神经元就处于一种状态(比如 1) ,否 则神经元就始终处于另一状态(比如-1) 。 整个网络有两种工作方式即异步方式和同步方式。 1. 异步方式 每次只有一个神经元节点进行状态的调整计算,其他节点的状态均保持不变,即 ijkxkx kxwfkx jj n j ijiji ≠ − ∑ , 1 1 1 θ 其调整次序可以随机选定,也可按规定的次序进行。 2. 同步方式 所有神经元节点同时调整状态,即 1 1 ∑ − n j ijiji kxwfkxθ i∀ 上述同步计算方式也可写成如下的矩阵形式 1sFkWXFkX−θ 其中 T n T n xxxX],, 2, 1[],,,[ 21 θθθθ⋅ ⋅ ⋅⋅ ⋅ ⋅ W是由 ij w组成的nn矩阵; T n sfsfsfsF],,,[ 21 ⋅ ⋅ ⋅ 是向量函数,其中 ⎩ ⎨ ⎧ −ηη ijijijij ppkwkw 4. 重复上述步骤,直到 ijij pp−小于一定的容限。 6.4 神经网络神经网络 PID 控制控制 神经网络控制或神经控制是指在控制系统中, 应用神经网络技术, 对难以精确建模的复杂非线性对象进行神 经网络模型辨识,或作为控制器,或进行优化计算,或进行推理,或进行故障诊断,或同时兼有上述多种功能。 这样的系统称为基于神经网络的控制系统,称这种控制方式为神经网络控制。 尽管神经网络控制技术有许多潜在的优势, 但单纯使用神经网络的控制方法的研究仍有待进一步发展。 通常 将人工神经网络技术与传统的控制理论或智能技术综合使用。神经网络在控制中的作用有以下几种 1.在传统的控制系统中用以动态系统建模,充当对象模型; 2.在反馈控制系统中直接充当控制器的作用; 3.在传统控制系统中起优化计算作用; 4.与其他智能控制方法如模糊逻辑、遗传算法、专家控制等相融合。 PID 控制要取得好的控制效果,就必须对比例、积分和微分三种控制作用进行调整以形成相互配合又相互制 约的关系,这种关系不是简单的“线性组合” ,可从变化无穷的非线性组合中找出最佳的关系。神经网络所具有 的任意非线性表示能力,可以通过对系统性能的学习来实现具有最佳组合的 PID 控制。 6.4.1 基于基于 BP 神经网络控制参数自学习神经网络控制参数自学习 PID 控制控制 BP 神经网络具有逼近任意非线性函数的能力,而且结构和学习算法简单明确。通过神经网络自身的学习, 可以找到某一最优控制律下的 P,I,D 参数。基于 BP 神经网络的 PD 控制系统结构如图所示,控制器由两个部 分组成①经典的 PID 控制器直接对被控对象进行闭环控制,并且 DIP KKK,,三个参数为在线整定;②神经 网络 NN根据系统的运行状态,调节 PID 控制器的参数,以期达到某种性能指标的最优化。即使输出层神经元 的输出状态对应于 PID 控制器的三个可调参数 DIP KKK,,,通过神经网络的自学习、调整权系数,从而使其稳 定状态对应于某种最优控制律下的 PID 控制器参数。 经典增量式数字 PID 的控制算式为 ]212[]1[1−−−−−−kekekeKkeKkekeKkuku DIp 式中, DIP KKK,,分别为比例、积分、微分系数。将 DIP KKK,,视为依赖于系统运行状态的可调系数时,上式 为 ]211[−−−kekekeKKKkufku DIp ,,,,,, 式中f是与 kykuKKK DIP ,1,,,−等有关的非线性函数, 可以用 BP 神经网络 NN 通过训练和学习来 找到这样一个最佳控制规律。 设 BP 神经网络 NN 是一个三层 BP 网络,其结构如图所示,有 M 个输入节点、Q 个隐层节点、3 个输出节 点。输入节点对应所选的系统运行状态量,如系统不同时刻的输入量和输出量等,必要时要进行归一化处理。输 出节点分别对应 PID 控制器的三个可调参数 DIP KKK,,。由于 DIP KKK,,不能为负值,所以输出层神经元的 激发函数取非负的 Sigmoid 函数,而隐含层神经元的激发函数可取正负对称的 Sigmoid 函数。 由图可见,BP 神经网络输入层节点的输出为 ⎭ ⎬ ⎫ ≡ −− − 1 1,, 1 , 0 1 1 M jkj O MjjkexOL, 式中,输入层节点的个数 M 取决于被控系统的复杂程度。 网络的隐含层输入、输出为 [] ⎪ ⎪ ⎪ ⎭ ⎪ ⎪ ⎪ ⎬ ⎫ ≡ − ∑ 1 1,, 1 , 0, 2 22 0 122 )kO QiknetfkO kOknet Q ii M j jiji L ω 式中, 2 ij ω为隐含层权系数, 2 iM ω为阈值;][f为激发函数,tanh][xf;上角标(1) 、 (2) 、 (3)分别对 应输入层、隐含层、输出层。 最后,网络的输出层的输入、输出为 [] ⎪ ⎪ ⎪ ⎭ ⎪ ⎪ ⎪ ⎬ ⎫ ∑ D I P ll Q i ilii KO KO KO lknetgkO kOknet 3 2 3 1 3 0 33 0 233 2 , 1 , 0, ω 式中, 3 li ω为输出层权系数; 3 lQ ω为阈值, llQ θω 3 ;][g为激发函数, [ ][]tanh1 2 1 xg 取性能指标函数为 [] 1 2 1 1 1 2 1 2 2 −kzkykrJ 依照最速下降法修正网络的权系数, 即按J对权系数的负梯度方向搜索调整, 并附加一个使搜索快速收敛全局极 小的惯性项,则有 1 3 3 3 k J k li li li ωα ω ηωΔ ∂ ∂ −Δ 式中,η为学习速率;α为平滑因子; 3 3 3 3 33 1 1 li l l l lli knet knet kO kO ku ku ky ky JJ ωω∂ ∂ ⋅ ∂ ∂ ⋅ ∂ ∂ ⋅ ∂ ∂ ⋅ ∂ ∂ ∂ ∂ 由于 1kuky∂∂未知,所以近似用符号函数] 1sgn[kuky∂∂替代,由此带来的计算不精确的影 响可以通过调整学习速率η来补偿。 ⎪ ⎪ ⎪ ⎭ ⎪ ⎪ ⎪ ⎬ ⎫ −−− ∂ ∂ ∂ ∂ −− ∂ ∂ 2 12 1 3 2 3 1 3 0 kekeke kO ku ke kO ku keke kO ku 因此可得 BP 神经网络 NN 输出层的权系数计算公式为 ⎪ ⎪ ⎭ ⎪ ⎪ ⎬ ⎫ ∂ ∂ ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ ∂ ∂ ΔΔ 210 ][ 1 sgn 1 1 3 3 3 3233 ,,l knetg kO ku ku ky ke kkOk l l l liilli δ ωαηδω 依据上述推算方法,可得隐含层权系数的计算公式为 ⎪ ⎪ ⎭ ⎪ ⎪ ⎬ ⎫ − ΔΔ ∑ 1,, 1 , 0 ][ 1 2 0 3322 21 22 Qi kknetf kkOk l lilii ijjiij L ωδδ ωαηδω 式中 2/]1 [][ ]1[][ 2 xff xgxgg − − 基于 BP 神经网络的 PID 控制算法可归纳如下 1. 事先选定 BP 神经网络 NN 的结构,即选定输入层节点数 M 和隐含层节点数Q,并给出权系数的初值 0,0 32 liij ωω,选定学习速率η和平滑因子α,1k; 2. 采样得到kr和ky,计算kykrkzke−; 3. 对,, 1,,1,,pkkkiieiuiyir−−−L进行归一化处理,作为 NN 的输入; 4. 前向计算 NN 的各层神经元的输入和输出,NN 输出层的输出即为 PID 控制器的三个可调参数 ,,kKkKkK DIP ; 5. 计算 PID 控制器的控制输出ku,参与控制和计算; 6. 计算修正输出层的权系数 3 k li ω; 7. 计算修正隐含层的权系数 2 k ij ω; 8. 置1kk,返回到“2) ” 。 6.4.2 改进型改进型BP神经网络控制参数自学习神经网络控制参数自学习PID控制控制 将神经网络用于控制器的设计或直接学习计算控制器的输出(控制量) ,一般都要用到系统的预测输出值或 其变化量来计算权系数的修正量。但实际上,系统的预测输出值是不易直接测得的,通常的做法是建立被控对象 的预测数学模型,用该模型所计算的预测输出来取代预测处的实测值,以提高控制效果。 在上节的基于 BP 神经网络 PID 控制器中, 式中的 1kuky∂∂是近似用符号函数] 1[kukysng∂∂ 替代的。 如果能用某种意义下的最优估计量 1 ˆ ky代替 1 ky, 用 1 ˆ kuky∂∂来代替 1kuky∂∂, 将会使控制效果得到进一步改善。根据这个思想,下面基于 BP 神经网络的 PID 控制器给出两种改进算法。 1.采用线性预测模型的 BP 神经网络 PID 控制器 设被控对象可用下面的线性模型描述 11 kvkuzBzkyzA d −−− 式中,,kuky为系统的输出和控制输入信号;kv为均值为零的独立同分布随机干扰;d为系统滞后, 1≥d 。 ∑ −− α n i i iz azA 1 1 1 ∑ − − b n i i iz zB 0 1α 可得辨识方程 1kvkky T −θϕ 其中 ], 1,,,,2,1[ 1 ba T ndkudkudkunkykykyk−−⋅⋅⋅−−−−−⋅ ⋅ ⋅−−−−−ϕ T nn ba bbbaaa],,,,,,,[ 1021 ⋅ ⋅ ⋅⋅ ⋅ ⋅θ 用最小二乘法在线估计出参数矢量kθ,这样,一步预报输出可由下式计算 ⎪ ⎪ ⎭ ⎪ ⎪ ⎬ ⎫ −−− −−− −− −−−− ∧∧∧ ]1 11 [ 1 1 11 1 1 ]1 1[ 1 kPkkKkP kkPk kkP kK kkkykKkk T T T ϕ ϕϕ ϕ θϕθθ 下一步预报输出为 1