机器学习的研究不仅是人工智能领域的核心问题,而且已成为近年来计算机科学与技术领域中最活跃的研究分支之一。
本书主要围绕基于神经网络的学习、强化学习和进化学习三个方面阐述机器学习理论、方法及其应用,共三部分13章。第一部分是神经网络学习及其在复杂非线性系统中的控制,包括基于时间差分的神经网络预测控制,基于径向基函数网络的机械手迭代学习控制,自适应T_S型模糊径向基函数网络等。第二部分是强化学习的大规模或连续空间表示问题,包括基于强化学习的白适应PID控制,基于动态回归网络的强化学习控制,基于自适应模糊径向基函数网络、支持向量机和高斯过程的连续空间强化学习,基于图上测地高斯基函数的策略迭代强化学习等。第三部分则是对分布估计优化算法进行研究,包括多目标优化问题的差分进化一分布估计算法,基于细菌觅食行为的分布估计算法在预测控制中的应用,一种多样性保持的分布估计算法及其在支持向量机参数选择问题中的应用等。为便于应用本书阐述的算法,书后附有部分机器学习算法MATLAB源程序。
本书可供理工科高等院校计算机科学、信息科学、人工智能和自动化技术及相关专业的教师及研究生阅读,也可供自然科学和工程技术领域中的研究人员参考。
本书全面、系统地介绍了机器学习的基本概念、发展历史、分类及部分机器学习的主要策略等,并重点围绕当前机器学习领域的热点问题展开讨论,包括:神经网络学习及其在复杂非线性系统控制中的应用、大规模或连续空间下的强化学习以及分布估计优化算法等。此外,为理论联系实际和便于读者理解算法思想,书中还介绍了机器学习方法的若干典型应用,如机械手轨迹跟踪控制、小车爬山最短时间控制、倒立摆平衡控制、小船过河控制、机器人迷宫行走以及复杂数值函数优化问题等。
《智能科学技术著作丛书》序
序
前言
第1章 机器学习概述
1.1 机器学习的概念
1.2 机器学习的发展历史
1.3 机器学习的分类
1.3.1 基于学习策略的分类
1.3.2 基于学习方法的分类
1.3.3 基于学习方式的分类
1.3.4 基于数据形式的分类
1.3.5 基于学习目标的分类
1.4 机器学习的主要策略
1.4.1 基于神经网络的学习
1.4.2 进化学习
第2章 基于时间差分的神经网络预测控制
预测控制是20世纪70年代中后期在欧美工业领域内出现的,它是在新型计算机控制算法基础上发展起来的,是一种基于模型的先进控制技术,亦称为模型预测控制(model predictive control,MPC)。预测控制技术的产生有着深刻的实际背景,这主要是由于被控对象日益复杂,一般的控制理论对信息描述的要求和优化模式都难以满足复杂工业过程的要求,而预测控制对模型的要求低,能兼顾被控对象的非线性、时变性因素及干扰的影响,不但跟踪性能好,而且对模型失配有较强的鲁棒性。因此,预测控制作为一种面向复杂系统的控制策略,一开始就受到国内外控制界众多学者的重视,并在理论研究和实际应用方面取得了不少成果。在过去的几十年里,非线性预测控制已经被成功地应用于石油、化工以及电力等工业过程控制中,这些过程具有较强的非线性,用一般线性控制模型和方法难以得到良好的控制品质。
预测控制的基本思想是充分利用过去时刻的输入、输出信息建立预测模型,然后利用预测模型对系统未来的输出做出预测,从而通过长时域的优化获得最优的控制量,实现对被控对象的有效控制。它的主要特点是:预测模型的多样性,滚动优化的时序性,在线校正的适应性以及工业过程的实用性。目前,预测控制对于控制变化比较缓慢的生产过程或对象,一般均能取得很好的效果,但是,对于机电类快变过程的快速跟踪控制问题,如机器人、火炮或雷达的目标跟踪和冶金轧制过程等,由于控制算法过于复杂,运算量大,往往难以在线实时控制。因此,有必要寻找一种算法简单、控制迅速有效的预测控制方法。
……