陈鹏宇,王 芳,3,刘 硕,岳圣智,宋亚男,金兆一,林远山,3
(1.大连海洋大学信息工程学院/2.辽宁省海洋信息技术重点实验室/3.设施渔业教育部重点实验室(大连海洋大学),辽宁 大连 116023)
在索饵、越冬或生殖洄游等时期,鱼类常以集群行为方式运动。鱼类集群行为引起统计物理学和理论生物学研究人员的极大兴趣[1-4],这种高度协调且极度有序的集群行为的产生机理和内在机制,是动物行为学、心理学、认知学等领域的国内外学者研究的核心问题[5]。目前,鱼类集群行为建模方法可分为基于规则和基于学习两大类。基于规则的建模方法将鱼个体抽象为运动粒子,其运动受周围粒子影响,遵循“近距排斥-远距吸引-中距同向”三个基本规则。经典的自驱粒子模型主要有Boids模型[6]、Couzin 模型[7]、Ⅴicsek 模型[8]等。为更真实地刻画鱼类个体的行为特点,学者们通过引入各类因素提出了大量的变种[9-16]。一些学者通过对个体运动过程进行采集、观察,对数据进行分析与重建,推断出一些个体在群体中遵循的规则[17-21],部分验证了某些规则的有效性。然而,由于预设的规则严重依赖人的先验知识,而以目前人们对鱼类群体的认知水平,提出或构建更准确的规则极具挑战,因而基于规则的自驱粒子模型可能无法很好地刻画集群行为。鉴于强化学习善于自主学习到序列决策行为,并且近年在各领域涌现令人瞩目的成果,国内外研究人员开始尝试使用强化学习训练个体决策,以学习的方式对集群行为进行建模[22-26]。其基本思路是构建鱼类可交互的环境,将鱼类个体建模成可根据感知做出动作的智能体,利用个体间距离[27]、群体模式误差[28-29]等定义奖励函数,以迭代试错的方式学习到最终的策略。这些方法避免了直接将规则或运动定律强加于策略模型的问题。奖励函数的设计显式或隐式地参考排斥、同向、向心等规则,因而它们仍然没有完全摆脱规则的束缚。为此,Durve 等[30]提出一种用邻居数变化作为奖励信号集群行为建模方法,验证了速度对齐机制可能是最小化邻居丢失率导出的自适应行为。然而,这种方法中鱼个体的状态和动作用离散值表示,策略用表格表示,难以表达真实世界中具有高度非线性时变特性的鱼类行为决策。本研究尝试利用经典的Deep Q-Networks(DQN)算法获得鱼类集群行为模型,建立智能体连续形式的状态表示和动作表示,借鉴Durve 等[30]的思想用邻居数变化构建奖励函数,使用神经网络表达鱼类个体的运动策略,在单个学习者多个教师的环境中使用DQN 算法训练神经网络,获得鱼类个体运动策略,以期达到训练后的模型能够生成与真实鱼群类似的集群行为的目的,为理解鱼群形成、鱼类洄游、渔场形成等提供新视角,为工厂化高密度养殖提供参考。
鱼类通过感觉器官来感知周围环境,并依据自身运动策略做出相应动作,所有个体汇集形成集群行为。若能获得每尾鱼的个体运动策略,便可实现对鱼类集群行为的建模。为此,本研究将鱼类个体建模成学习智能体,并采用DQN 算法获得其运动策略。
1.1 状态表示
鱼类个体在运动过程中的动作受视野范围内邻居的影响。为降低个体间交互的复杂度,本研究依据平均场理论,将所有邻居运动对该个体的影响等价为所有邻居平均值对该个体的影响。为此,本研究将个体运动方向与其感知范围内所有邻居平均运动方向的夹角大小作为个体感知到的状态(图1)。
图1 个体的感知状态示意Fig.1 Individual"s perceptual state
图中空心实线箭头为个体i,实心虚线箭头为个体i感知范围内的邻居,空心虚线箭头代表邻居平均运动方向,为时间步t的状态,可用式(1)表示:
1.2 动作表示
从个体运动模型可知,线速度和角速度是鱼类个体运动的控制量。参照大多数集群行为模型,在此假定线速度的大小为恒定值,这样鱼类个体的运动只受其角速度控制。由于鱼个体转向有一个极限的转角,设为θmax,故其角速度的取值范围为[-θmax,θmax]。为更好使用DQN 算法,在此将智能体的角速度动作空间离散为m个可执行的动作(图2),其中,实线箭头为个体在当前时间步的运动方向,以此方向作为基准,每间隔一定弧度定义一个动作,虚线箭头即代表定义的m个动作。
图2 个体的可执行动作示意Fig.2 Individual’s executable actions
1.3 奖励函数设计
奖励函数是强化学习算法中非常重要的一部分,其作用是引导智能体朝获得更高奖励的方向发展,奖励函数设计的好坏会影响到智能体策略的学习。鱼类通过汇聚形成集群行为具有更好觅食、感知威胁、分散敌害注意力进而避开敌害等众多好处,但不管是哪种好处,对于集群中的个体而言,都可以表现为个体的邻居较多。受这种情况的启发,本研究将邻居数量作为奖励函数的参数来设计奖励函数,具体如式(3)所示。如果个体执行某个动作后邻居数量减少,则该动作得到奖励0,否则得到奖励1。该奖励函数鼓励个体去选择能使邻居数量增加的动作。
1.4 训练
为使个体在学习过程中既能从已知的经验中获得最大化奖励,又能在同一状态下探索更多不同的动作,利用ε-greedy 策略来选择动作,如式(4)所示。
其中,ε∈(0,1),在训练过程中ε的值从1向0逐渐递减,随着训练的进行选择随机动作的概率逐渐减小。当智能体执行随机动作时,智能体在预设的动作空间中随机选择一个动作执行。
为验证学习者是否可学习到教师的运动策略,并形成集群行为,构建如下实验:实验中只有一个具有学习能力的智能体称为学习者,其余个体为教师,所有个体处在具有周期性边界的环境中运动,即个体从某个边界运动出界后会从对面的边界重新进入环境。所有教师的运动策略固定,不需学习,其运动策略使用Ⅴicsek模型[8]。Ⅴicsek模型中的个体仅遵循同向规则,假定个体运动的速率恒定,而个体的运动方向仅取决于感知范围内所有邻居的平均方向。
2.1 习得模型的有效性验证
有序度ψ(t)是评价一个群体是否形成集群行为的关键指标,其计算方法如式(5)所示。有序度越接近1,说明群体中所有个体的运动方向越趋于一致;
有序度越接近0,说明群体中所有个体的运动越混乱无序。
训练过程中,记录每个时间步学习者感知范围内的有序度,每回合(5 000 步)的平均有序度变化(图3)。由图3 可见,在训练的前100 回合,平均有序度处于0.5~0.8之间,随着训练的进行,平均有序度呈上升趋势,当训练到300回合后,平均有序度普遍达到0.9 以上,这说明学习者学会长时间地与其感知范围内的邻居进行有序运动。
图3 平均有序度的变化趋势Fig.3 Change trend of the average order parameter
聚集也是集群行为的表征之一。图4展示训练过程中每回合奖励的变化趋势。由图4 可见,随着训练的进行,学习者获得的奖励不断增加。由奖励函数的设计可知,学习者在学习过程中,邻居数越来越多,即学习者学习到的策略,使其周围尽可能有更多的邻居,并形成集群行为。
图4 奖励的变化趋势Fig.4 Change trend of the reward
图5 学习者与教师比例1∶49测试结果Fig.5 Learner to teacher ratio 1∶49 test results
图6 学习者与教师比例25∶25测试结果Fig.6 Learner to teacher ratio 25∶25 test results
图7 学习者与教师比例50∶0测试结果Fig.7 Learner to teacher ratio 50∶0 test results
为验证习得的模型是否能在各种情况下形成集群行为,进行三组测试实验(学习者与教师的比例分别为1∶49、25∶25、50∶0)。图5-7 为三组实验的典型测试回合中所有个体的运动情况。每组图均从t=0 时刻开始记录,每2 个时间步记录一次,共记录8 次。从图5-7 中均可看出,三种情况下,习得的模型均能使学习者形成集群行为。
综上,从模型的收敛性与集群行为有效性两个方面,验证了本研究所提方法可获得鱼类个体运动策略,且习得的策略在不同场景中均能涌现出集群行为。
2.2 习得的鱼类个体运动策略可视化
为进一步分析产生集群行为的鱼类个体策略,本节对习得的鱼类个体运动策略进行可视化分析。习得的鱼类个体运动策略本质上是表示Q函数的神经网络,其输入为鱼类个体的状态,输出为不同动作的Q值,鱼类个体选择Q值最大的动作执行。由于本研究所提方法中学习者的状态是连续值,为便于统计,借鉴Q-Learning算法[31]中的Q表,将神经网络的策略转换成表格形式进行可视化。
可视化的具体做法是直接对习得的模型进行测试。测试时,首先将状态空间离散为3 600 种状态,即每种状态之间相差0.1°,再将3 600 种不同的状态分别输入模型得到不同状态下所有动作的Q值。之后,为了能够在只有32种状态的表格上进行可视化策略,将3 600种状态中,属于表格上32种状态中同一种状态的不同动作的Q值进行求和。最后,将Q表中每种状态下Q值最大的动作所在位置标为1(图8-9 中,显示为黑色),其余动作标为0(图8-9 中,显示为白色)绘制出策略热图。在绘制出的策略图上,每种状态的范围大小是π∕16,其中16 号状态的范围是[-π∕32,π∕32 ]。
图8 展示训练过程中模型策略的变化趋势,为了将学习者的运动策略同教师的运动策略进行对比,使用相同的策略可视化方法对教师的运动策略进行可视化(图9)。
图8 模型策略的变化趋势Fig.8 Trends in model strategy
图9 教师运动策略Fig.9 Teacher movement strategy
从图8中可以观察到,在训练的早期阶段,学习者的运动策略较为混乱,但随着训练的进行,学习者的策略逐渐规律并收敛为与教师的运动策略相似的运动策略,证明鱼类个体能学习到教师的运动策略。
2.3 仿真集群行为与真实鱼类集群行为的对比
为进一步验证本研究所提方法的有效性,本节将习得的运动策略产生的仿真集群行为与真实鱼类集群行为进行对比分析。其中,真实鱼群行为轨迹数据由一种大型集群跟踪算法idtracker.ai提取得到[32],包含80 尾斑马鱼(Danio rerio)形成的集群的运动轨迹。有序度ψ(t)用于量化集群行为的有序程度;
平均邻居数M(t)用于评估集群行为的聚集程度,其计算方法如式(6)所示。鉴于有序度和平均邻居数是刻画集群行为的两个重要指标,在此分析仿真与真实两种集群行为的有序度和平均邻居数。
图10 分别展示仿真与真实集群行为的有序度和平均邻居数对比结果。由图10(a)可见,仿真集群行为的有序度普遍能够达到0.9 以上,真实鱼类集群行为的有序度则始终在0.8 上下浮动。由此可以发现,不论是仿真集群还是真实鱼群,当它们形成集群行为时,它们通常具有较高的有序度。由图10(b)可见,仿真集群行为的平均邻居数主要在16~20之间浮动,真实鱼类集群行为的平均邻居数主要在18~19 之间浮动。两种集群行为中的个体在运动过程中均能使自己拥有较多的邻居。这说明仿真集群行为在聚集性上表现出同真实鱼类集群行为一致的结果。从有序度与平均邻居数对比结果可以看出,习得行为策略形成的仿真集群行为具有与真实鱼类集群行为相似的有序性与聚集性,进一步证明本研究所提方法能够有效地建模鱼类集群行为。
图10 仿真集群与真实集群的有序度与平均邻居数对比Fig.10 Comparison of the order parameter and the average number of neighbors between the simulated cluster and the real cluster
2.4 个体感知能力对习得模型的影响
鱼类个体的感知能力在形成集群行为过程中发挥着关键作用。为探究在个体感知能力较弱的情况下是否依然能获得形成集群行为的个体运动策略,本节将个体感知范围缩小为R=0.5,其余设置不变,使用同样的算法对个体运动策略进行重新训练,并将习得的运动策略在学习者与教师比例为50∶0 的情况下进行测试,集群运动效果如图11 所示。由图11可见,即使在个体的感知能力较弱情况下,本研究所提方法依然能习得产生集群行为的个体运动策略,这表明本研究所提出的鱼类集群行为建模方法不受个体感知能力的限制。然而,当个体感知范围缩小后,所有个体形成集群行为所需的时间变长,且最终形成的集群也更加紧凑。这可能是因为当个体感知范围缩小后,每个个体能感知到的邻居变少,从而环境中会先形成若干个较小的集群。在经过一段时间的运动后,这些较小的集群才能汇聚成一个大集群。
图11 小感知范围模型的测试结果Fig.11 Test results of model with small perceptual range
从仿真集群行为与真实鱼类集群行为对比可以发现,两者在有序性和聚集性方面虽表现相似,但并非完全相同。仿真集群行为的有序度普遍高于真实鱼类集群行为的有序度,甚至在一段时间步内十分接近于1。这可能是因为真实鱼类的运动具有一定的随机性,即使整个鱼群保持集群状态运动,每个个体的朝向仍有一定的偏差。此外,现实环境下个体的运动不仅受周围邻居的影响,还受到环境因素的影响,例如水质、水温、光照等因素的变化都可能影响鱼类的集群行为。而仿真环境则是一种理想的无噪声环境,这种环境的差异可能导致仿真集群行为与真实鱼类集群行为的表现不完全一致。因此,在后续的研究中,将进一步探究环境因素在鱼类集群行为建模方法中的影响。
本研究提出一种基于深度强化学习的鱼类集群行为建模方法。仿真结果表明,训练后的模型能够使个体形成有效的集群行为,从而证明在连续性状态下,用邻居数变化作为奖励信号引导学习者学习,可获得以神经网络表示的鱼类集群行为模型。通过对模型进行策略可视化分析,验证模型所习得的运动策略是与环境中教师相似的运动策略。使用习得模型形成的仿真集群行为在有序性与聚集性上均表现出同真实鱼类集群行为相近的特点,进一步证明本方法的有效性。本方法有助于探究真实鱼群集群行为,为理解鱼群形成、鱼类洄游、渔场形成等提供新视角,同时有助于养殖者或研究人员理解鱼类集群行为产生的原因,从而更好地进行鱼类高密度养殖。
猜你喜欢鱼类集群学习者基于MFCC和ResNet的鱼类行为识别海洋信息技术与应用(2022年1期)2022-06-05鱼类运动会儿童时代·幸福宝宝(2020年9期)2020-09-08你是哪种类型的学习者学生天地(2020年15期)2020-08-25十二星座是什么类型的学习者意林·少年版(2020年2期)2020-02-18海上小型无人机集群的反制装备需求与应对之策研究军事运筹与系统工程(2019年4期)2019-09-11一种无人机集群发射回收装置的控制系统设计电子制作(2018年11期)2018-08-04Python与Spark集群在收费数据分析中的应用中国交通信息化(2017年3期)2017-06-08勤快又呆萌的集群机器人知识就是力量(2017年2期)2017-01-21汉语学习自主学习者特征初探海外华文教育(2016年4期)2017-01-20鱼类是怎样保护自己的金色少年(奇趣科普)(2016年8期)2016-09-21