本書提出了一種基於markov對策的多agent協調框架並給出了相應的算法。
通過對多agent環境的分析,在對策論框架下進行多agent協調,重點研究了mas中敵對平衡與協作平衡的多agent學習算法。
基於多agent中競爭和合作的關系,設計了一種分層結構處理多agent協調:利用零和markov進行agent群體之間的競爭與對抗,利用團隊markov對策完成agent群體內部的協調與合作。機器人足球賽結果表明了本方法的可行性及優越性。
目錄
序
前言
第1章 緒論
1.1引言
1.2多機器人系統中的信息融合
1.2.1機器人傳感器系統
1.2.2機器人多傳感器信息融合
1.3多機器人協調與合作研究現狀
1.4多Agent信息融合與協調的研究現狀
1.4.1多Agent信息融合
1.4.2多Agent協調與合作
1.5機器人足球及其研究進展
1.5.1機器人足球的發展概況
1.5.2FIRA機器人足球比賽系統
1.5.3機器人足球的關鍵技術和研究熱點
1.6本書的結構和內容安排
參考文獻
第2章 多Agent的信息融合模型與方法
2.1引言
2.2Agent與MAS的概念及特性
2.2.1Agent的由來及定義
2.2.2Agent的特性
2.2.3MAS的概念與特性
2.2.4MAS與復雜系統
2.2.5MAS與智能系統
2.3信息融合技術概述
2.3.1信息融合的概念與定義
2.3.2信息融合的模型
2.3.3信息融合應用與發展現狀
2.4多Agent信息融合模型
2.4.1Agent體系結構
2.4.2MAS體系結構
2.4.3基於多Agent的信息融合模型
2.5小結
參考文獻
第3章 多Agent協調的學習與對策
3.1引言
3.2多Agent協調的理論與方法
3.2.1協調的基本概念
3.2.2MAS協調及其理論
3.3Agent的學習模型與方法
3.3.1強化學習
3.3.2Markov決策過程
3.3.3Q學習算法
3.4多Agent的協調模型
3.4.1黑板模型
3.4.2合同網
3.4.3通用部分全局規划
3.5多Agent協調的對策與學習方法
3.5.1Markov對策概述
3.5.2沖突博弈
3.5.3多Agent強化學習
3.6小結
參考文獻
第4章 基於證據推理的多Agent分布式決策
4.1引言
4.2證據推理理論
4.2.1概率的幾種解釋及其性質
4.2.2證據理論的數學基礎
4.2.3證據推理的基本概念
4.2.4Dempster組合規則
4.2.5證據決策規則
4.2.6Dempster組合規則存在的問題
4.3Agent信息模型
4.3.1單支置信函數
4.3.2基於證據推理的Agent信息模型
4.4可傳遞置信模型
4.4.1可傳遞置信模型的基本結構
4.4.2辨識框架的粗分和細化
4.4.3Pignistic概率轉換
4.5基於多Agent的分布式決策融合框架及算法
4.5.1系統框架
4.5.2融合中心
4.5.3決策中心
4.6仿真算例
4.6.1賽場狀態信息
4.6.2對手的策略
4.7多Agent分布式決策融合策略
4.7.1異構融合
4.7.2可靠性分配
4.7.3融合處理
4.7.4在機器人足球中的應用
4.8小結
參考文獻
第5章 強化函數設計方法及其在學習系統的應用
5.1引言
5.2強化學習應用中的關鍵問題
5.2.1泛化方法
5.2.2探索與利用的權衡
5.2.3強化函數與算法結構設計
5.3強化學習的獎懲函數
5.4基於平均報酬模型的強化學習算法
5.4.1報酬模型
5.4.2*優策略
5.4.3基於平均報酬模型的強化學習主要算法
5.5一種基於知識的強化函數設計方法
5.5.1強化函數的基本設計思想
5.5.2基於知識的強化函數
5.5.3仿真實驗
5.6小結
參考文獻
第6章 基於分布式強化學習的多Agent協調方法
6.1引言
6.2多Agent強化學習基本理論
6.2.1基於局部合作的Q學習
6.2.2基於區域合作的Q學習
6.2.3算法的收斂性
6.3多Agellt強化學習方法的特性
6.3.1多Agent強化學習理論及假設的不同
6.3.2多Agent強化學習模型及框架的差異
6.3.3多Agent強化學習內容的區別
6.3.4多Agent強化學習算法設計的迥異
6.4多Agent強化學習算法的分類與比較
6.4.1第一合作型多Agent強化學習算法
6.4.2第一競爭型多Agent強化學習算法
6.4.3混合型多Agent強化學習算法
6.4.4平衡型多Agent強化學習算法
6.4.5最佳響應型多Agent強化學習算法
6.4.6分析與比較
6.5MAS中的分布式強化學習模型及結構
6.5.1中央強化學習結構
6.5.2獨立強化學習結構
6.5.3群體強化學習結構
6.5.4社會強化學習結構
6.6基於分布式強化學習的多Agent協調模型及算法
6.6.1協調級
6.6.2行為級
6.6.3強化信息的分配
6.6.4仿真實驗
6.7小結
參考文獻
第7章 基於Markov對策的多Agent協調
7.1引言
7.2多Agent交互的協調與博弈分析
7.2.1多Agent協調與博弈的性質
7.2.2多Agent協調失敗的處理
7.3多Agent沖突博弈強化學習模型
7.3.1多Agent沖突博弈
7.3.2最優策略
7.3.3基於后悔值的Q學習模型
7.4Nash-Q學習
7.5零和Marl~OV對策和團隊Markov對策
7.5.1零和Markov對策
7.5.2團隊Markov對策
7.6基於Markov對策的多Agent協調策略
7.6.1對策框架
7.6.2Tearn級對策
7.6.3Member級對策
7.6.4仿真實驗
7.7小結
參考文獻
第8章 Agent技術在機器人智能控制系統的應用
8.1引言
8.2智能機器人系統應用研究
8.2.1概況
8.2.2傳統研究方法的缺陷
8.2.3智能機器人系統的共性
8.3開放式機器人智能控制系統應用研究
8.3.1開放式控制系統的典型特征
8.3.2基於PC的開放式控制系統的實現
8.4多機器人系統應用研究
8.4.1多機器人隊形控制
8.4.2機器人救援
8.4.3多機器人追捕問題
8.5總結與展望
8.5.1總結
8.5.2未來工作展望
參考文獻
前言
第1章 緒論
1.1引言
1.2多機器人系統中的信息融合
1.2.1機器人傳感器系統
1.2.2機器人多傳感器信息融合
1.3多機器人協調與合作研究現狀
1.4多Agent信息融合與協調的研究現狀
1.4.1多Agent信息融合
1.4.2多Agent協調與合作
1.5機器人足球及其研究進展
1.5.1機器人足球的發展概況
1.5.2FIRA機器人足球比賽系統
1.5.3機器人足球的關鍵技術和研究熱點
1.6本書的結構和內容安排
參考文獻
第2章 多Agent的信息融合模型與方法
2.1引言
2.2Agent與MAS的概念及特性
2.2.1Agent的由來及定義
2.2.2Agent的特性
2.2.3MAS的概念與特性
2.2.4MAS與復雜系統
2.2.5MAS與智能系統
2.3信息融合技術概述
2.3.1信息融合的概念與定義
2.3.2信息融合的模型
2.3.3信息融合應用與發展現狀
2.4多Agent信息融合模型
2.4.1Agent體系結構
2.4.2MAS體系結構
2.4.3基於多Agent的信息融合模型
2.5小結
參考文獻
第3章 多Agent協調的學習與對策
3.1引言
3.2多Agent協調的理論與方法
3.2.1協調的基本概念
3.2.2MAS協調及其理論
3.3Agent的學習模型與方法
3.3.1強化學習
3.3.2Markov決策過程
3.3.3Q學習算法
3.4多Agent的協調模型
3.4.1黑板模型
3.4.2合同網
3.4.3通用部分全局規划
3.5多Agent協調的對策與學習方法
3.5.1Markov對策概述
3.5.2沖突博弈
3.5.3多Agent強化學習
3.6小結
參考文獻
第4章 基於證據推理的多Agent分布式決策
4.1引言
4.2證據推理理論
4.2.1概率的幾種解釋及其性質
4.2.2證據理論的數學基礎
4.2.3證據推理的基本概念
4.2.4Dempster組合規則
4.2.5證據決策規則
4.2.6Dempster組合規則存在的問題
4.3Agent信息模型
4.3.1單支置信函數
4.3.2基於證據推理的Agent信息模型
4.4可傳遞置信模型
4.4.1可傳遞置信模型的基本結構
4.4.2辨識框架的粗分和細化
4.4.3Pignistic概率轉換
4.5基於多Agent的分布式決策融合框架及算法
4.5.1系統框架
4.5.2融合中心
4.5.3決策中心
4.6仿真算例
4.6.1賽場狀態信息
4.6.2對手的策略
4.7多Agent分布式決策融合策略
4.7.1異構融合
4.7.2可靠性分配
4.7.3融合處理
4.7.4在機器人足球中的應用
4.8小結
參考文獻
第5章 強化函數設計方法及其在學習系統的應用
5.1引言
5.2強化學習應用中的關鍵問題
5.2.1泛化方法
5.2.2探索與利用的權衡
5.2.3強化函數與算法結構設計
5.3強化學習的獎懲函數
5.4基於平均報酬模型的強化學習算法
5.4.1報酬模型
5.4.2*優策略
5.4.3基於平均報酬模型的強化學習主要算法
5.5一種基於知識的強化函數設計方法
5.5.1強化函數的基本設計思想
5.5.2基於知識的強化函數
5.5.3仿真實驗
5.6小結
參考文獻
第6章 基於分布式強化學習的多Agent協調方法
6.1引言
6.2多Agent強化學習基本理論
6.2.1基於局部合作的Q學習
6.2.2基於區域合作的Q學習
6.2.3算法的收斂性
6.3多Agellt強化學習方法的特性
6.3.1多Agent強化學習理論及假設的不同
6.3.2多Agent強化學習模型及框架的差異
6.3.3多Agent強化學習內容的區別
6.3.4多Agent強化學習算法設計的迥異
6.4多Agent強化學習算法的分類與比較
6.4.1第一合作型多Agent強化學習算法
6.4.2第一競爭型多Agent強化學習算法
6.4.3混合型多Agent強化學習算法
6.4.4平衡型多Agent強化學習算法
6.4.5最佳響應型多Agent強化學習算法
6.4.6分析與比較
6.5MAS中的分布式強化學習模型及結構
6.5.1中央強化學習結構
6.5.2獨立強化學習結構
6.5.3群體強化學習結構
6.5.4社會強化學習結構
6.6基於分布式強化學習的多Agent協調模型及算法
6.6.1協調級
6.6.2行為級
6.6.3強化信息的分配
6.6.4仿真實驗
6.7小結
參考文獻
第7章 基於Markov對策的多Agent協調
7.1引言
7.2多Agent交互的協調與博弈分析
7.2.1多Agent協調與博弈的性質
7.2.2多Agent協調失敗的處理
7.3多Agent沖突博弈強化學習模型
7.3.1多Agent沖突博弈
7.3.2最優策略
7.3.3基於后悔值的Q學習模型
7.4Nash-Q學習
7.5零和Marl~OV對策和團隊Markov對策
7.5.1零和Markov對策
7.5.2團隊Markov對策
7.6基於Markov對策的多Agent協調策略
7.6.1對策框架
7.6.2Tearn級對策
7.6.3Member級對策
7.6.4仿真實驗
7.7小結
參考文獻
第8章 Agent技術在機器人智能控制系統的應用
8.1引言
8.2智能機器人系統應用研究
8.2.1概況
8.2.2傳統研究方法的缺陷
8.2.3智能機器人系統的共性
8.3開放式機器人智能控制系統應用研究
8.3.1開放式控制系統的典型特征
8.3.2基於PC的開放式控制系統的實現
8.4多機器人系統應用研究
8.4.1多機器人隊形控制
8.4.2機器人救援
8.4.3多機器人追捕問題
8.5總結與展望
8.5.1總結
8.5.2未來工作展望
參考文獻
網路書店
類別
折扣
價格
-
新書87折$392