深度學習之障礙物迴避控制

我們使用deep deterministic policy gradient (DDPG)作為學習障礙物迴避控制的深度強化學習演算法,此演算法使用兩個神經網路─決策網路與評判網路─與環境互動。我們使用人工勢場避障的演算法(potential field)根據周遭障礙物資訊以及目標位置,建構出一個虛擬的位能場,並且計算出在該處的加速度向量作為無人載具的移動方向與速度判斷。透過少量的專家操作資訊作為提示,鼓勵演算法在模仿專家之餘發展出更佳的策略。這套方法被稱為from demonstration,從演示的策略中模仿並且更有效的探索。