崗位職責(zé):
1、負責(zé)強化學(xué)習(xí)算法開發(fā)、設(shè)計訓(xùn)練策略、優(yōu)化其在仿真或物理環(huán)境中的交互能力;
2、針對具體任務(wù)(如物體抓取、導(dǎo)航避障)調(diào)整獎勵函數(shù)與策略模型
能力要求:
1.?熟悉強化學(xué)習(xí)算法及多模態(tài)機器人行為模型開發(fā),如?PPO、DQN、SAC,以及基于模仿學(xué)習(xí)的模型開發(fā);
2.?熟悉Ray?RLlib、Stable-Baselines3等開源強化學(xué)習(xí)框架
3.?熟悉機器人仿真工具,如Isaac?Sim、Mujoco、PyBullet?等。