exp_config = { | |
'env': { | |
'manager': { | |
'episode_num': float("inf"), | |
'max_retry': 1, | |
'retry_type': 'reset', | |
'auto_reset': True, | |
'step_timeout': None, | |
'reset_timeout': None, | |
'retry_waiting_time': 0.1, | |
'cfg_type': 'BaseEnvManagerDict' | |
}, | |
'stop_value': 240, | |
'collector_env_num': 8, | |
'evaluator_env_num': 8, | |
'env_id': 'LunarLander-v2', | |
'n_evaluator_episode': 8 | |
}, | |
'policy': { | |
'model': { | |
'obs_shape': 8, | |
'action_shape': 4 | |
}, | |
'learn': { | |
'learner': { | |
'train_iterations': 1000000000, | |
'dataloader': { | |
'num_workers': 0 | |
}, | |
'log_policy': True, | |
'hook': { | |
'load_ckpt_before_run': '', | |
'log_show_after_iter': 100, | |
'save_ckpt_after_iter': 10000, | |
'save_ckpt_after_run': True | |
}, | |
'cfg_type': 'BaseLearnerDict' | |
}, | |
'update_per_collect': 1, | |
'batch_size': 160, | |
'learning_rate': 0.0003, | |
'betas': [0.9, 0.999], | |
'eps': 1e-08, | |
'grad_norm': 0.5, | |
'value_weight': 0.5, | |
'entropy_weight': 0.001, | |
'adv_norm': True, | |
'ignore_done': False | |
}, | |
'collect': { | |
'collector': {}, | |
'unroll_len': 1, | |
'discount_factor': 0.99, | |
'gae_lambda': 0.95, | |
'n_sample': 320 | |
}, | |
'eval': { | |
'evaluator': { | |
'eval_freq': 1000, | |
'render': { | |
'render_freq': -1, | |
'mode': 'train_iter' | |
}, | |
'cfg_type': 'InteractionSerialEvaluatorDict', | |
'n_episode': 8, | |
'stop_value': 240 | |
} | |
}, | |
'other': { | |
'replay_buffer': {} | |
}, | |
'on_policy': True, | |
'cuda': True, | |
'multi_gpu': False, | |
'bp_update_sync': True, | |
'traj_len_inf': False, | |
'type': 'a2c', | |
'priority': False, | |
'priority_IS_weight': False, | |
'cfg_type': 'A2CPolicyDict' | |
}, | |
'exp_name': 'Lunarlander-v2-A2C', | |
'wandb_logger': { | |
'gradient_logger': True, | |
'video_logger': True, | |
'plot_logger': True, | |
'action_logger': True, | |
'return_logger': False | |
}, | |
'seed': 0 | |
} | |