qgallouedec
/

ppo-HumanoidStandup-v2-1463871156

Reinforcement Learning

stable-baselines3

HumanoidStandup-v2

deep-reinforcement-learning

HumanoidStandup-v4

Model card Files Files and versions Community

qgallouedec HF staff commited on Apr 17

Commit

e194a3a

•

1 Parent(s): 0364843

Upload README.md with huggingface_hub

Files changed (1) hide show

README.md +1 -61

README.md CHANGED Viewed

@@ -5,6 +5,7 @@ tags:
 - deep-reinforcement-learning
 - reinforcement-learning
 - stable-baselines3
 model-index:
 - name: PPO
   results:
@@ -20,64 +21,3 @@ model-index:
       name: mean_reward
       verified: false
 ---
-# **PPO** Agent playing **HumanoidStandup-v2**
-This is a trained model of a **PPO** agent playing **HumanoidStandup-v2**
-using the [stable-baselines3 library](https://github.com/DLR-RM/stable-baselines3)
-and the [RL Zoo](https://github.com/DLR-RM/rl-baselines3-zoo).
-The RL Zoo is a training framework for Stable Baselines3
-reinforcement learning agents,
-with hyperparameter optimization and pre-trained agents included.
-## Usage (with SB3 RL Zoo)
-RL Zoo: https://github.com/DLR-RM/rl-baselines3-zoo<br/>
-SB3: https://github.com/DLR-RM/stable-baselines3<br/>
-SB3 Contrib: https://github.com/Stable-Baselines-Team/stable-baselines3-contrib
-Install the RL Zoo (with SB3 and SB3-Contrib):
-```bash
-pip install rl_zoo3
-```
-```
-# Download model and save it into the logs/ folder
-python -m rl_zoo3.load_from_hub --algo ppo --env HumanoidStandup-v2 -orga qgallouedec -f logs/
-python -m rl_zoo3.enjoy --algo ppo --env HumanoidStandup-v2  -f logs/
-```
-If you installed the RL Zoo3 via pip (`pip install rl_zoo3`), from anywhere you can do:
-```
-python -m rl_zoo3.load_from_hub --algo ppo --env HumanoidStandup-v2 -orga qgallouedec -f logs/
-python -m rl_zoo3.enjoy --algo ppo --env HumanoidStandup-v2  -f logs/
-```
-## Training (with the RL Zoo)
-```
-python -m rl_zoo3.train --algo ppo --env HumanoidStandup-v2 -f logs/
-# Upload the model and generate video (when possible)
-python -m rl_zoo3.push_to_hub --algo ppo --env HumanoidStandup-v2 -f logs/ -orga qgallouedec
-```
-## Hyperparameters
-```python
-OrderedDict([('batch_size', 32),
-             ('clip_range', 0.3),
-             ('ent_coef', 3.62109e-06),
-             ('gae_lambda', 0.9),
-             ('gamma', 0.99),
-             ('learning_rate', 2.55673e-05),
-             ('max_grad_norm', 0.7),
-             ('n_envs', 1),
-             ('n_epochs', 20),
-             ('n_steps', 512),
-             ('n_timesteps', 10000000.0),
-             ('normalize', True),
-             ('policy', 'MlpPolicy'),
-             ('policy_kwargs',
-              'dict( log_std_init=-2, ortho_init=False, activation_fn=nn.ReLU, '
-              'net_arch=dict(pi=[256, 256], vf=[256, 256]) )'),
-             ('vf_coef', 0.430793),
-             ('normalize_kwargs', {'norm_obs': True, 'norm_reward': False})])
-```

 - deep-reinforcement-learning
 - reinforcement-learning
 - stable-baselines3
+- HumanoidStandup-v4
 model-index:
 - name: PPO
   results:
       name: mean_reward
       verified: false
 ---