TD3 (#338)

2026-02-20 00:35:56 +01:00 · 2019-06-16 11:11:21 +03:00
parent 8df3c46756
commit 7eb884c5b2
107 changed files with 2200 additions and 495 deletions
--- a/rl_coach/agents/ddpg_agent.py
+++ b/rl_coach/agents/ddpg_agent.py
@@ -41,14 +41,15 @@ class DDPGCriticNetworkParameters(NetworkParameters):
        self.middleware_parameters = FCMiddlewareParameters()
        self.heads_parameters = [DDPGVHeadParameters()]
        self.optimizer_type = 'Adam'
-        self.adam_optimizer_beta2 = 0.999
-        self.optimizer_epsilon = 1e-8
        self.batch_size = 64
        self.async_training = False
        self.learning_rate = 0.001
+        self.adam_optimizer_beta2 = 0.999
+        self.optimizer_epsilon = 1e-8
        self.create_target_network = True
        self.shared_optimizer = True
        self.scale_down_gradients_by_number_of_workers_for_sync_training = False
+        # self.l2_regularization = 1e-2


 class DDPGActorNetworkParameters(NetworkParameters):
@@ -58,9 +59,9 @@ class DDPGActorNetworkParameters(NetworkParameters):
        self.middleware_parameters = FCMiddlewareParameters(batchnorm=True)
        self.heads_parameters = [DDPGActorHeadParameters()]
        self.optimizer_type = 'Adam'
+        self.batch_size = 64
        self.adam_optimizer_beta2 = 0.999
        self.optimizer_epsilon = 1e-8
-        self.batch_size = 64
        self.async_training = False
        self.learning_rate = 0.0001
        self.create_target_network = True
@@ -217,4 +218,4 @@ class DDPGAgent(ActorCriticAgent):
        action_info = ActionInfo(action=action,
                                 action_value=q_value)

-        return action_info
+        return action_info