TD3 (#338)

2026-04-19 14:13:32 +02:00 · 2019-06-16 11:11:21 +03:00
parent 8df3c46756
commit 7eb884c5b2
107 changed files with 2200 additions and 495 deletions
--- a/rl_coach/agents/ddqn_bcq_agent.py
+++ b/rl_coach/agents/ddqn_bcq_agent.py
@@ -90,7 +90,7 @@ class DDQNBCQAgent(DQNAgent):
                if self.ap.algorithm.action_drop_method_parameters.use_state_embedding_instead_of_state:
                    return self.networks['reward_model'].online_network.predict(
                        states,
-                        outputs=[self.networks['reward_model'].online_network.state_embedding])
+                        outputs=[self.networks['reward_model'].online_network.state_embedding[0]])
                else:
                    return states['observation']
            self.embedding = to_embedding
@@ -189,7 +189,7 @@ class DDQNBCQAgent(DQNAgent):
            if self.ap.algorithm.action_drop_method_parameters.use_state_embedding_instead_of_state:
                self.knn_trees = [AnnoyDictionary(
                    dict_size=knn_size,
-                    key_width=int(self.networks['reward_model'].online_network.state_embedding.shape[-1]),
+                    key_width=int(self.networks['reward_model'].online_network.state_embedding[0].shape[-1]),
                    batch_size=knn_size)
                    for _ in range(len(self.spaces.action.actions))]
            else: