bug fixes for OPE (#311)

2026-02-17 23:05:51 +01:00 · 2019-05-21 16:39:11 +03:00
parent 85d70dd7d5
commit acceb03ac0
8 changed files with 38 additions and 21 deletions
--- a/rl_coach/agents/agent.py
+++ b/rl_coach/agents/agent.py
@@ -697,7 +697,7 @@ class Agent(AgentInterface):

            # we either go sequentially through the entire replay buffer in the batch RL mode,
            # or sample randomly for the basic RL case.
-            training_schedule = self.call_memory('get_shuffled_data_generator', batch_size) if \
+            training_schedule = self.call_memory('get_shuffled_training_data_generator', batch_size) if \
                self.ap.is_batch_rl_training else [self.call_memory('sample', batch_size) for _ in
                                      range(self.ap.algorithm.num_consecutive_training_steps)]

--- a/rl_coach/agents/ddqn_bcq_agent.py
+++ b/rl_coach/agents/ddqn_bcq_agent.py
@@ -155,7 +155,7 @@ class DDQNBCQAgent(DQNAgent):
            reward_model_loss = 0
            imitation_model_loss = 0
            total_transitions_processed = 0
-            for i, batch in enumerate(self.call_memory('get_shuffled_data_generator', batch_size)):
+            for i, batch in enumerate(self.call_memory('get_shuffled_training_data_generator', batch_size)):
                batch = Batch(batch)

                # reward model
--- a/rl_coach/agents/value_optimization_agent.py
+++ b/rl_coach/agents/value_optimization_agent.py
@@ -164,7 +164,7 @@ class ValueOptimizationAgent(Agent):
        for epoch in range(epochs):
            loss = 0
            total_transitions_processed = 0
-            for i, batch in enumerate(self.call_memory('get_shuffled_data_generator', batch_size)):
+            for i, batch in enumerate(self.call_memory('get_shuffled_training_data_generator', batch_size)):
                batch = Batch(batch)
                loss += self.get_reward_model_loss(batch)
                total_transitions_processed += batch.size