fix e-greedy in case action values were equal (#423)

2026-07-09 10:56:33 +02:00 · 2019-11-10 17:20:44 +02:00
parent 6ca91b9090
commit 188b86369a
1 changed files with 2 additions and 1 deletions
@@ -90,7 +90,8 @@ class EGreedy(ExplorationPolicy):
                probabilities = np.full(len(self.action_space.actions),
                                      1. / (self.action_space.high[0] - self.action_space.low[0] + 1))
            else:
-                chosen_action = np.argmax(action_values)
+                chosen_action = np.argmax(np.random.random(action_values.shape) *
+                                          (np.isclose(action_values, action_values.max())))

                # one-hot probabilities vector
                probabilities = np.zeros(len(self.action_space.actions))