From 92460736bc24b3480eaf906ac5ce088852f704fd Mon Sep 17 00:00:00 2001
From: Gal Novik <gal.novik@intel.com>
Date: Mon, 5 Aug 2019 16:46:15 +0300
Subject: [PATCH] Updated tutorial and docs (#386)

Improved getting started tutorial, and updated docs to point to version 1.0.0
---
 README.md                            |  42 +++---
 docs/_sources/index.rst.txt          |   6 +-
 docs/components/agents/index.html    |   2 +-
 docs/features/algorithms.html        |   1 +
 docs/features/benchmarks.html        |   5 +-
 docs/features/environments.html      |   1 +
 docs/index.html                      |   3 +-
 docs/searchindex.js                  |   2 +-
 docs/selecting_an_algorithm.html     |   4 +-
 docs/test.html                       |   2 +-
 docs_raw/source/index.rst            |   6 +-
 tutorials/0. Quick Start Guide.ipynb | 188 +++++++++++++--------------
 12 files changed, 135 insertions(+), 127 deletions(-)

diff --git a/README.md b/README.md
index da266fa..72af12c 100644
--- a/README.md
+++ b/README.md
@@ -30,26 +30,25 @@ coach -p CartPole_DQN -r
 * [Release 0.10.0](https://ai.intel.com/introducing-reinforcement-learning-coach-0-10-0/)
 * [Release 0.11.0](https://ai.intel.com/rl-coach-data-science-at-scale)
 * [Release 0.12.0](https://github.com/NervanaSystems/coach/releases/tag/v0.12.0) 
-* Release 1.0.0 (current release)
+* [Release 1.0.0](https://www.intel.ai/rl-coach-new-release) (current release)
 
-Contacting the Coach development team is also possible over [email](mailto:coach@intel.com)
 
 ## Table of Contents
 
-- [Coach](#coach)
-  * [Benchmarks](#benchmarks)
-  * [Installation](#installation)
-  * [Getting Started](#getting-started)
-    * [Tutorials and Documentation](#tutorials-and-documentation)
-    * [Basic Usage](#basic-usage)
-      * [Running Coach](#running-coach)
-      * [Running Coach Dashboard (Visualization)](#running-coach-dashboard-visualization)
-    * [Distributed Multi-Node Coach](#distributed-multi-node-coach)
-    * [Batch Reinforcement Learning](#batch-reinforcement-learning)
-  * [Supported Environments](#supported-environments)
-  * [Supported Algorithms](#supported-algorithms)
-  * [Citation](#citation)
-  * [Disclaimer](#disclaimer)
+- [Benchmarks](#benchmarks)
+- [Installation](#installation)
+- [Getting Started](#getting-started)
+  * [Tutorials and Documentation](#tutorials-and-documentation)
+  * [Basic Usage](#basic-usage)
+    * [Running Coach](#running-coach)
+    * [Running Coach Dashboard (Visualization)](#running-coach-dashboard-visualization)
+  * [Distributed Multi-Node Coach](#distributed-multi-node-coach)
+  * [Batch Reinforcement Learning](#batch-reinforcement-learning)
+- [Supported Environments](#supported-environments)
+- [Supported Algorithms](#supported-algorithms)
+- [Citation](#citation)
+- [Contact](#contact)
+- [Disclaimer](#disclaimer)
 
 ## Benchmarks
 
@@ -289,7 +288,7 @@ There are [example](https://github.com/NervanaSystems/coach/blob/master/rl_coach
 * [Generalized Advantage Estimation (GAE)](https://arxiv.org/abs/1506.02438) ([code](rl_coach/agents/actor_critic_agent.py#L86))
 * [Sample Efficient Actor-Critic with Experience Replay (ACER)](https://arxiv.org/abs/1611.01224) | **Multi Worker Single Node**  ([code](rl_coach/agents/acer_agent.py))
 * [Soft Actor-Critic (SAC)](https://arxiv.org/abs/1801.01290) ([code](rl_coach/agents/soft_actor_critic_agent.py))
-* [Twin Delayed Deep Deterministic Policy Gradient](https://arxiv.org/pdf/1802.09477.pdf) ([code](rl_coach/agents/td3_agent.py))
+* [Twin Delayed Deep Deterministic Policy Gradient (TD3)](https://arxiv.org/pdf/1802.09477.pdf) ([code](rl_coach/agents/td3_agent.py))
 
 ### General Agents
 * [Direct Future Prediction (DFP)](https://arxiv.org/abs/1611.01779) | **Multi Worker Single Node**  ([code](rl_coach/agents/dfp_agent.py))
@@ -333,6 +332,15 @@ If you used Coach for your work, please use the following citation:
 }
 ```
 
+## Contact
+
+We'd be happy to get any questions or contributions through GitHub issues and PRs.
+
+Please make sure to take a look [here](CONTRIBUTING.md) before filing an issue or proposing a PR.
+
+The Coach development team can also be contacted over [email](mailto:coach@intel.com)
+
+
 ## Disclaimer
 
 Coach is released as a reference code for research purposes. It is not an official Intel product, and the level of quality and support may not be as expected from an official product. 
diff --git a/docs/_sources/index.rst.txt b/docs/_sources/index.rst.txt
index 7fb5224..f47ce0b 100644
--- a/docs/_sources/index.rst.txt
+++ b/docs/_sources/index.rst.txt
@@ -27,7 +27,9 @@ Blog posts from the Intel® AI website:
 
 * `Release 0.11.0 <https://ai.intel.com/rl-coach-data-science-at-scale/>`_
 
-* Release 0.12.0 (current release)
+* `Release 0.12.0 <https://github.com/NervanaSystems/coach/releases/tag/v0.12.0>`_
+
+* `Release 1.0.0 <https://www.intel.ai/rl-coach-new-release>`_ (current release)
 
 You can find more details in the `GitHub repository <https://github.com/NervanaSystems/coach>`_.
 
@@ -75,5 +77,3 @@ You can find more details in the `GitHub repository <https://github.com/NervanaS
    components/core_types
    components/spaces
    components/additional_parameters
-
-
diff --git a/docs/components/agents/index.html b/docs/components/agents/index.html
index 62b3bbd..357caad 100644
--- a/docs/components/agents/index.html
+++ b/docs/components/agents/index.html
@@ -512,7 +512,7 @@ given observation</p>
 
 <dl class="method">
 <dt id="rl_coach.agents.agent.Agent.prepare_batch_for_inference">
-<code class="sig-name descname">prepare_batch_for_inference</code><span class="sig-paren">(</span><em class="sig-param">states: Union[Dict[str, numpy.ndarray], List[Dict[str, numpy.ndarray]]], network_name: str</em><span class="sig-paren">)</span> &#x2192; Dict[str, numpy.core.multiarray.array]<a class="reference internal" href="../../_modules/rl_coach/agents/agent.html#Agent.prepare_batch_for_inference"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#rl_coach.agents.agent.Agent.prepare_batch_for_inference" title="Permalink to this definition">¶</a></dt>
+<code class="sig-name descname">prepare_batch_for_inference</code><span class="sig-paren">(</span><em class="sig-param">states: Union[Dict[str, numpy.ndarray], List[Dict[str, numpy.ndarray]]], network_name: str</em><span class="sig-paren">)</span> &#x2192; Dict[str, numpy.array]<a class="reference internal" href="../../_modules/rl_coach/agents/agent.html#Agent.prepare_batch_for_inference"><span class="viewcode-link">[source]</span></a><a class="headerlink" href="#rl_coach.agents.agent.Agent.prepare_batch_for_inference" title="Permalink to this definition">¶</a></dt>
 <dd><p>Convert curr_state into input tensors tensorflow is expecting. i.e. if we have several inputs states, stack all
 observations together, measurements together, etc.</p>
 <dl class="field-list simple">
diff --git a/docs/features/algorithms.html b/docs/features/algorithms.html
index 6400046..1a800b2 100644
--- a/docs/features/algorithms.html
+++ b/docs/features/algorithms.html
@@ -95,6 +95,7 @@
 <li class="toctree-l2 current"><a class="current reference internal" href="#">Algorithms</a></li>
 <li class="toctree-l2"><a class="reference internal" href="environments.html">Environments</a></li>
 <li class="toctree-l2"><a class="reference internal" href="benchmarks.html">Benchmarks</a></li>
+<li class="toctree-l2"><a class="reference internal" href="batch_rl.html">Batch Reinforcement Learning</a></li>
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="../selecting_an_algorithm.html">Selecting an Algorithm</a></li>
diff --git a/docs/features/benchmarks.html b/docs/features/benchmarks.html
index 845d42c..073faab 100644
--- a/docs/features/benchmarks.html
+++ b/docs/features/benchmarks.html
@@ -37,7 +37,7 @@
   <link rel="stylesheet" href="../_static/css/custom.css" type="text/css" />
     <link rel="index" title="Index" href="../genindex.html" />
     <link rel="search" title="Search" href="../search.html" />
-    <link rel="next" title="Selecting an Algorithm" href="../selecting_an_algorithm.html" />
+    <link rel="next" title="Batch Reinforcement Learning" href="batch_rl.html" />
     <link rel="prev" title="Environments" href="environments.html" />
     <link href="../_static/css/custom.css" rel="stylesheet" type="text/css">
 
@@ -95,6 +95,7 @@
 <li class="toctree-l2"><a class="reference internal" href="algorithms.html">Algorithms</a></li>
 <li class="toctree-l2"><a class="reference internal" href="environments.html">Environments</a></li>
 <li class="toctree-l2 current"><a class="current reference internal" href="#">Benchmarks</a></li>
+<li class="toctree-l2"><a class="reference internal" href="batch_rl.html">Batch Reinforcement Learning</a></li>
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="../selecting_an_algorithm.html">Selecting an Algorithm</a></li>
@@ -220,7 +221,7 @@ benchmarks stay intact as Coach continues to develop.</p>
   
     <div class="rst-footer-buttons" role="navigation" aria-label="footer navigation">
       
-        <a href="../selecting_an_algorithm.html" class="btn btn-neutral float-right" title="Selecting an Algorithm" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right"></span></a>
+        <a href="batch_rl.html" class="btn btn-neutral float-right" title="Batch Reinforcement Learning" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right"></span></a>
       
       
         <a href="environments.html" class="btn btn-neutral float-left" title="Environments" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left"></span> Previous</a>
diff --git a/docs/features/environments.html b/docs/features/environments.html
index 7b3a89a..9d4622c 100644
--- a/docs/features/environments.html
+++ b/docs/features/environments.html
@@ -95,6 +95,7 @@
 <li class="toctree-l2"><a class="reference internal" href="algorithms.html">Algorithms</a></li>
 <li class="toctree-l2 current"><a class="current reference internal" href="#">Environments</a></li>
 <li class="toctree-l2"><a class="reference internal" href="benchmarks.html">Benchmarks</a></li>
+<li class="toctree-l2"><a class="reference internal" href="batch_rl.html">Batch Reinforcement Learning</a></li>
 </ul>
 </li>
 <li class="toctree-l1"><a class="reference internal" href="../selecting_an_algorithm.html">Selecting an Algorithm</a></li>
diff --git a/docs/index.html b/docs/index.html
index b08f865..4c1eca8 100644
--- a/docs/index.html
+++ b/docs/index.html
@@ -198,7 +198,8 @@ Coach collects statistics from the training process and supports advanced visual
 <li><p><a class="reference external" href="https://ai.intel.com/reinforcement-learning-coach-carla-qr-dqn/">Release 0.9.0</a></p></li>
 <li><p><a class="reference external" href="https://ai.intel.com/introducing-reinforcement-learning-coach-0-10-0/)">Release 0.10.0</a></p></li>
 <li><p><a class="reference external" href="https://ai.intel.com/rl-coach-data-science-at-scale/">Release 0.11.0</a></p></li>
-<li><p>Release 0.12.0 (current release)</p></li>
+<li><p><a class="reference external" href="https://github.com/NervanaSystems/coach/releases/tag/v0.12.0">Release 0.12.0</a></p></li>
+<li><p><a class="reference external" href="https://www.intel.ai/rl-coach-new-release">Release 1.0.0</a> (current release)</p></li>
 </ul>
 <p>You can find more details in the <a class="reference external" href="https://github.com/NervanaSystems/coach">GitHub repository</a>.</p>
 <div class="toctree-wrapper compound">
diff --git a/docs/searchindex.js b/docs/searchindex.js
index c9854f5..dfcf9de 100644
--- a/docs/searchindex.js
+++ b/docs/searchindex.js
@@ -1 +1 @@
-Search.setIndex({docnames:["components/additional_parameters","components/agents/imitation/bc","components/agents/imitation/cil","components/agents/index","components/agents/other/dfp","components/agents/policy_optimization/ac","components/agents/policy_optimization/acer","components/agents/policy_optimization/cppo","components/agents/policy_optimization/ddpg","components/agents/policy_optimization/hac","components/agents/policy_optimization/pg","components/agents/policy_optimization/ppo","components/agents/policy_optimization/sac","components/agents/policy_optimization/td3","components/agents/value_optimization/bs_dqn","components/agents/value_optimization/categorical_dqn","components/agents/value_optimization/double_dqn","components/agents/value_optimization/dqn","components/agents/value_optimization/dueling_dqn","components/agents/value_optimization/mmc","components/agents/value_optimization/n_step","components/agents/value_optimization/naf","components/agents/value_optimization/nec","components/agents/value_optimization/pal","components/agents/value_optimization/qr_dqn","components/agents/value_optimization/rainbow","components/architectures/index","components/core_types","components/data_stores/index","components/environments/index","components/exploration_policies/index","components/filters/index","components/filters/input_filters","components/filters/output_filters","components/memories/index","components/memory_backends/index","components/orchestrators/index","components/spaces","contributing/add_agent","contributing/add_env","dashboard","design/control_flow","design/horizontal_scaling","design/network","dist_usage","features/algorithms","features/batch_rl","features/benchmarks","features/environments","features/index","index","selecting_an_algorithm","test","usage"],envversion:{"sphinx.domains.c":1,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":1,"sphinx.domains.javascript":1,"sphinx.domains.math":2,"sphinx.domains.python":1,"sphinx.domains.rst":1,"sphinx.domains.std":1,"sphinx.ext.todo":1,"sphinx.ext.viewcode":1,sphinx:56},filenames:["components/additional_parameters.rst","components/agents/imitation/bc.rst","components/agents/imitation/cil.rst","components/agents/index.rst","components/agents/other/dfp.rst","components/agents/policy_optimization/ac.rst","components/agents/policy_optimization/acer.rst","components/agents/policy_optimization/cppo.rst","components/agents/policy_optimization/ddpg.rst","components/agents/policy_optimization/hac.rst","components/agents/policy_optimization/pg.rst","components/agents/policy_optimization/ppo.rst","components/agents/policy_optimization/sac.rst","components/agents/policy_optimization/td3.rst","components/agents/value_optimization/bs_dqn.rst","components/agents/value_optimization/categorical_dqn.rst","components/agents/value_optimization/double_dqn.rst","components/agents/value_optimization/dqn.rst","components/agents/value_optimization/dueling_dqn.rst","components/agents/value_optimization/mmc.rst","components/agents/value_optimization/n_step.rst","components/agents/value_optimization/naf.rst","components/agents/value_optimization/nec.rst","components/agents/value_optimization/pal.rst","components/agents/value_optimization/qr_dqn.rst","components/agents/value_optimization/rainbow.rst","components/architectures/index.rst","components/core_types.rst","components/data_stores/index.rst","components/environments/index.rst","components/exploration_policies/index.rst","components/filters/index.rst","components/filters/input_filters.rst","components/filters/output_filters.rst","components/memories/index.rst","components/memory_backends/index.rst","components/orchestrators/index.rst","components/spaces.rst","contributing/add_agent.rst","contributing/add_env.rst","dashboard.rst","design/control_flow.rst","design/horizontal_scaling.rst","design/network.rst","dist_usage.rst","features/algorithms.rst","features/batch_rl.rst","features/benchmarks.rst","features/environments.rst","features/index.rst","index.rst","selecting_an_algorithm.rst","test.rst","usage.rst"],objects:{"rl_coach.agents.acer_agent":{ACERAlgorithmParameters:[6,0,1,""]},"rl_coach.agents.actor_critic_agent":{ActorCriticAlgorithmParameters:[5,0,1,""]},"rl_coach.agents.agent":{Agent:[3,0,1,""]},"rl_coach.agents.agent.Agent":{act:[3,1,1,""],call_memory:[3,1,1,""],choose_action:[3,1,1,""],collect_savers:[3,1,1,""],create_networks:[3,1,1,""],freeze_memory:[3,1,1,""],get_predictions:[3,1,1,""],get_state_embedding:[3,1,1,""],handle_episode_ended:[3,1,1,""],init_environment_dependent_modules:[3,1,1,""],initialize_session_dependent_components:[3,1,1,""],learn_from_batch:[3,1,1,""],load_memory_from_file:[3,1,1,""],log_to_screen:[3,1,1,""],observe:[3,1,1,""],parent:[3,1,1,""],phase:[3,1,1,""],post_training_commands:[3,1,1,""],prepare_batch_for_inference:[3,1,1,""],register_signal:[3,1,1,""],reset_evaluation_state:[3,1,1,""],reset_internal_state:[3,1,1,""],restore_checkpoint:[3,1,1,""],run_off_policy_evaluation:[3,1,1,""],run_pre_network_filter_for_inference:[3,1,1,""],save_checkpoint:[3,1,1,""],set_environment_parameters:[3,1,1,""],set_incoming_directive:[3,1,1,""],set_session:[3,1,1,""],setup_logger:[3,1,1,""],sync:[3,1,1,""],train:[3,1,1,""],update_log:[3,1,1,""],update_step_in_episode_log:[3,1,1,""],update_transition_before_adding_to_replay_buffer:[3,1,1,""]},"rl_coach.agents.bc_agent":{BCAlgorithmParameters:[1,0,1,""]},"rl_coach.agents.categorical_dqn_agent":{CategoricalDQNAlgorithmParameters:[15,0,1,""]},"rl_coach.agents.cil_agent":{CILAlgorithmParameters:[2,0,1,""]},"rl_coach.agents.clipped_ppo_agent":{ClippedPPOAlgorithmParameters:[7,0,1,""]},"rl_coach.agents.ddpg_agent":{DDPGAlgorithmParameters:[8,0,1,""]},"rl_coach.agents.dfp_agent":{DFPAlgorithmParameters:[4,0,1,""]},"rl_coach.agents.dqn_agent":{DQNAgent:[52,0,1,""],DQNAlgorithmParameters:[17,0,1,""]},"rl_coach.agents.dqn_agent.DQNAgent":{act:[52,1,1,""],call_memory:[52,1,1,""],choose_action:[52,1,1,""],collect_savers:[52,1,1,""],create_networks:[52,1,1,""],freeze_memory:[52,1,1,""],get_predictions:[52,1,1,""],get_state_embedding:[52,1,1,""],handle_episode_ended:[52,1,1,""],improve_reward_model:[52,1,1,""],init_environment_dependent_modules:[52,1,1,""],initialize_session_dependent_components:[52,1,1,""],learn_from_batch:[52,1,1,""],load_memory_from_file:[52,1,1,""],log_to_screen:[52,1,1,""],observe:[52,1,1,""],parent:[52,1,1,""],phase:[52,1,1,""],post_training_commands:[52,1,1,""],prepare_batch_for_inference:[52,1,1,""],register_signal:[52,1,1,""],reset_evaluation_state:[52,1,1,""],reset_internal_state:[52,1,1,""],restore_checkpoint:[52,1,1,""],run_off_policy_evaluation:[52,1,1,""],run_pre_network_filter_for_inference:[52,1,1,""],save_checkpoint:[52,1,1,""],set_environment_parameters:[52,1,1,""],set_incoming_directive:[52,1,1,""],set_session:[52,1,1,""],setup_logger:[52,1,1,""],sync:[52,1,1,""],train:[52,1,1,""],update_log:[52,1,1,""],update_step_in_episode_log:[52,1,1,""],update_transition_before_adding_to_replay_buffer:[52,1,1,""]},"rl_coach.agents.mmc_agent":{MixedMonteCarloAlgorithmParameters:[19,0,1,""]},"rl_coach.agents.n_step_q_agent":{NStepQAlgorithmParameters:[20,0,1,""]},"rl_coach.agents.naf_agent":{NAFAlgorithmParameters:[21,0,1,""]},"rl_coach.agents.nec_agent":{NECAlgorithmParameters:[22,0,1,""]},"rl_coach.agents.pal_agent":{PALAlgorithmParameters:[23,0,1,""]},"rl_coach.agents.policy_gradients_agent":{PolicyGradientAlgorithmParameters:[10,0,1,""]},"rl_coach.agents.ppo_agent":{PPOAlgorithmParameters:[11,0,1,""]},"rl_coach.agents.qr_dqn_agent":{QuantileRegressionDQNAlgorithmParameters:[24,0,1,""]},"rl_coach.agents.rainbow_dqn_agent":{RainbowDQNAlgorithmParameters:[25,0,1,""]},"rl_coach.agents.soft_actor_critic_agent":{SoftActorCriticAlgorithmParameters:[12,0,1,""]},"rl_coach.agents.td3_agent":{TD3AlgorithmParameters:[13,0,1,""]},"rl_coach.architectures.architecture":{Architecture:[26,0,1,""]},"rl_coach.architectures.architecture.Architecture":{accumulate_gradients:[26,1,1,""],apply_and_reset_gradients:[26,1,1,""],apply_gradients:[26,1,1,""],collect_savers:[26,1,1,""],construct:[26,1,1,""],get_variable_value:[26,1,1,""],get_weights:[26,1,1,""],parallel_predict:[26,1,1,""],predict:[26,1,1,""],reset_accumulated_gradients:[26,1,1,""],set_variable_value:[26,1,1,""],set_weights:[26,1,1,""],train_on_batch:[26,1,1,""]},"rl_coach.architectures.network_wrapper":{NetworkWrapper:[26,0,1,""]},"rl_coach.architectures.network_wrapper.NetworkWrapper":{apply_gradients_and_sync_networks:[26,1,1,""],apply_gradients_to_global_network:[26,1,1,""],apply_gradients_to_online_network:[26,1,1,""],collect_savers:[26,1,1,""],parallel_prediction:[26,1,1,""],set_is_training:[26,1,1,""],sync:[26,1,1,""],train_and_sync_networks:[26,1,1,""],update_online_network:[26,1,1,""],update_target_network:[26,1,1,""]},"rl_coach.base_parameters":{AgentParameters:[3,0,1,""],DistributedTaskParameters:[0,0,1,""],NetworkParameters:[26,0,1,""],PresetValidationParameters:[0,0,1,""],TaskParameters:[0,0,1,""],VisualizationParameters:[0,0,1,""]},"rl_coach.core_types":{ActionInfo:[27,0,1,""],Batch:[27,0,1,""],EnvResponse:[27,0,1,""],Episode:[27,0,1,""],Transition:[27,0,1,""]},"rl_coach.core_types.Batch":{actions:[27,1,1,""],game_overs:[27,1,1,""],goals:[27,1,1,""],info:[27,1,1,""],info_as_list:[27,1,1,""],n_step_discounted_rewards:[27,1,1,""],next_states:[27,1,1,""],rewards:[27,1,1,""],shuffle:[27,1,1,""],size:[27,1,1,""],slice:[27,1,1,""],states:[27,1,1,""]},"rl_coach.core_types.Episode":{get_first_transition:[27,1,1,""],get_last_transition:[27,1,1,""],get_transition:[27,1,1,""],get_transitions_attribute:[27,1,1,""],insert:[27,1,1,""],is_empty:[27,1,1,""],length:[27,1,1,""],update_discounted_rewards:[27,1,1,""]},"rl_coach.data_stores.nfs_data_store":{NFSDataStore:[28,0,1,""]},"rl_coach.data_stores.s3_data_store":{S3DataStore:[28,0,1,""]},"rl_coach.environments.carla_environment":{CarlaEnvironment:[29,0,1,""]},"rl_coach.environments.control_suite_environment":{ControlSuiteEnvironment:[29,0,1,""]},"rl_coach.environments.doom_environment":{DoomEnvironment:[29,0,1,""]},"rl_coach.environments.environment":{Environment:[29,0,1,""]},"rl_coach.environments.environment.Environment":{action_space:[29,1,1,""],close:[29,1,1,""],get_action_from_user:[29,1,1,""],get_available_keys:[29,1,1,""],get_goal:[29,1,1,""],get_random_action:[29,1,1,""],get_rendered_image:[29,1,1,""],goal_space:[29,1,1,""],handle_episode_ended:[29,1,1,""],last_env_response:[29,1,1,""],phase:[29,1,1,""],render:[29,1,1,""],reset_internal_state:[29,1,1,""],set_goal:[29,1,1,""],state_space:[29,1,1,""],step:[29,1,1,""]},"rl_coach.environments.gym_environment":{GymEnvironment:[29,0,1,""]},"rl_coach.environments.starcraft2_environment":{StarCraft2Environment:[29,0,1,""]},"rl_coach.exploration_policies.additive_noise":{AdditiveNoise:[30,0,1,""]},"rl_coach.exploration_policies.boltzmann":{Boltzmann:[30,0,1,""]},"rl_coach.exploration_policies.bootstrapped":{Bootstrapped:[30,0,1,""]},"rl_coach.exploration_policies.categorical":{Categorical:[30,0,1,""]},"rl_coach.exploration_policies.continuous_entropy":{ContinuousEntropy:[30,0,1,""]},"rl_coach.exploration_policies.e_greedy":{EGreedy:[30,0,1,""]},"rl_coach.exploration_policies.exploration_policy":{ExplorationPolicy:[30,0,1,""]},"rl_coach.exploration_policies.exploration_policy.ExplorationPolicy":{change_phase:[30,1,1,""],get_action:[30,1,1,""],requires_action_values:[30,1,1,""],reset:[30,1,1,""]},"rl_coach.exploration_policies.greedy":{Greedy:[30,0,1,""]},"rl_coach.exploration_policies.ou_process":{OUProcess:[30,0,1,""]},"rl_coach.exploration_policies.parameter_noise":{ParameterNoise:[30,0,1,""]},"rl_coach.exploration_policies.truncated_normal":{TruncatedNormal:[30,0,1,""]},"rl_coach.exploration_policies.ucb":{UCB:[30,0,1,""]},"rl_coach.filters.action":{AttentionDiscretization:[33,0,1,""],BoxDiscretization:[33,0,1,""],BoxMasking:[33,0,1,""],FullDiscreteActionSpaceMap:[33,0,1,""],LinearBoxToBoxMap:[33,0,1,""],PartialDiscreteActionSpaceMap:[33,0,1,""]},"rl_coach.filters.observation":{ObservationClippingFilter:[32,0,1,""],ObservationCropFilter:[32,0,1,""],ObservationMoveAxisFilter:[32,0,1,""],ObservationNormalizationFilter:[32,0,1,""],ObservationRGBToYFilter:[32,0,1,""],ObservationReductionBySubPartsNameFilter:[32,0,1,""],ObservationRescaleSizeByFactorFilter:[32,0,1,""],ObservationRescaleToSizeFilter:[32,0,1,""],ObservationSqueezeFilter:[32,0,1,""],ObservationStackingFilter:[32,0,1,""],ObservationToUInt8Filter:[32,0,1,""]},"rl_coach.filters.reward":{RewardClippingFilter:[32,0,1,""],RewardNormalizationFilter:[32,0,1,""],RewardRescaleFilter:[32,0,1,""]},"rl_coach.memories.backend.redis":{RedisPubSubBackend:[35,0,1,""]},"rl_coach.memories.episodic":{EpisodicExperienceReplay:[34,0,1,""],EpisodicHRLHindsightExperienceReplay:[34,0,1,""],EpisodicHindsightExperienceReplay:[34,0,1,""],SingleEpisodeBuffer:[34,0,1,""]},"rl_coach.memories.non_episodic":{BalancedExperienceReplay:[34,0,1,""],ExperienceReplay:[34,0,1,""],PrioritizedExperienceReplay:[34,0,1,""],QDND:[34,0,1,""],TransitionCollection:[34,0,1,""]},"rl_coach.orchestrators.kubernetes_orchestrator":{Kubernetes:[36,0,1,""]},"rl_coach.spaces":{ActionSpace:[37,0,1,""],AttentionActionSpace:[37,0,1,""],BoxActionSpace:[37,0,1,""],CompoundActionSpace:[37,0,1,""],DiscreteActionSpace:[37,0,1,""],GoalsSpace:[37,0,1,""],ImageObservationSpace:[37,0,1,""],MultiSelectActionSpace:[37,0,1,""],ObservationSpace:[37,0,1,""],PlanarMapsObservationSpace:[37,0,1,""],Space:[37,0,1,""],VectorObservationSpace:[37,0,1,""]},"rl_coach.spaces.ActionSpace":{clip_action_to_space:[37,1,1,""],contains:[37,1,1,""],is_valid_index:[37,1,1,""],sample:[37,1,1,""],sample_with_info:[37,1,1,""]},"rl_coach.spaces.GoalsSpace":{DistanceMetric:[37,0,1,""],clip_action_to_space:[37,1,1,""],contains:[37,1,1,""],distance_from_goal:[37,1,1,""],get_reward_for_goal_and_state:[37,1,1,""],goal_from_state:[37,1,1,""],is_valid_index:[37,1,1,""],sample:[37,1,1,""],sample_with_info:[37,1,1,""]},"rl_coach.spaces.ObservationSpace":{contains:[37,1,1,""],is_valid_index:[37,1,1,""],sample:[37,1,1,""]},"rl_coach.spaces.Space":{contains:[37,1,1,""],is_valid_index:[37,1,1,""],sample:[37,1,1,""]}},objnames:{"0":["py","class","Python class"],"1":["py","method","Python method"]},objtypes:{"0":"py:class","1":"py:method"},terms:{"100x100":33,"160x160":32,"1_0":[15,25],"1st":30,"20x20":33,"210x160":32,"2nd":30,"50k":41,"9_amd64":44,"abstract":[38,42],"boolean":[3,27,37,52],"break":40,"case":[0,3,5,22,26,27,30,37,46,51,52,53],"class":[0,1,2,3,4,5,6,7,8,10,11,12,13,15,17,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,39,41,45,52],"default":[0,30,53],"enum":[26,29,37],"export":[0,26,44],"final":[8,13,16,17,19,23,41],"float":[3,4,5,6,7,8,10,11,12,13,15,19,22,23,24,26,27,29,30,32,33,34,37,38,52],"function":[0,1,3,6,7,8,11,13,26,29,30,37,38,39,41,43,52],"import":[6,18,30,34,39,51,53],"int":[0,3,4,5,6,7,10,15,20,22,24,25,27,29,30,32,33,34,37,52],"long":43,"new":[0,3,7,8,11,12,13,22,23,26,27,33,41,42,46,50,51,52],"return":[0,3,8,10,11,13,14,19,22,23,25,26,27,29,30,32,34,37,38,39,41,51,52],"short":[0,41],"static":26,"super":[38,39],"switch":[0,40],"true":[0,3,4,5,6,7,8,11,12,13,22,23,25,26,27,29,30,33,34,37,52],"try":[4,47,51],"while":[0,5,6,8,9,10,11,12,13,26,29,40,43,51,53],AWS:44,Adding:[18,50],And:[39,51],But:[40,51],Doing:51,For:[0,1,2,3,4,7,10,14,15,16,17,20,22,23,26,27,29,30,31,32,33,37,38,39,41,42,43,44,47,52,53],Has:26,Its:52,NFS:[28,44],Not:[],One:[24,51,53],That:40,The:[0,1,2,3,4,5,6,7,8,10,11,12,13,14,15,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,40,41,42,43,44,47,48,50,51,52,53],Then:[4,7,8,13,14,21,23],There:[7,11,26,30,31,38,39,43,46,53],These:[1,2,3,24,29,36,42,43,44],Use:[1,2,8,13,21,22],Used:30,Uses:51,Using:[8,13,14,16,17,44],Will:26,With:[30,50],__init__:[29,38,39],_index:[5,20],_nois:13,_render:39,_restart_environment_episod:39,_take_act:39,_update_st:39,a2c:51,a3c:[10,20,40,51],a_i:22,a_t:[4,5,6,8,12,13,14,15,16,17,19,20,21,23,25],a_valu:5,abl:[33,51],about:[3,27,41,52,53],abov:[8,12,13,26,41],abs:[20,34],absolut:30,acceler:21,accept:29,access:[26,38,44],accord:[0,3,4,5,6,8,12,13,14,20,26,27,30,37,40,41,43,52],accordingli:[22,37,41,53],account:[4,7,11,22,23,30],accumul:[3,4,5,6,10,20,22,25,26,32,51,52],accumulate_gradi:26,accumulated_gradi:26,accur:51,acer:[3,51],acer_ag:6,aceralgorithmparamet:6,achiev:[0,4,7,29,32,34,37,47,51,53],acquir:12,across:[10,19,40],act:[3,4,8,13,14,24,37,38,41,52],action:[1,2,3,15,16,17,18,19,20,23,24,25,26,27,29,30,31,34,38,39,41,43,52],action_idx:39,action_penalti:[8,13],action_spac:[29,30],action_space_s:26,action_valu:[27,30],actioninfo:[3,37,41,52],actionspac:[30,37],actiontyp:39,activ:[8,13,26],actor:[3,6,7,8,11,13,30,43,51],actor_critic_ag:5,actorcriticag:38,actorcriticalgorithmparamet:5,actual:[4,5,15,16,17,24,25,30,33,34],adam:[7,26],adam_optimizer_beta1:26,adam_optimizer_beta2:26,adapt:[7,11],add:[8,9,13,21,26,27,30,32,39,41,44,51],add_rendered_image_to_env_respons:0,added:[0,4,6,7,10,11,22,30,34,38],adding:[3,11,30,38,52],addit:[3,26,27,29,30,32,34,37,39,40,41,43,50,51,52],addition:[26,29,32,38,39,41,47,48,53],additional_fetch:26,additional_input:26,additional_simulator_paramet:[29,39],additionali:40,additive_nois:30,additivenoiseparamet:30,address:13,advanc:[25,50],advantag:[3,5,7,11,18,30],affect:[0,14,26],aforement:[16,17,23],after:[0,3,8,10,11,12,20,21,23,25,26,27,29,32,37,52,53],again:30,against:3,agent:[0,1,2,4,5,6,7,8,10,11,12,13,15,17,19,20,21,22,23,24,25,26,27,29,30,31,32,33,37,39,40,43,45,47,50,51,52],agent_param:42,agent_paramet:[3,26,52],agentparamet:[3,26,38],aggreg:41,ahead:[4,51],aim:30,algorithm:[3,27,30,38,40,41,42,46,47,49,50,52],algorithmparamet:[3,38],all:[0,3,10,14,22,23,26,27,29,30,32,33,37,38,39,40,41,42,43,44,46,48,52,53],all_action_prob:27,allow:[0,3,4,13,18,26,27,29,30,31,32,33,34,40,41,42,43,50,51,52,53],allow_brak:29,allow_duplicates_in_batch_sampl:34,allow_no_action_to_be_select:37,almost:46,along:[22,29,30,48],alpha:[6,19,23,34],alreadi:[22,27,39,51],also:[5,6,7,22,23,26,29,37,38,40,46,47,51,53],altern:[29,39,48],alwai:[26,30,33],amazon:44,amazonaw:44,amount:[8,10,13,19,23,30,41,51],analysi:40,analyz:40,ani:[3,26,27,29,33,34,38,41,42,43,44,46,52],anoth:[3,18,26,31,52],answer:51,anymor:[3,52],api:[29,43,48,50],appear:[3,52],appli:[0,3,5,8,10,13,20,26,27,30,32,51,52],applic:51,apply_and_reset_gradi:26,apply_gradi:26,apply_gradients_and_sync_network:26,apply_gradients_every_x_episod:[5,10,20],apply_gradients_to_global_network:26,apply_gradients_to_online_network:26,apply_stop_condit:0,appropri:44,approx:[8,12,13],approxim:[12,13,43,51],apt:44,arbitrari:32,architectur:[3,18,38,50,52],architecture_num_q_head:30,area:33,arg:[3,26,44,52],argmax_a:[16,19,23],argument:[3,15,25,26,29,37,41,52],around:[26,27,43],arrai:[3,26,27,29,32,37,39,52],art:[3,45],artifact:44,artifici:34,arxiv:[20,34],aspect:[30,32,40],assign:[0,2,5,6,26,30],assign_kl_coeffici:26,assign_op:26,assum:[27,30,32,34,51],async:[26,42],async_train:26,asynchron:[5,20,26],atari:[17,29,32,44,53],atari_a3c:53,atari_dqn:53,ath:18,atom:[15,24,25],attach:29,attempt:0,attend:33,attent:33,attentionactionspac:33,attentiondiscret:33,attribut:27,attribute_nam:27,author:[29,47,48],auto_select_all_armi:29,autoclean:44,automat:[26,53],autonom:[29,48,50],autoremov:44,auxiliari:[29,48],avail:[4,26,27,29,30,40,42,44,50,51,53],averag:[6,7,11,26,40,41],avg:6,aws:44,axes:[32,40],axi:[32,40],axis_origin:32,axis_target:32,back:[7,42],backend:[26,42,44,50,53],background:53,backpropag:22,backward:26,balanc:2,band:40,bar:6,base1:44,base64:44,base:[7,11,12,19,21,23,29,34,38,41,44,46,48,51,52],base_paramet:[0,3,26,29,30],baselin:51,basic:[10,27,42,53],batch:[1,2,3,4,5,6,8,10,11,12,13,14,15,16,17,18,20,23,24,25,26,34,38,41,49,50,52],batch_siz:26,batchnorm:26,bc_agent:1,bcalgorithmparamet:1,becaus:41,becom:[8,13,42],been:[18,27,32,47,51],befor:[0,3,5,11,13,25,26,27,32,41,42,43,44,51,52],begin:[0,4,41],behav:37,behavior:[3,32,34,38,47,51,52,53],being:[3,38,50,51,52],bellman:[15,24,25],benchmark:[40,49,50,51],benefici:46,best:[51,53],beta1:26,beta2:26,beta:[6,8,10,13,34],beta_entropi:[5,6,7,10,11],better:[13,18,46,51],between:[0,1,2,3,6,7,8,10,11,12,13,15,19,20,22,24,25,26,27,29,30,33,34,37,38,40,41,43,50,51],bfg:[7,11],bia:[6,51],big:[11,15,25],bin:[33,44],binari:14,bind:26,binomi:14,bit:32,blizzard:48,blob:[29,32],block:50,blog:50,boilerpl:41,bolling:40,bool:[0,3,4,5,6,7,8,11,12,13,22,23,25,26,27,29,30,34,37,52],boost:[44,51],bootstrap:[3,5,6,7,8,11,13,19,20,22,23,25,27,51],bootstrap_total_return_from_old_polici:[22,27],both:[3,7,26,29,30,33,51,52],bound:[6,7,11,15,25,30,37,51],box2d:44,box:[30,33,37],boxactionspac:33,boxdiscret:33,boxmask:33,breakout:53,breakoutdeterminist:[29,53],bring:11,bucket:44,buffer:[1,2,3,6,12,14,15,16,17,20,22,23,24,25,34,41,51,52,53],build:[31,50,51],builder:44,built:[38,41],bullet:6,button:[40,53],c51:15,cach:44,cadenc:13,calcul:[3,4,5,6,7,8,10,11,13,14,15,16,17,19,20,22,23,24,25,26,27,30,34,38,52],call:[0,3,10,20,26,27,29,41,52],call_memori:[3,52],callabl:37,camera:[29,39],camera_height:29,camera_width:29,cameratyp:[29,39],can:[0,2,3,5,6,7,8,11,12,13,23,26,27,29,30,31,32,33,37,38,39,40,41,43,46,48,50,52,53],cannot:[3,46,52],carla:[32,48],carla_environ:29,carlaenviron:29,carlaenvironmentparamet:29,carlo:[3,23],cartpol:[29,39],cartpole_a3c:53,cartpole_clippedppo:[44,53],cartpole_dqn:53,categor:[3,5,6,51],categori:[31,32],categorical_dqn_ag:15,categoricaldqnalgorithmparamet:15,caus:[32,40],cdot:[5,7,8,10,12,13,14,15,16,17,19,21,23,25],central:[26,40],certainti:30,chain:[8,13],challeng:41,chang:[0,3,6,7,8,11,13,14,18,20,23,30,41,44,52],change_phas:30,channel:[29,32],channels_axi:37,check:[0,3,27,37,52],checkpoint:[0,3,26,28,42,44,52,53],checkpoint_dir:[3,52],checkpoint_prefix:[3,52],checkpoint_restore_dir:[0,53],checkpoint_restore_path:0,checkpoint_save_dir:0,checkpoint_save_sec:0,child:26,chmod:44,choic:[38,44],choos:[3,18,23,30,31,33,37,38,41,43,51,52,53],choose_act:[3,38,41,52],chosen:[3,12,23,30,33,38,52],chunk:11,cil:51,cil_ag:2,cilalgorithmparamet:2,classic_control:44,clean:[29,38,44],cli:44,clip:[3,6,8,11,13,26,32,37,51],clip_action_to_spac:37,clip_critic_target:[8,13],clip_gradi:26,clip_high:30,clip_likelihood_ratio_using_epsilon:[7,11],clip_low:30,clip_max:32,clip_min:32,clipbyglobalnorm:26,clipped_ppo_ag:7,clippedppoalgorithmparamet:7,clipping_high:32,clipping_low:32,clone:[3,51],close:29,cmake:44,coach:[0,3,26,28,29,30,31,35,36,38,41,45,46,47,48,51,53],code:[39,41,51],coeffici:[7,11,26,30,34],collect:[3,7,10,11,20,26,27,34,41,46,47,50,52,53],collect_sav:[3,26,52],color:32,com:44,combin:[25,43,50,51],comma:0,command:[41,44,53],common:[38,40,44,53],commun:42,compar:[0,11,18,51],complet:[27,30,41],complex:[26,31,41,43,51,53],compon:[3,15,25,26,30,36,38,41,50,52,53],composit:[3,52],compositeag:[3,52],comput:[26,30],concat:26,concentr:41,condit:[0,3],confid:30,config:[29,53],configur:[3,5,10,38,44,52],confus:41,connect:[12,26],connectionist:10,consecut:[8,13,22],consequ:[20,30],consid:[5,6,30,33,40],consist:[8,13,29,32,33,37,41,48],constant:6,constantli:53,constantschedul:34,constrain:33,construct:[12,26,34],consumpt:32,contain:[0,1,2,3,14,26,27,29,37,39,41,52,53],content:44,contin:42,continu:[1,2,5,8,9,10,13,21,30,31,33,37,47],continuous_entropi:30,continuous_exploration_policy_paramet:30,contribut:[4,50],control:[2,3,5,6,7,8,11,26,30,32,40,48,50,51,52],control_suite_environ:29,controlsuiteenviron:29,conveni:[40,53],converg:10,convers:31,convert:[3,27,30,32,37,41,43,52],convolut:[26,43],coordin:33,copi:[8,12,13,14,15,16,17,19,20,21,23,24,25,26,44],core:[3,50,52],core_typ:[3,27,29,37,52,53],correct:[3,6,51],correctli:26,correl:30,correpond:27,correspond:[2,3,4,15,16,26,27,30,32,37,39,52],could:[3,26,37,44,46,52],count:19,countabl:33,counter:[3,52],counterpart:43,cpu:[0,26],crd:53,creat:[3,20,26,32,39,52,53],create_network:[3,52],create_target_network:26,creation:[3,52],credenti:44,critic:[3,6,7,8,11,13,30,43,51],crop:[32,33],crop_high:32,crop_low:32,cross:[1,15,25],csv:0,ctrl:40,cuda:44,cudnn7:44,curl:44,curr_stat:[3,38,52],current:[0,1,2,3,4,6,7,8,9,10,11,12,13,14,16,17,19,21,22,23,24,26,27,29,30,32,33,37,38,41,50,51,52],custom:[29,30,37,38,41],custom_reward_threshold:29,cycl:41,dai:53,dashboard:[0,3,44,50,52],data:[0,3,10,20,26,34,41,42,44,46,47,50,51,52,53],data_stor:[28,44],dataset:[3,7,11,46,51,52,53],date:[22,43,51,53],dcp:[44,53],ddpg:51,ddpg_agent:8,ddpgalgorithmparamet:8,ddqn:[19,23,51],deal:51,debug:[0,40,50],decai:[5,7,11,26],decid:[0,3,4,29,30,38,52],decis:[3,52],declar:0,decod:44,dedic:26,deep:[0,3,5,12,14,16,18,20,21,25,52],deepmind:48,def:[38,39],default_act:37,default_input_filt:39,default_output_filt:39,defin:[0,3,5,6,7,10,11,12,20,22,23,26,27,29,30,32,33,34,37,38,39,41,42,43,47,48,52,53],definit:[3,26,29,37,39,41,52],delai:[3,51],delta:[6,15,22,25],demonstr:[1,2,53],dens:30,densiti:19,depecr:0,depend:[0,3,6,26,32,34,37,39,44,47,51,52],deploi:[36,42,46],depth:29,descend:51,describ:[3,15,24,32,34,38,41,44,52],descript:[3,33,37,45,53],design:[41,44,50],desir:[33,38],destabil:10,detail:[3,27,45,46,48,50,53],determin:[2,3,22,27,34,52],determinist:[3,12,51],dev:44,develop:[41,47],deviat:[10,11,30,32,40],devic:26,dfp:51,dfp_agent:4,dfpalgorithmparamet:4,dict:[3,4,26,27,29,30,37,52],dict_siz:34,dictat:4,dictionari:[2,3,26,27,29,34,37,38,52],did:29,differ:[0,1,2,3,4,5,6,7,10,11,14,18,26,29,30,32,37,38,39,40,42,43,50,51,52],differenti:18,difficult:[40,47],difficulti:53,dimens:[27,29,32,33],dimension:[11,33],dir:[0,3,52,53],direct:[3,29,52],directli:[3,5,41,43,52],directori:[0,26,38,40,44,53],disabl:53,disable_fog:29,disappear:29,disassembl:51,discard:[27,32],discount:[8,10,11,13,19,22,23,25,26,27,51],discret:[1,2,4,7,11,14,15,16,17,18,19,20,22,23,24,25,30,31,32,33,37,41],disentangl:41,disk:0,displai:[0,40],distanc:37,distance_from_go:37,distance_metr:37,distancemetr:37,distil:[3,52],distribut:[5,6,10,11,12,15,24,25,26,28,30,35,36,37,43,50,51,53],distributed_coach:42,distributed_coach_synchronization_typ:42,distributedcoachsynchronizationtyp:42,divereg:[7,11],diverg:[6,7,11,25],dnd:[0,22,51],dnd_key_error_threshold:22,dnd_size:22,do_action_hindsight:34,doc:44,docker:44,dockerfil:44,document:48,doe:[14,26,32],doesn:42,doing:[7,11,31],domain:43,don:[4,30,40,51],done:[0,3,7,10,11,13,29,32,39,52,53],doom:[29,39,44,48],doom_basic_bc:53,doom_basic_dqn:53,doom_environ:[29,39,53],doomenviron:[29,39],doomenvironmentparamet:[39,53],doominputfilt:39,doomlevel:29,doomoutputfilt:39,doubl:[3,19,25],doubli:52,down:[26,29,51],download:44,dpkg:44,dqn:[3,19,20,25,29,30,32,33,41,43,51],dqn_agent:[17,52],dqnagent:52,dqnalgorithmparamet:17,drive:[2,29,48,50],driving_benchmark:29,due:32,duel:[3,25],dump:[0,3,52],dump_csv:0,dump_gif:0,dump_in_episode_sign:0,dump_mp4:0,dump_one_value_per_episod:[3,52],dump_one_value_per_step:[3,52],dump_parameters_document:0,dump_signals_to_csv_every_x_episod:0,dure:[3,6,7,10,11,12,14,22,30,40,41,52,53],dynam:[40,47,51],e_greedi:30,each:[0,1,2,3,4,5,6,7,10,11,12,14,16,17,18,20,22,23,24,26,27,29,30,31,32,33,34,37,38,40,41,42,43,44,47,51,52],eas:40,easi:[39,40,50],easier:43,easili:[30,46,53],echo:44,effect:[0,3,6,7,20,32,41,52],effici:[6,41,51],either:[0,3,5,20,26,30,37,40,43,53],element:[3,14,26,32,37],elf:44,embbed:26,embed:[3,22,26,52],embedd:[26,43],embedding_merger_typ:26,embeddingmergertyp:26,emploi:51,empti:27,emul:6,enabl:[26,43,53],encod:[32,37],encourag:[21,23,41],end:[2,3,10,25,27,29,32,52,53],enforc:33,engin:[29,48],enough:[4,6,22],ensembl:[30,51],ensur:[6,26],enter:[3,52,53],entir:[11,19,22,25,30,33,41],entri:[22,41],entropi:[1,5,6,7,10,11,12,15,25,30,51],enumer:37,env:[27,44],env_param:39,env_respons:[3,52],enviorn:29,environ:[0,3,4,6,18,26,27,30,31,32,33,37,38,41,44,47,49,50,52],environmentparamet:[29,39],envrespons:[0,3,29,52],episod:[0,3,4,5,10,11,14,19,20,25,29,30,38,39,40,41,42,52,53],episode_max_tim:29,episodic_hindsight_experience_replai:34,epoch:[7,52],epsilon:[7,30,34],epsilon_schedul:30,equal:2,equat:[8,12,13,16,17,20,24],error:[13,26,51],escap:53,especi:18,essenti:[20,26,33,39,41,44],estim:[3,5,7,11,14,19,23,30,52],estimate_state_value_using_ga:[5,7,11],eta:[7,11],etc:[0,3,26,29,31,37,38,48,52],evalu:[0,3,12,26,27,30,41,46,52],evaluate_onli:0,evaluation_epsilon:30,evaluation_nois:30,even:[18,26,29,39,40,41,46,51],everi:[0,5,6,8,10,12,13,14,15,16,17,19,20,21,23,24,25,53],exact:[22,30,47],exactli:26,exampl:[2,3,4,26,27,29,30,31,32,33,37,38,39,41,43,46,52,53],except:[20,27],execut:[27,40,41],exercis:13,exhibit:[3,38,52],exist:[22,26],exit:[3,52],expand_dim:27,expect:[0,3,30,47,52],experi:[0,6,8,11,12,13,25,29,34,35,40,41,42,44,46,50,51,53],experiment_path:[0,29],experiment_suit:29,experimentsuit:29,expert:[1,2,27,51],exploit:[30,41],explor:[3,4,5,6,7,8,9,11,13,14,19,21,22,38,41,46,50,51],exploration_polici:30,explorationparamet:[3,30,38],exponenti:[6,7,11,25,26],expor:3,export_onnx_graph:0,expos:[40,43,50],extend:[29,30,48],extens:[29,48],extent:53,extern:0,extra:[3,26,27,43,52],extract:[3,21,22,27,32,37,40,41,52],factor:[8,10,11,13,23,25,26,27,30,32],failur:0,faithfulli:40,fake:37,fals:[0,3,8,13,26,27,29,30,33,34,37,39,52],far:[11,32,41,47],faster:[18,51],featur:[8,13,29,43,50,51],feature_minimap_maps_to_us:29,feature_screen_maps_to_us:29,fetch:[26,27],fetched_tensor:26,few:[10,14,15,16,17,19,23,24,25,30,39],field:[47,50],file:[0,3,38,41,52,53],fill:[27,39],filter:[0,3,50,52],find:[16,40,48,50],finish:[22,53],finit:33,first:[0,8,11,13,14,22,24,25,26,27,32,41,43],fit:[13,37],fix:46,flag:[0,3,26,27,29,52],flexibl:42,flicker:29,flow:[31,50],follow:[2,3,5,6,8,10,12,13,15,16,17,20,21,22,24,25,26,27,29,30,34,38,39,44,47,51,52],footprint:32,forc:[26,29,33,39],force_cpu:26,force_environment_reset:[29,39],force_int_bin:33,forced_attention_s:37,form:[4,20,37,51],format:38,formul:[5,6],forward:[26,30],found:[3,45,46,53],frac:[6,7,12,15,25],fraction:[7,11],frame:[0,29],frame_skip:29,framework:[0,3,26,38,50,52],framework_typ:0,free:[29,48],freeglut3:44,freez:[3,52],freeze_memori:[3,52],frequenc:13,from:[0,1,2,3,4,5,6,7,8,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,29,30,31,32,33,35,37,38,39,40,41,42,43,44,46,47,48,50,52,53],full:[3,10,19,33,52],fulldiscreteactionspacemap:33,fulli:26,func:[3,52],further:46,futur:[0,3,10,27,51],future_measurements_weight:4,gae:[5,7,11],gae_lambda:[5,7,11],game:[3,27,29,48,50,52,53],game_ov:27,gamma:[5,6,8,12,13,14,15,16,17,19,20,21,22,23,25],gap:[23,51],gather:42,gaussian:[11,12,13,30],gener:[0,5,7,11,14,26,29,30,34,37,38,44,53],general_network:38,get:[3,4,7,8,9,10,11,13,14,16,17,19,21,23,26,27,29,30,37,41,43,44,47,52],get_act:30,get_action_from_us:29,get_available_kei:29,get_first_transit:27,get_goal:29,get_last_env_respons:29,get_last_transit:27,get_output_head:38,get_predict:[3,52],get_random_act:29,get_rendered_imag:[29,39],get_reward_for_goal_and_st:37,get_state_embed:[3,52],get_transit:27,get_transitions_attribut:27,get_variable_valu:26,get_weight:26,gfortran:44,gif:0,git:44,github:[39,44,47,50],given:[0,1,2,3,4,5,8,10,11,13,26,27,29,30,32,33,34,37,38,41,46,52],given_weight:26,global:[3,26,43,52],global_network:26,glx:44,goal:[1,2,3,4,6,26,27,29,34,41,43,51,52],goal_from_st:37,goal_nam:37,goal_spac:29,goal_vector:4,goals_spac:34,goalsspac:[34,37],goaltorewardconvers:37,going:31,good:[39,40],gpu:[0,26],gracefulli:53,gradient:[3,5,6,7,11,20,22,26,38,51,52],gradientclippingmethod:26,gradients_clipping_method:26,granular:34,graph:0,graphmanag:41,grayscal:[32,37],greedili:41,group:40,grow:25,guidelin:51,gym:[44,48],gym_environ:[29,53],gymenviron:29,gymenvironmentparamet:39,hac:51,had:47,hand:[18,32,41,51],handl:4,handle_episode_end:[3,29,52],handling_targets_after_episode_end:4,handlingtargetsafterepisodeend:4,hard:[40,51],harder:[40,46],has:[0,3,18,22,23,27,30,32,41,43,47,51,52],has_glob:26,has_target:26,hat:[6,7,15,25],have:[0,3,4,6,26,29,30,32,33,34,41,43,46,47,52],head:[1,2,3,5,6,10,14,18,21,22,26,30,38,43,52],headparamet:26,heads_paramet:26,health_gath:29,heat:6,heatup:[30,41],help:[23,27,40,41,51],here:[39,41],heurist:[11,30],hide:43,hierarch:[37,41],hierarchi:[3,41,51,52],high:[8,11,13,32,33,37,40],high_i:37,high_kl_penalty_coeffici:11,high_x:37,higher:11,highest:[5,6,10,23,30,32,33,37],highli:[0,39,51],hindsight:[9,34,51],hindsight_goal_selection_method:34,hindsight_transitions_per_regular_transit:34,hindsightgoalselectionmethod:34,hold:[14,26,27,34,40,41,43],horizont:[44,50,53],host:44,hostnam:0,hot:37,how:[4,7,11,30,42,44,51,53],hrl:34,html:44,http:[20,34,44],hub:44,huber:24,huber_loss_interv:24,human:[0,29],human_control:29,hyper:[38,47],hyperparamet:38,ident:26,identifi:[26,37],ies:52,ignor:29,imag:[0,26,29,32,33,37,39,43,53],image1:44,imit:[3,27,45,51],impact:26,implement:[3,7,11,26,28,29,30,34,38,39,42,47,51,53],impli:53,implment:36,importance_weight:26,importance_weight_trunc:6,importantli:41,improv:[5,18,25,29,41,51],improve_reward_model:52,includ:[0,3,4,29,31,32,36,43,48,52,53],incorpor:26,increas:[11,23,32,51],increment:[3,52],index:[0,2,27,29,32,33,34,37],indic:37,inf:[32,37],infer:[3,26,29,46,52],infinit:[0,51],info:[3,14,27,37,39,52],info_as_list:27,inform:[3,4,20,27,29,31,40,41,44,48,52],inherit:[3,38,39],init_environment_dependent_modul:[3,52],initi:[3,4,11,23,26,27,38,41,50,52],initial_feed_dict:26,initial_kl_coeffici:11,initialize_session_dependent_compon:[3,52],innov:51,input:[1,2,3,4,8,13,14,16,17,19,21,22,23,26,31,37,41,43,52],input_embedders_paramet:26,input_high:32,input_low:32,input_space_high:33,input_space_low:33,inputembedderparamet:26,inputfilt:41,insert:[22,27],inspect:0,instal:[44,53],instanc:[3,35,37,43],instanti:[3,29,41],instead:[0,3,7,20,23,26,32,33,41,51,52],instruct:53,intact:[14,47],integ:[0,32,33],integr:[39,41,42,46,50],intel:50,intend:[10,26,30,41],interact:[27,41,42,46,50,53],interest:[26,40],interfac:[29,40,42,48],intermedi:22,intern:[3,10,20,26,27,31,41,52,53],intersect:51,interv:24,intro:50,introduc:51,invers:[29,48],invok:41,involv:38,is_empti:27,is_valid_index:37,item:27,iter:[3,5,6,8,11,13,18,26,52],its:[0,3,15,25,26,27,30,37,41,44,51,52,53],itself:[26,37,53],job:0,job_typ:0,joint:29,json:0,jump:[4,33],jupyt:38,just:[3,11,23,25,39,41,43,46,52,53],kapa:24,keep:[17,27,32,53],kei:[2,22,26,27,29,34,38,40,44,51,53],key_error_threshold:34,key_width:34,keyboard:[29,53],keyword:26,kl_coeffici:26,kl_coefficient_ph:26,know:[3,51,52,53],knowledg:[3,41,52],known:[27,40,47,51],kubeconfig:36,kubernet:44,kubernetes_orchestr:36,kubernetesparamet:36,kwarg:[26,29],l2_norm_added_delta:22,l2_regular:26,lack:40,lamb:30,lambda:[5,7,11,30],lane:2,larg:[30,32,48],larger:26,last:[4,6,11,22,27,29,32],last_env_respons:29,lastli:41,later:[0,3,26,52,53],latest:[20,22,41,44],layer:[26,30,34,41,43],lazi:[27,32],lazystack:32,lbfg:26,ld_library_path:44,lead:30,learn:[0,3,4,5,6,8,9,10,12,14,15,16,17,18,21,24,25,26,27,29,30,32,40,41,43,45,47,48,49,51,52],learn_from_batch:[3,38,41,52],learner:26,learning_r:[26,34],learning_rate_decay_r:26,learning_rate_decay_step:26,least:[43,51],leav:[11,14],left:[2,6,12,51],length:[4,5,7,11,20,22,26,27],less:[18,51],level:[0,3,26,29,39,52,53],levelmanag:[3,41,52],levelselect:29,libatla:44,libav:44,libavformat:44,libbla:44,libboost:44,libbz2:44,libfluidsynth:44,libgl1:44,libglew:44,libgm:44,libgstream:44,libgtk2:44,libgtk:44,libjpeg:44,liblapack:44,libnotifi:44,libopen:44,libosmesa6:44,libportmidi:44,librari:[29,44,48],libsdl1:44,libsdl2:44,libsdl:44,libsm:44,libsmpeg:44,libswscal:44,libtiff:44,libwebkitgtk:44,libwildmidi:44,like:[12,29,37,41,43,44,46,51],likelihood:[7,11],line:[3,41,52,53],linear:33,linearboxtoboxmap:33,linearli:33,list:[0,3,4,26,27,29,30,32,33,37,38,52,53],load:[0,3,40,42,52,53],load_memory_from_fil:[3,52],load_memory_from_file_path:53,local:[3,43,44,52],locat:[24,27,32,51],log:[0,3,5,6,10,12,52],log_to_screen:[3,52],logger:[0,3,52],look:[39,44],loop:41,loss:[1,2,3,6,7,10,11,15,16,17,24,25,26,30,38,43,52],lot:[30,40,46,47,51],low:[8,11,13,32,33,37],low_i:37,low_x:37,lower:[0,34,41],lowest:[32,33,37],lstm:43,lumin:32,lvert:[6,15,25],lvl:53,mai:[0,26,45,53],main:[3,38,41,43,45,52,53],mainli:42,major:30,make:[0,3,26,29,38,40,44,46,47,51,52],manag:[3,26,42,44,52],mandatori:[37,39,43],mani:[3,18,45,47],manner:[11,19,20,23,32,41],manual:44,map:[3,26,29,31,32,33,37,38,52],mark:27,markdown:52,mask:[14,33],masked_target_space_high:33,masked_target_space_low:33,master:[3,41,44,52],match:[2,22,26,37],mathbb:[5,6],mathcal:13,mathop:5,max:[5,6,13,15,20,25,32],max_a:[14,17,22,23],max_action_valu:27,max_episodes_to_achieve_reward:0,max_fps_for_human_control:0,max_kl_diverg:6,max_over_num_fram:29,max_simultaneous_selected_act:37,max_siz:34,max_spe:29,maxim:[4,16],maximum:[0,12,15,17,22,23,27,29,30,32,34,51],mdp:46,mean:[0,2,7,8,9,10,11,12,13,21,26,30,32,33,37,40,46,51],meant:43,measur:[3,4,26,29,32,37,39,51,52],measurements_nam:37,mechan:[31,42,47,53],memor:51,memori:[3,25,27,32,38,41,42,44,50,51,52],memory_backend:44,memorygranular:34,memoryparamet:[3,38],merg:[26,29],mesa:44,method:[0,5,7,11,13,20,26,32,34],metric:[0,37,40],mid:6,middlewar:[22,26,43],middleware_paramet:26,middlewareparamet:26,midpoint:24,might:[3,10,29,38,43,52],min:[6,7,13,15,23,25],min_:[12,13],min_reward_threshold:0,mind:53,minim:[2,4,15],minimap_s:29,minimum:[0,7,13,32],mitig:51,mix:[3,7,11,22,23,51],mixedmontecarloalgorithmparamet:19,mixer1:44,mixtur:[19,26],mjkei:44,mjpro150:44,mjpro150_linux:44,mkdir:44,mmc:[19,51],mmc_agent:19,mode:[23,26,28,35,36,41,42,44,53],model:[0,19,21,26,50,52,53],modif:51,modifi:6,modul:[3,38,41,42,52],modular:[38,41,43,50],monitor:42,mont:[3,23],monte_carlo_mixing_r:[19,23],more:[3,8,13,20,26,32,38,40,41,43,44,46,50,52,53],moreov:40,most:[3,10,22,26,27,30,43,47,51,52,53],mostli:[32,41],motiv:41,move:[6,7,11,32,40,47],mp4:0,mse:[2,6,16,17,24],much:[7,11,41,51],mujoco:[29,33,39,44,48],mujoco_kei:44,mujoco_pi:44,multi:[11,26,37,43],multiarrai:[3,52],multidimension:37,multipl:[4,7,11,20,26,29,30,32,33,34,37,40,41,47,50,53],multipli:[4,10,26,32],multiselect:33,multitask:[29,48],must:[26,32,37,47],mxnet:53,n_step:[22,25,27,34],n_step_discounted_reward:27,n_step_q_ag:20,nabla:[6,8,13],nabla_:[8,12,13],nabla_a:[8,13],naf:51,naf_ag:21,nafalgorithmparamet:21,name:[3,26,27,29,32,37,38,44,52,53],namespac:36,nasm:44,nativ:[0,29,39,48],native_rend:0,navig:3,ndarrai:[3,26,27,29,30,32,33,37,39,52],nearest:22,neat:40,nec:[0,51],nec_ag:22,necalgorithmparamet:22,necessari:[3,22,26,52],necessarili:32,need:[0,3,6,25,26,29,30,37,38,41,47,51,52,53],neg:[4,32],neighbor:22,neon_compon:38,nervanasystem:44,network:[0,3,26,30,38,41,47,50,51,52,53],network_input_tupl:26,network_nam:[3,52],network_param:30,network_paramet:26,network_wrapp:[3,26,52],networkparamet:[3,26,30,38],networkwrapp:[3,52],neural:[3,19,26,43,47],never:26,new_value_shift_coeffici:[22,34],new_weight:26,newli:[23,39,46,51],next:[0,3,8,13,16,17,21,23,24,27,29,41,52,53],next_stat:27,nfs_data_stor:28,nfsdatastoreparamet:28,nice:53,no_accumul:26,node:[26,43],nois:[8,9,13,21,30,41,51],noise_as_percentage_from_action_spac:30,noise_schedul:30,noisi:[10,25,30],non_episod:34,none:[0,3,7,8,11,13,26,27,29,30,32,33,37,39,52],nor:[],norm:26,norm_unclipped_grad:26,norm_unclippsed_grad:26,normal:[3,4,10,30,31,32,37],note:[22,26,30,52],notebook:38,notic:[26,51],notori:[40,47,51],now:[7,39],nstepqalgorithmparamet:20,nth:25,num_act:[22,34,37],num_bins_per_dimens:33,num_class:34,num_consecutive_playing_step:[3,8,13,52],num_consecutive_training_step:[3,52],num_gpu:0,num_neighbor:34,num_predicted_steps_ahead:4,num_speedup_step:29,num_steps_between_copying_online_weights_to_target:[8,12,13,20],num_steps_between_gradient_upd:[5,6,10,20],num_task:0,num_training_task:0,num_transitions_to_start_replai:6,num_work:0,number:[0,2,4,5,6,8,10,12,13,14,15,20,22,24,25,26,27,29,30,32,33,34,40,48,52,53],number_of_knn:22,numpi:[3,26,27,29,30,32,33,37,39,52],nvidia:44,object:[0,3,25,26,29,30,32,34,41,52],observ:[0,3,4,11,26,27,29,31,39,41,52],observation_reduction_by_sub_parts_name_filt:32,observation_space_s:26,observation_space_typ:29,observation_stat:32,observation_typ:29,observationspac:37,observationspacetyp:29,observationtyp:29,off:[3,6,12,42,46,51,52],offer:[29,48],often:[40,41,43,46],old:[7,11,26,51],old_weight:26,onc:[0,7,10,11,14,15,16,17,19,20,23,24,25,26,37,53],one:[0,3,6,18,22,23,26,27,29,30,31,34,37,39,40,43,46,51,52],ones:[39,51],onli:[0,3,4,5,6,7,10,11,14,15,17,18,20,22,24,25,26,27,29,30,32,33,39,41,51,52,53],onlin:[8,12,13,14,15,16,17,19,20,21,22,23,24,25,26,41,43,46],online_network:26,onnx:[0,26],onto:31,open:[0,29,48],openai:[44,48],opencv:44,oper:[23,26,32],ops:26,optim:[3,4,6,26,45,51],optimization_epoch:7,optimizer_epsilon:26,optimizer_typ:26,option:[6,10,26,29,33,37,38,40,42,43,53],orchestr:[42,44,50],order:[0,3,5,6,7,8,10,11,12,13,16,17,18,20,21,22,23,24,26,27,31,32,33,40,41,43,46,47,51,52],org:[20,34],origin:[20,32,33,47],ornstein:[8,9,30],other:[0,2,10,18,23,26,29,31,32,34,40,41,51],otherwis:[11,14,26,29,30,37],ou_process:30,our:7,out:[2,16,17,30,31,33,40,44,50,51,53],outcom:[30,41],output:[0,4,6,8,13,14,15,21,22,26,30,31,32,37,38,43],output_0_0:26,output_observation_spac:32,outputfilt:41,outsid:[4,30],over:[3,7,10,11,20,22,25,26,27,30,32,33,40,41,51,52],overestim:[8,13,51],overfit:11,overhead:0,overlai:40,overrid:[3,52],override_existing_kei:34,overriden:38,overview:41,overwhelm:41,overwritten:26,own:[26,38],p_j:[15,25],page:[3,47],pair:[0,37],pal:[23,51],pal_ag:23,pal_alpha:23,palalgorithmparamet:23,paper:[5,10,12,15,20,22,24,29,34,47],parallel:[6,26,40,43],parallel_predict:26,param:[3,26,27,28,29,30,35,36,38,39,52],paramet:[2,3,4,5,6,7,8,10,11,12,13,15,19,20,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,39,47,50,52,53],parameter_nois:30,parameters_server_host:0,parent:[3,26,52],parent_path_suffix:[3,26,52],parmet:3,pars:41,part:[0,3,14,26,27,30,32,33,42,43,47,51,52],part_nam:32,partial:33,partialdiscreteactionspacemap:33,particular:4,particularli:[29,30,37,47,51],pass:[0,4,8,9,13,21,22,26,29,30,31,39,40,41,43,53],patamet:22,patchelf:44,patchelf_0:44,path:[0,3,26,38,39,44,52,53],pattern:41,pdf:34,penal:[7,8,11,13],penalti:11,pendulum_hac:39,pendulum_with_go:39,pendulumwithgo:39,per:[0,3,4,37,38,41,52],percentag:30,percentil:30,perceptron:43,perform:[0,3,6,26,27,32,34,39,40,41,51,52],period:[43,53],persist:3,persistent_advantage_learn:23,perspect:15,phase:[3,6,7,8,9,11,12,13,26,29,30,41,52],phi:[15,25],physic:[29,48],pi_:[6,7,12],pick:[12,29],pickl:53,pickledreplaybuff:53,pip3:44,pip:44,pixel:29,place:[33,40,41],placehold:[26,30],plai:[0,3,10,14,16,17,20,30,38,40,52],plain:43,planarmap:29,planarmapsobservationspac:32,platform:[29,48],pleas:[20,47],plu:26,plugin:44,point:[32,37,41,42],polici:[1,3,4,5,6,9,12,14,20,21,22,28,38,41,42,43,44,45,46,50,51,52],policy_gradient_rescal:[5,7,10,11],policy_gradients_ag:10,policygradientalgorithmparamet:10,policygradientrescal:[5,7,10,11],policyoptimizationag:38,popul:41,popular:[29,48],port:0,posit:[4,32],possibl:[2,3,4,22,30,33,37,40,43,50,51,52,53],post:[31,50],post_training_command:[3,52],power:[29,48],ppo:[7,11,51],ppo_ag:11,ppoalgorithmparamet:11,pre:[8,13,30,31],predefin:[14,23,30,53],predict:[1,2,3,5,6,7,8,11,12,13,14,15,16,17,23,24,25,26,30,43,51,52],prediction_typ:[3,52],predictiontyp:[3,52],prefect:51,prefer:26,prefix:[3,52],prep:44,prepar:[3,52],prepare_batch_for_infer:[3,52],present:[18,22,26,29,32,51],preset:[0,5,38,39,41,42,44,53],press:[40,53],prevent:[8,11,13,41],previou:32,previous:[11,26],print:[0,3,53],print_networks_summari:0,priorit:[25,34],prioriti:[25,34],privat:37,probabilit:[5,6],probabl:[3,5,6,10,14,15,25,27,30,38,51,52],problem:51,procedur:6,process:[0,3,8,9,26,30,31,32,33,38,40,41,43,46,47,50,52],produc:26,progress:26,project:[15,25],propag:7,propagate_updates_to_dnd:22,properti:[3,26,27,29,34,38,39,44,52],proport:34,provid:[26,42],proxi:41,proxim:3,pub:[35,36,44],publish:47,purpos:[0,3,10],pursuit:2,push:[3,52],pybullet:[29,48],pygam:[0,44],pytest:44,python3:44,python:[29,34,38,44,48,50],q_i:12,qr_dqn_agent:24,quad:6,qualiti:29,quantil:[3,51],quantileregressiondqnalgorithmparamet:24,queri:[22,26,41,51],question:51,quit:[40,46],r_i:[5,20],r_t:[4,6,7,25],rainbow:[3,38,51],rainbow_ag:38,rainbow_dqn_ag:25,rainbowag:38,rainbowagentparamet:38,rainbowalgorithmparamet:38,rainbowdqnalgorithmparamet:25,rainbowexplorationparamet:38,rainbowmemoryparamet:38,rainbownetworkparamet:38,rais:[3,27,52],ramp:[38,41],random:[0,20,29,30,37,41,47],random_initialization_step:29,randomli:[27,41],rang:[4,7,8,11,13,15,25,29,32,33,37,51],rare:22,rate:[0,6,19,22,26,29,43],rate_for_copying_weights_to_target:[6,8,12,13],rather:[4,12,40],ratio:[6,7,11,19,32],ratio_of_replai:6,raw:[29,48],reach:[0,11,37],read:[0,28],read_csv_tri:0,readabl:41,readm:44,real:3,reason:[32,47],rebuild_on_every_upd:34,receiv:[26,27],recent:[3,25,26,51,52],recommend:39,redi:[35,36,44],redispubsub:44,redispubsubmemorybackendparamet:35,reduc:[1,2,10,11,23,26,32,41,51],reduct:32,reduction_method:32,reductionmethod:32,redund:32,refer:[2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,42,44],referenc:3,regard:[3,52],region:[6,51],regist:[3,52],register_sign:[3,52],registri:44,regress:[2,3,51],regula:[6,7,11],regular:[5,7,10,11,20,22,26,30,33,34,51],regularli:26,reinforc:[3,5,8,9,10,12,15,16,17,18,20,23,24,25,29,30,40,41,43,45,47,48,49,51],relat:[26,44],relationship:51,releas:[0,50,51],relev:[3,14,30,32,52],remov:[0,32],render:[0,3,29,39],reorder:32,repeat:[29,41],replac:[30,32,34,44],replace_mse_with_huber_loss:26,replai:[1,2,3,6,8,12,13,14,15,16,17,20,22,23,24,25,34,41,51,52,53],replay_buff:53,replicated_devic:26,repo:39,repositori:50,repres:[0,7,11,15,25,26,27,29,30,33,37,53],represent:43,reproduc:[41,47],request:[3,26,52],requir:[3,26,28,30,32,40,43,44,51,52],requires_action_valu:30,rescal:[4,5,7,10,11,26,31,32],rescale_factor:32,research:[29,47,48],reset:[3,22,26,29,30,39,52],reset_accumulated_gradi:26,reset_evaluation_st:[3,52],reset_gradi:26,reset_internal_st:[3,29,52],resourc:[42,44],respect:[8,13,27,29],respons:[3,27,29,41,52],rest:[26,27,33,44],restart:39,restor:[0,3,52],restore_checkpoint:[3,52],result:[3,4,13,15,16,17,18,24,25,26,32,33,47,51,52,53],ret:6,retrac:6,retri:0,retriev:[22,34],return_additional_data:34,reus:41,reusabl:43,reward:[0,1,2,3,4,8,10,13,19,20,25,26,27,29,31,37,39,40,41,51,52],reward_test_level:0,reward_typ:37,rgb:[29,32,37],rho:[6,8,13],rho_t:6,right:[2,3,6,12,30,33,40,51,52],rl_coach:[0,1,2,3,4,5,6,7,8,10,11,12,13,15,17,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,39,44,52,53],rms_prop_optimizer_decai:26,rmsprop:26,roboschool:[29,48],robot:[29,37,48,50],roboti:44,robust:52,rollout:[28,35,36,42,44,53],root:[40,44],rule:[8,13,14],run:[0,3,4,8,10,11,12,13,14,16,17,22,23,26,29,30,32,52,53],run_off_policy_evalu:[3,52],run_pre_network_filter_for_infer:[3,52],runphas:[3,52],runtim:44,rvert:[15,25],rvert_2:6,s3_bucket_nam:44,s3_creds_fil:44,s3_data_stor:28,s3_end_point:44,s3datastoreparamet:28,s_t:[4,5,6,8,12,13,14,15,16,17,19,20,21,23,25],sac:51,sai:51,same:[3,4,7,10,13,19,20,23,26,29,33,34,40,43,47,51,52],sampl:[1,2,3,5,6,8,10,11,12,13,14,15,16,17,19,20,23,24,25,26,30,34,37,41,44,52],sample_with_info:37,satur:[8,13],save:[0,3,25,26,30,44,52,53],save_checkpoint:[3,52],saver:[3,26,52],savercollect:[3,26,52],scale:[4,10,26,32,40,44,50,53],scale_down_gradients_by_number_of_workers_for_sync_train:26,scale_measurements_target:4,scaler:26,schedul:[7,30,34,41,42,44,53],scheme:[5,30,41,51],schulman:11,sci:44,scienc:47,scipi:[32,44],scope:26,scratch:51,scratchpad:0,screen:[3,29,39,53],screen_siz:29,script:41,second:[0,26,40,51,53],section:[44,45,48],see:[3,29,32,44,47,48,51,52,53],seed:[0,29,47],seen:[4,22,23,29,32,41,47,51],segment:[29,37],select:[5,14,22,26,27,30,32,33,37,39,40,41,50,53],self:[3,26,38,39,52],send:[39,43],separ:[0,3,18,32,33,43,45,46,51],separate_actions_for_throttle_and_brak:29,seper:10,sequenti:[4,27,34],serv:[7,10,43],server:0,server_height:29,server_width:29,sess:[3,26,52],session:[3,26,52],set:[0,2,3,4,5,6,7,8,11,13,15,16,17,19,22,23,25,26,27,29,30,32,33,37,38,42,47,48,50,51,52,53],set_environment_paramet:[3,52],set_goal:29,set_incoming_direct:[3,52],set_is_train:26,set_sess:[3,52],set_variable_valu:26,set_weight:26,setup:[3,44,46,52],setup_logg:[3,52],setuptool:44,sever:[0,3,7,10,11,14,26,29,30,32,38,39,40,41,43,48,51,52,53],shape:[26,32,37],share:[0,3,26,34,43,52],shared_memory_scratchpad:0,shared_optim:26,shift:[33,41],shine:40,should:[0,3,4,7,11,14,20,23,26,27,29,32,34,37,38,39,42,52,53],should_dump:0,shouldn:14,show:47,shown:47,shuffl:[3,27,52],side:[3,52],sigma:[13,30],signal:[3,41,52],signal_nam:[3,52],significantli:18,sim:[6,12],similar:[7,18,20,27,29,33,51],simpl:[10,34,38,39,43,50,51,53],simplest:51,simplif:51,simplifi:[7,40,43],simul:[29,39,46,48,53],simultan:7,sinc:[3,7,8,10,13,20,22,23,25,26,30,32,46,52],singl:[3,4,5,6,7,11,14,18,19,20,26,27,29,30,33,37,40,41,43,52],size:[26,27,30,32,33,34,37],skill:51,skip:[29,41],slave:[3,52],slice:27,slow:[26,51,53],slower:[0,13,18,26],slowli:[8,13],small:[7,13,22,34],smaller:30,smooth:[40,51],soft:[3,8,11,13,21,51],soft_actor_critic_ag:12,softactorcriticalgorithmparamet:12,softmax:[26,30],softmax_temperatur:26,softwar:44,sole:46,solut:51,solv:[32,39,48,50],some:[0,3,11,26,27,30,32,38,39,40,43,46,47,51,52,53],sort:24,sourc:[0,1,2,3,4,5,6,7,8,10,11,12,13,15,17,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,39,44,48,52],space:[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,29,30,31,32,33,34,41,50,52],spacesdefinit:[3,26,52],spatial:51,spawn:[42,44],special:18,specif:[0,3,14,18,22,26,27,38,41,53],specifi:[0,26,29,30,32,39,42,53],speed:[26,32,51],speedup:53,spread:[32,33],squar:32,squeeze_list:26,squeeze_output:26,src:44,stabil:[6,20,26,51],stabl:[43,51],stack:[3,31,32,37,52],stack_siz:[26,32],stacking_axi:32,stage:43,stai:47,standard:[7,10,11,14,30,32,40,46],starcraft2_environ:29,starcraft2environ:29,starcraft:[37,48],starcraftobservationtyp:29,start:[3,6,8,11,12,13,18,23,27,32,33,39,44,52],state:[1,2,3,4,5,6,7,8,9,10,11,12,13,14,16,17,18,19,20,21,22,23,24,25,26,27,29,32,34,37,38,39,41,43,45,51,52],state_key_with_the_class_index:[2,34],state_spac:29,state_valu:27,statist:[3,10,32,50,52],std:12,stdev:30,steep:30,step:[0,3,4,5,6,7,8,10,11,12,13,14,15,16,17,19,21,22,23,24,25,26,27,29,30,32,38,39,40,41,51,52,53],stepmethod:[8,12,13,20],stochast:[12,41,51],stop:[0,29],store:[0,3,22,25,27,29,32,34,40,41,42,44,50,52,53],store_transitions_only_when_episodes_are_termin:25,str:[0,2,3,4,20,26,27,29,30,32,33,37,52],strategi:[29,48],stream:[18,42],strict:47,string:[0,26,29],structur:[0,3,27,34,38,41,52],stuff:26,style:30,sub:[33,34,35,36,37,38,41,44,53],sub_spac:37,subset:[40,47,51],subtract:23,succeed:29,success:[0,29,51],suffer:40,suffici:27,suffix:[3,26,52],suggest:38,suit:[0,48],suitabl:[42,53],sum:[4,7,10,19,26,27],sum_:[5,12,15,19,20,22,25],summari:[0,3,52],supervis:51,suppli:[3,52],support:[0,3,26,29,30,40,43,44,45,46,48,50,53],sure:[0,3,44,47,52],surrog:7,swig:44,swingup:29,symbol:26,sync:[3,26,41,42,52],synchron:[0,26,41,43],system:46,t_max:[10,20],tag:44,take:[0,3,10,11,18,22,23,26,29,30,31,39,40,41,52],taken:[1,2,4,5,6,7,8,11,12,13,15,18,22,23,24,25,26,27,29,30],tanh:[8,13],tar:44,target:[0,1,2,3,4,5,6,7,8,11,12,13,14,15,16,17,19,20,21,22,23,24,25,26,29,32,33,37,38,41,43,52],target_act:33,target_kl_diverg:11,target_network:26,target_success_r:29,targets_horizon:20,task:[0,1,2,29,32,38,40,48],task_index:0,tau:12,td3:51,td3_agent:13,td3algorithmparamet:13,techniqu:[7,11,50,51],technolog:42,teh:26,temperatur:[26,30],temperature_schedul:30,tensor:[3,26,52],tensorboard:0,tensorflow:[0,3,26,52,53],tensorflow_support:26,term:[6,7,11],termin:[3,8,13,27,41,52],test:[0,3,5,6,8,9,10,11,12,13,26,38,47,50,53],test_using_a_trace_test:0,text:6,textrm:41,than:[0,3,11,13,26,30,40,43,46,52],thei:[3,22,23,26,30,40,41,42,51,52,53],them:[4,5,10,20,26,27,29,32,37,39,40,43],therefor:[0,8,13,26,31,51],theta:[6,7,8,12,13,15,25,30],theta_:[6,7],thi:[0,3,4,5,6,7,8,10,11,13,14,18,20,22,25,26,27,29,30,31,32,33,34,35,37,38,39,40,41,42,43,44,46,47,51,52,53],thing:[40,46],those:[0,3,8,13,14,16,17,18,22,27,30,33,41,43,45,51,52],thousand:[11,14,15,16,17,19,23,24,25],thread:26,three:[3,42,43,44,45],threshold:[11,22,32],through:[0,3,4,8,9,10,11,13,14,22,23,26,38,39,41,43,52],tild:[8,12,13],time:[0,4,23,26,30,33,34,40,43,51],time_limit:39,timestep:[4,10],timid:44,tmp:0,togeth:[3,20,27,41,52],toggl:40,too:11,tool:[40,44,51],top:[26,29,31,32,34,39,40,51],torqu:29,total:[0,3,10,11,19,22,23,27,34,38,40,51,52],total_loss:26,total_return:27,trace:0,trace_max_env_step:0,trace_test_level:0,tradeoff:30,train:[0,3,18,26,30,35,36,38,39,40,41,42,43,46,47,50,51,52],train_and_sync_network:26,train_on_batch:26,train_to_eval_ratio:34,trainer:[28,42],transfer:[29,35,48],transit:[1,2,3,4,5,6,8,10,11,12,13,15,16,17,20,22,23,24,25,34,38,41,42,52],transition_idx:27,tri:51,trick:47,tricki:40,trigger:[29,44],truncat:6,truncated_norm:30,trust:[6,51],ttf2:44,tune:30,tupl:[1,2,3,8,13,26,27,29,34,37,38],turn:[2,51],tutori:[38,39,46],tweak:[3,52],twin:3,two:[8,10,13,20,26,29,30,31,32,33,37,39,42,43,51,53],txt:44,type:[0,3,10,18,26,29,32,37,38,41,43,50,51,52,53],typic:[7,11,26,51,53],ubuntu16:44,uhlenbeck:[8,9,30],uint8:32,unbound:37,uncertain:30,uncertainti:30,unchang:11,unclip:[3,38,52],uncorrel:20,undeploi:42,under:[3,26,38,53],underbrac:5,understand:53,unifi:7,uniformli:[29,30,33,37],union:[3,27,29,30,33,37,52],uniqu:26,unit:40,unlik:11,unmask:33,unnecessari:0,unshar:[3,52],unsign:32,unspecifi:26,unstabl:[40,47],until:[0,6,10,11,22,25,30],unus:26,unzip:44,updat:[3,6,7,8,10,11,12,13,14,15,16,17,18,20,21,22,23,24,25,26,27,30,38,39,40,41,43,44,51,52],update_discounted_reward:27,update_filter_internal_st:[3,52],update_log:[3,52],update_online_network:26,update_step_in_episode_log:[3,52],update_target_network:26,update_transition_before_adding_to_replay_buff:[3,52],upgrad:44,upon:[3,5,38,52],upper:[6,30],usag:[33,46,50],use:[0,1,2,3,4,5,6,8,9,10,12,13,14,16,17,21,26,27,28,29,30,32,33,34,37,38,39,41,43,44,46,50,51,52,53],use_accumulated_reward_as_measur:4,use_cpu:0,use_deterministic_for_evalu:12,use_full_action_spac:29,use_inputs_for_apply_gradi:26,use_kl_regular:[7,11],use_non_zero_discount_for_terminal_st:[8,13],use_separate_networks_per_head:26,use_target_network_for_evalu:[8,13],use_trust_region_optim:6,used:[0,2,3,5,6,7,8,10,11,12,13,14,15,19,20,21,22,23,24,26,29,30,32,33,34,35,36,38,39,41,42,43,46,47,52,53],useful:[0,3,4,25,26,30,32,37,47,51,52,53],user:[26,29,30,40,41,44],userguid:44,uses:[0,1,7,11,18,27,28,30,36,41,42,44,47,51,53],using:[0,3,5,6,7,8,10,11,12,13,16,17,19,20,21,22,23,25,26,28,29,30,32,35,38,39,40,42,46,48,51,52,53],usr:44,usual:[32,41],util:[3,40,52],v_max:15,v_min:15,val:[3,37,52],valid:[0,37],valu:[0,2,3,4,5,6,7,8,11,12,13,14,15,16,17,18,20,21,22,23,25,26,27,29,30,32,33,34,37,38,41,43,44,45,51,52],valuabl:40,value_targets_mix_fract:[7,11],valueexcept:[3,52],valueoptimizationag:38,van:4,vari:43,variabl:[26,29,44],variable_scop:26,varianc:[10,30,40,51],variant:[30,34,51],variou:[3,27,34,50],vector:[3,4,8,9,11,13,14,26,29,32,37,39,43,51,52],vectorobservationspac:32,verbos:29,veri:[0,7,8,10,13,18,22,40,51,53],version:[7,11,27],versu:26,vert:12,vertic:26,via:[2,14],video:[0,3,29],video_dump_method:0,view:40,viewabl:[3,52],visit:47,visual:[0,3,29,48,50],visualization_paramet:29,visualizationparamet:[3,29],vizdoom:[44,48],vote:30,wai:[3,7,11,30,33,39,41,43,50,51,52,53],wait:[5,26,42],walk:39,want:[3,4,25,26,32,33,34,46,52],warn:[30,32,33],wasn:27,weather_id:29,websit:[29,50],weight:[4,5,6,7,8,11,12,13,14,15,16,17,19,20,21,22,23,24,25,26,30,41,43,51],well:[22,26,30,37,51],went:11,were:[4,15,16,17,18,22,24,25,26,27,33,47],west:44,wget:44,what:[11,46,51],whatev:[3,52],when:[0,3,4,5,6,7,8,9,10,11,12,13,22,26,27,28,29,30,32,35,36,38,39,40,52,53],whenev:42,where:[2,3,4,5,6,7,11,14,15,18,20,22,23,25,26,27,29,30,32,33,37,40,46,51,52],whether:30,which:[0,1,2,3,5,6,7,8,10,11,12,13,14,18,20,21,22,23,24,26,27,28,29,30,32,34,35,36,37,38,39,40,41,42,43,45,46,47,48,50,51,52,53],who:41,why:[40,41],window:[32,33],wise:32,within:[0,7,11,21,30,37,40],without:[5,11,33,34,40,51,53],won:[4,26],wont:26,work:[3,20,26,30,32,33,40,41,51,52,53],workaround:0,workdir:44,worker:[0,20,26,28,32,34,35,36,40,42,43,44,51,53],worker_devic:26,worker_host:0,wors:51,would:[26,44,46,51],wrap:[29,32,41,48],wrapper:[3,26,27,29,37,43,52],write:[0,3,52],written:[3,25,28,52],www:44,xdist:44,y_t:[8,12,13,14,16,17,19,21,22,23],year:51,yet:[18,39],you:[4,32,34,38,39,44,50,53],your:[38,39,44,53],yuv:32,z_i:[15,25],z_j:[15,25],zero:[2,13,16,17],zip:44,zlib1g:44},titles:["Additional Parameters","Behavioral Cloning","Conditional Imitation Learning","Agents","Direct Future Prediction","Actor-Critic","ACER","Clipped Proximal Policy Optimization","Deep Deterministic Policy Gradient","Hierarchical Actor Critic","Policy Gradient","Proximal Policy Optimization","Soft Actor-Critic","Twin Delayed Deep Deterministic Policy Gradient","Bootstrapped DQN","Categorical DQN","Double DQN","Deep Q Networks","Dueling DQN","Mixed Monte Carlo","N-Step Q Learning","Normalized Advantage Functions","Neural Episodic Control","Persistent Advantage Learning","Quantile Regression DQN","Rainbow","Architectures","Core Types","Data Stores","Environments","Exploration Policies","Filters","Input Filters","Output Filters","Memories","Memory Backends","Orchestrators","Spaces","Adding a New Agent","Adding a New Environment","Coach Dashboard","Control Flow","Distributed Coach - Horizontal Scale-Out","Network Design","Usage - Distributed Coach","Algorithms","Batch Reinforcement Learning","Benchmarks","Environments","Features","Reinforcement Learning Coach","Selecting an Algorithm","test","Usage"],titleterms:{"final":22,"function":21,"new":[38,39],"switch":53,Adding:[38,39],Using:39,acer:6,across:51,action:[4,5,6,7,8,9,10,11,12,13,14,21,22,33,37,51],actioninfo:27,actor:[5,9,12],addit:[0,53],additivenois:30,advantag:[21,23],agent:[3,38,41,53],algorithm:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19,20,21,22,23,24,25,45,51,53],api:39,architectur:26,attentionactionspac:37,backend:35,balancedexperiencereplai:34,batch:[27,46],behavior:1,benchmark:47,between:53,blizzard:29,boltzmann:30,bootstrap:[14,30],boxactionspac:37,build:44,can:51,carla:29,carlo:19,categor:[15,30],choos:[4,5,6,7,8,9,10,11,12,13,14,21,22],clip:7,clone:[1,44],coach:[39,40,42,44,50],collect:51,compar:40,compoundactionspac:37,condit:2,config:44,contain:44,continu:[7,11,12,51],continuousentropi:30,control:[22,29,41],copi:43,core:27,creat:44,critic:[5,9,12],dashboard:40,data:28,deep:[8,13,17,53],deepmind:29,delai:13,demonstr:51,descript:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25],design:43,determinist:[8,13],direct:4,discret:[5,6,10,51],discreteactionspac:37,distribut:[42,44],distributedtaskparamet:0,doe:51,doubl:16,dqn:[14,15,16,18,24],duel:18,dump:53,egreedi:30,environ:[29,39,48,51,53],envrespons:27,episod:[22,27,34],episodicexperiencereplai:34,episodichindsightexperiencereplai:34,episodichrlhindsightexperiencereplai:34,evalu:53,experiencereplai:34,explor:30,explorationpolici:30,featur:49,file:44,filter:[31,32,33],flag:53,flow:41,framework:53,from:51,futur:4,gener:18,gif:53,goal:37,gradient:[8,10,13],graph:41,greedi:30,gym:[29,39],have:51,hierarch:9,horizont:42,human:[51,53],imag:44,imageobservationspac:37,imit:[2,53],implement:44,input:32,interfac:44,keep:43,kubernet:36,learn:[2,20,23,46,50,53],level:41,manag:41,memori:[34,35],mix:19,mont:19,more:51,multi:53,multipl:51,multiselectactionspac:37,network:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,43],networkwrapp:26,neural:22,nfsdatastor:28,node:[51,53],non:34,normal:21,observ:[32,37],observationclippingfilt:32,observationcropfilt:32,observationmoveaxisfilt:32,observationnormalizationfilt:32,observationreductionbysubpartsnamefilt:32,observationrescalesizebyfactorfilt:32,observationrescaletosizefilt:32,observationrgbtoyfilt:32,observationsqueezefilt:32,observationstackingfilt:32,observationtouint8filt:32,openai:[29,39],optim:[7,11],orchestr:36,ouprocess:30,out:42,output:33,pain:51,parallel:51,paramet:0,parameternois:30,persist:23,plai:53,planarmapsobservationspac:37,polici:[7,8,10,11,13,30],predict:4,prerequisit:44,presetvalidationparamet:0,prioritizedexperiencereplai:34,process:51,proxim:[7,11],push:44,qdnd:34,quantil:24,rainbow:25,redispubsubbackend:35,regress:24,reinforc:[46,50],render:53,repositori:44,reward:32,rewardclippingfilt:32,rewardnormalizationfilt:32,rewardrescalefilt:32,run:[40,44],s3datastor:28,sampl:51,scale:42,select:51,signal:40,simul:51,singl:53,singleepisodebuff:34,soft:12,solv:51,space:[37,51],starcraft:29,statist:40,step:20,store:[14,28],structur:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25],suit:29,support:42,sync:43,synchron:42,task:51,taskparamet:0,test:52,thread:53,through:53,track:40,train:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19,20,21,22,23,24,25,53],transit:[14,27],transitioncollect:34,truncatednorm:30,twin:13,type:[27,42],ucb:30,usag:[44,53],vectorobservationspac:37,visual:[40,53],visualizationparamet:0,vizdoom:29,you:51,your:51}})
\ No newline at end of file
+Search.setIndex({docnames:["components/additional_parameters","components/agents/imitation/bc","components/agents/imitation/cil","components/agents/index","components/agents/other/dfp","components/agents/policy_optimization/ac","components/agents/policy_optimization/acer","components/agents/policy_optimization/cppo","components/agents/policy_optimization/ddpg","components/agents/policy_optimization/hac","components/agents/policy_optimization/pg","components/agents/policy_optimization/ppo","components/agents/policy_optimization/sac","components/agents/policy_optimization/td3","components/agents/value_optimization/bs_dqn","components/agents/value_optimization/categorical_dqn","components/agents/value_optimization/double_dqn","components/agents/value_optimization/dqn","components/agents/value_optimization/dueling_dqn","components/agents/value_optimization/mmc","components/agents/value_optimization/n_step","components/agents/value_optimization/naf","components/agents/value_optimization/nec","components/agents/value_optimization/pal","components/agents/value_optimization/qr_dqn","components/agents/value_optimization/rainbow","components/architectures/index","components/core_types","components/data_stores/index","components/environments/index","components/exploration_policies/index","components/filters/index","components/filters/input_filters","components/filters/output_filters","components/memories/index","components/memory_backends/index","components/orchestrators/index","components/spaces","contributing/add_agent","contributing/add_env","dashboard","design/control_flow","design/horizontal_scaling","design/network","dist_usage","features/algorithms","features/batch_rl","features/benchmarks","features/environments","features/index","index","selecting_an_algorithm","test","usage"],envversion:{"sphinx.domains.c":1,"sphinx.domains.changeset":1,"sphinx.domains.citation":1,"sphinx.domains.cpp":1,"sphinx.domains.javascript":1,"sphinx.domains.math":2,"sphinx.domains.python":1,"sphinx.domains.rst":1,"sphinx.domains.std":1,"sphinx.ext.todo":1,"sphinx.ext.viewcode":1,sphinx:56},filenames:["components/additional_parameters.rst","components/agents/imitation/bc.rst","components/agents/imitation/cil.rst","components/agents/index.rst","components/agents/other/dfp.rst","components/agents/policy_optimization/ac.rst","components/agents/policy_optimization/acer.rst","components/agents/policy_optimization/cppo.rst","components/agents/policy_optimization/ddpg.rst","components/agents/policy_optimization/hac.rst","components/agents/policy_optimization/pg.rst","components/agents/policy_optimization/ppo.rst","components/agents/policy_optimization/sac.rst","components/agents/policy_optimization/td3.rst","components/agents/value_optimization/bs_dqn.rst","components/agents/value_optimization/categorical_dqn.rst","components/agents/value_optimization/double_dqn.rst","components/agents/value_optimization/dqn.rst","components/agents/value_optimization/dueling_dqn.rst","components/agents/value_optimization/mmc.rst","components/agents/value_optimization/n_step.rst","components/agents/value_optimization/naf.rst","components/agents/value_optimization/nec.rst","components/agents/value_optimization/pal.rst","components/agents/value_optimization/qr_dqn.rst","components/agents/value_optimization/rainbow.rst","components/architectures/index.rst","components/core_types.rst","components/data_stores/index.rst","components/environments/index.rst","components/exploration_policies/index.rst","components/filters/index.rst","components/filters/input_filters.rst","components/filters/output_filters.rst","components/memories/index.rst","components/memory_backends/index.rst","components/orchestrators/index.rst","components/spaces.rst","contributing/add_agent.rst","contributing/add_env.rst","dashboard.rst","design/control_flow.rst","design/horizontal_scaling.rst","design/network.rst","dist_usage.rst","features/algorithms.rst","features/batch_rl.rst","features/benchmarks.rst","features/environments.rst","features/index.rst","index.rst","selecting_an_algorithm.rst","test.rst","usage.rst"],objects:{"rl_coach.agents.acer_agent":{ACERAlgorithmParameters:[6,0,1,""]},"rl_coach.agents.actor_critic_agent":{ActorCriticAlgorithmParameters:[5,0,1,""]},"rl_coach.agents.agent":{Agent:[3,0,1,""]},"rl_coach.agents.agent.Agent":{act:[3,1,1,""],call_memory:[3,1,1,""],choose_action:[3,1,1,""],collect_savers:[3,1,1,""],create_networks:[3,1,1,""],freeze_memory:[3,1,1,""],get_predictions:[3,1,1,""],get_state_embedding:[3,1,1,""],handle_episode_ended:[3,1,1,""],init_environment_dependent_modules:[3,1,1,""],initialize_session_dependent_components:[3,1,1,""],learn_from_batch:[3,1,1,""],load_memory_from_file:[3,1,1,""],log_to_screen:[3,1,1,""],observe:[3,1,1,""],parent:[3,1,1,""],phase:[3,1,1,""],post_training_commands:[3,1,1,""],prepare_batch_for_inference:[3,1,1,""],register_signal:[3,1,1,""],reset_evaluation_state:[3,1,1,""],reset_internal_state:[3,1,1,""],restore_checkpoint:[3,1,1,""],run_off_policy_evaluation:[3,1,1,""],run_pre_network_filter_for_inference:[3,1,1,""],save_checkpoint:[3,1,1,""],set_environment_parameters:[3,1,1,""],set_incoming_directive:[3,1,1,""],set_session:[3,1,1,""],setup_logger:[3,1,1,""],sync:[3,1,1,""],train:[3,1,1,""],update_log:[3,1,1,""],update_step_in_episode_log:[3,1,1,""],update_transition_before_adding_to_replay_buffer:[3,1,1,""]},"rl_coach.agents.bc_agent":{BCAlgorithmParameters:[1,0,1,""]},"rl_coach.agents.categorical_dqn_agent":{CategoricalDQNAlgorithmParameters:[15,0,1,""]},"rl_coach.agents.cil_agent":{CILAlgorithmParameters:[2,0,1,""]},"rl_coach.agents.clipped_ppo_agent":{ClippedPPOAlgorithmParameters:[7,0,1,""]},"rl_coach.agents.ddpg_agent":{DDPGAlgorithmParameters:[8,0,1,""]},"rl_coach.agents.dfp_agent":{DFPAlgorithmParameters:[4,0,1,""]},"rl_coach.agents.dqn_agent":{DQNAgent:[52,0,1,""],DQNAlgorithmParameters:[17,0,1,""]},"rl_coach.agents.dqn_agent.DQNAgent":{act:[52,1,1,""],call_memory:[52,1,1,""],choose_action:[52,1,1,""],collect_savers:[52,1,1,""],create_networks:[52,1,1,""],freeze_memory:[52,1,1,""],get_predictions:[52,1,1,""],get_state_embedding:[52,1,1,""],handle_episode_ended:[52,1,1,""],improve_reward_model:[52,1,1,""],init_environment_dependent_modules:[52,1,1,""],initialize_session_dependent_components:[52,1,1,""],learn_from_batch:[52,1,1,""],load_memory_from_file:[52,1,1,""],log_to_screen:[52,1,1,""],observe:[52,1,1,""],parent:[52,1,1,""],phase:[52,1,1,""],post_training_commands:[52,1,1,""],prepare_batch_for_inference:[52,1,1,""],register_signal:[52,1,1,""],reset_evaluation_state:[52,1,1,""],reset_internal_state:[52,1,1,""],restore_checkpoint:[52,1,1,""],run_off_policy_evaluation:[52,1,1,""],run_pre_network_filter_for_inference:[52,1,1,""],save_checkpoint:[52,1,1,""],set_environment_parameters:[52,1,1,""],set_incoming_directive:[52,1,1,""],set_session:[52,1,1,""],setup_logger:[52,1,1,""],sync:[52,1,1,""],train:[52,1,1,""],update_log:[52,1,1,""],update_step_in_episode_log:[52,1,1,""],update_transition_before_adding_to_replay_buffer:[52,1,1,""]},"rl_coach.agents.mmc_agent":{MixedMonteCarloAlgorithmParameters:[19,0,1,""]},"rl_coach.agents.n_step_q_agent":{NStepQAlgorithmParameters:[20,0,1,""]},"rl_coach.agents.naf_agent":{NAFAlgorithmParameters:[21,0,1,""]},"rl_coach.agents.nec_agent":{NECAlgorithmParameters:[22,0,1,""]},"rl_coach.agents.pal_agent":{PALAlgorithmParameters:[23,0,1,""]},"rl_coach.agents.policy_gradients_agent":{PolicyGradientAlgorithmParameters:[10,0,1,""]},"rl_coach.agents.ppo_agent":{PPOAlgorithmParameters:[11,0,1,""]},"rl_coach.agents.qr_dqn_agent":{QuantileRegressionDQNAlgorithmParameters:[24,0,1,""]},"rl_coach.agents.rainbow_dqn_agent":{RainbowDQNAlgorithmParameters:[25,0,1,""]},"rl_coach.agents.soft_actor_critic_agent":{SoftActorCriticAlgorithmParameters:[12,0,1,""]},"rl_coach.agents.td3_agent":{TD3AlgorithmParameters:[13,0,1,""]},"rl_coach.architectures.architecture":{Architecture:[26,0,1,""]},"rl_coach.architectures.architecture.Architecture":{accumulate_gradients:[26,1,1,""],apply_and_reset_gradients:[26,1,1,""],apply_gradients:[26,1,1,""],collect_savers:[26,1,1,""],construct:[26,1,1,""],get_variable_value:[26,1,1,""],get_weights:[26,1,1,""],parallel_predict:[26,1,1,""],predict:[26,1,1,""],reset_accumulated_gradients:[26,1,1,""],set_variable_value:[26,1,1,""],set_weights:[26,1,1,""],train_on_batch:[26,1,1,""]},"rl_coach.architectures.network_wrapper":{NetworkWrapper:[26,0,1,""]},"rl_coach.architectures.network_wrapper.NetworkWrapper":{apply_gradients_and_sync_networks:[26,1,1,""],apply_gradients_to_global_network:[26,1,1,""],apply_gradients_to_online_network:[26,1,1,""],collect_savers:[26,1,1,""],parallel_prediction:[26,1,1,""],set_is_training:[26,1,1,""],sync:[26,1,1,""],train_and_sync_networks:[26,1,1,""],update_online_network:[26,1,1,""],update_target_network:[26,1,1,""]},"rl_coach.base_parameters":{AgentParameters:[3,0,1,""],DistributedTaskParameters:[0,0,1,""],NetworkParameters:[26,0,1,""],PresetValidationParameters:[0,0,1,""],TaskParameters:[0,0,1,""],VisualizationParameters:[0,0,1,""]},"rl_coach.core_types":{ActionInfo:[27,0,1,""],Batch:[27,0,1,""],EnvResponse:[27,0,1,""],Episode:[27,0,1,""],Transition:[27,0,1,""]},"rl_coach.core_types.Batch":{actions:[27,1,1,""],game_overs:[27,1,1,""],goals:[27,1,1,""],info:[27,1,1,""],info_as_list:[27,1,1,""],n_step_discounted_rewards:[27,1,1,""],next_states:[27,1,1,""],rewards:[27,1,1,""],shuffle:[27,1,1,""],size:[27,1,1,""],slice:[27,1,1,""],states:[27,1,1,""]},"rl_coach.core_types.Episode":{get_first_transition:[27,1,1,""],get_last_transition:[27,1,1,""],get_transition:[27,1,1,""],get_transitions_attribute:[27,1,1,""],insert:[27,1,1,""],is_empty:[27,1,1,""],length:[27,1,1,""],update_discounted_rewards:[27,1,1,""]},"rl_coach.data_stores.nfs_data_store":{NFSDataStore:[28,0,1,""]},"rl_coach.data_stores.s3_data_store":{S3DataStore:[28,0,1,""]},"rl_coach.environments.carla_environment":{CarlaEnvironment:[29,0,1,""]},"rl_coach.environments.control_suite_environment":{ControlSuiteEnvironment:[29,0,1,""]},"rl_coach.environments.doom_environment":{DoomEnvironment:[29,0,1,""]},"rl_coach.environments.environment":{Environment:[29,0,1,""]},"rl_coach.environments.environment.Environment":{action_space:[29,1,1,""],close:[29,1,1,""],get_action_from_user:[29,1,1,""],get_available_keys:[29,1,1,""],get_goal:[29,1,1,""],get_random_action:[29,1,1,""],get_rendered_image:[29,1,1,""],goal_space:[29,1,1,""],handle_episode_ended:[29,1,1,""],last_env_response:[29,1,1,""],phase:[29,1,1,""],render:[29,1,1,""],reset_internal_state:[29,1,1,""],set_goal:[29,1,1,""],state_space:[29,1,1,""],step:[29,1,1,""]},"rl_coach.environments.gym_environment":{GymEnvironment:[29,0,1,""]},"rl_coach.environments.starcraft2_environment":{StarCraft2Environment:[29,0,1,""]},"rl_coach.exploration_policies.additive_noise":{AdditiveNoise:[30,0,1,""]},"rl_coach.exploration_policies.boltzmann":{Boltzmann:[30,0,1,""]},"rl_coach.exploration_policies.bootstrapped":{Bootstrapped:[30,0,1,""]},"rl_coach.exploration_policies.categorical":{Categorical:[30,0,1,""]},"rl_coach.exploration_policies.continuous_entropy":{ContinuousEntropy:[30,0,1,""]},"rl_coach.exploration_policies.e_greedy":{EGreedy:[30,0,1,""]},"rl_coach.exploration_policies.exploration_policy":{ExplorationPolicy:[30,0,1,""]},"rl_coach.exploration_policies.exploration_policy.ExplorationPolicy":{change_phase:[30,1,1,""],get_action:[30,1,1,""],requires_action_values:[30,1,1,""],reset:[30,1,1,""]},"rl_coach.exploration_policies.greedy":{Greedy:[30,0,1,""]},"rl_coach.exploration_policies.ou_process":{OUProcess:[30,0,1,""]},"rl_coach.exploration_policies.parameter_noise":{ParameterNoise:[30,0,1,""]},"rl_coach.exploration_policies.truncated_normal":{TruncatedNormal:[30,0,1,""]},"rl_coach.exploration_policies.ucb":{UCB:[30,0,1,""]},"rl_coach.filters.action":{AttentionDiscretization:[33,0,1,""],BoxDiscretization:[33,0,1,""],BoxMasking:[33,0,1,""],FullDiscreteActionSpaceMap:[33,0,1,""],LinearBoxToBoxMap:[33,0,1,""],PartialDiscreteActionSpaceMap:[33,0,1,""]},"rl_coach.filters.observation":{ObservationClippingFilter:[32,0,1,""],ObservationCropFilter:[32,0,1,""],ObservationMoveAxisFilter:[32,0,1,""],ObservationNormalizationFilter:[32,0,1,""],ObservationRGBToYFilter:[32,0,1,""],ObservationReductionBySubPartsNameFilter:[32,0,1,""],ObservationRescaleSizeByFactorFilter:[32,0,1,""],ObservationRescaleToSizeFilter:[32,0,1,""],ObservationSqueezeFilter:[32,0,1,""],ObservationStackingFilter:[32,0,1,""],ObservationToUInt8Filter:[32,0,1,""]},"rl_coach.filters.reward":{RewardClippingFilter:[32,0,1,""],RewardNormalizationFilter:[32,0,1,""],RewardRescaleFilter:[32,0,1,""]},"rl_coach.memories.backend.redis":{RedisPubSubBackend:[35,0,1,""]},"rl_coach.memories.episodic":{EpisodicExperienceReplay:[34,0,1,""],EpisodicHRLHindsightExperienceReplay:[34,0,1,""],EpisodicHindsightExperienceReplay:[34,0,1,""],SingleEpisodeBuffer:[34,0,1,""]},"rl_coach.memories.non_episodic":{BalancedExperienceReplay:[34,0,1,""],ExperienceReplay:[34,0,1,""],PrioritizedExperienceReplay:[34,0,1,""],QDND:[34,0,1,""],TransitionCollection:[34,0,1,""]},"rl_coach.orchestrators.kubernetes_orchestrator":{Kubernetes:[36,0,1,""]},"rl_coach.spaces":{ActionSpace:[37,0,1,""],AttentionActionSpace:[37,0,1,""],BoxActionSpace:[37,0,1,""],CompoundActionSpace:[37,0,1,""],DiscreteActionSpace:[37,0,1,""],GoalsSpace:[37,0,1,""],ImageObservationSpace:[37,0,1,""],MultiSelectActionSpace:[37,0,1,""],ObservationSpace:[37,0,1,""],PlanarMapsObservationSpace:[37,0,1,""],Space:[37,0,1,""],VectorObservationSpace:[37,0,1,""]},"rl_coach.spaces.ActionSpace":{clip_action_to_space:[37,1,1,""],contains:[37,1,1,""],is_valid_index:[37,1,1,""],sample:[37,1,1,""],sample_with_info:[37,1,1,""]},"rl_coach.spaces.GoalsSpace":{DistanceMetric:[37,0,1,""],clip_action_to_space:[37,1,1,""],contains:[37,1,1,""],distance_from_goal:[37,1,1,""],get_reward_for_goal_and_state:[37,1,1,""],goal_from_state:[37,1,1,""],is_valid_index:[37,1,1,""],sample:[37,1,1,""],sample_with_info:[37,1,1,""]},"rl_coach.spaces.ObservationSpace":{contains:[37,1,1,""],is_valid_index:[37,1,1,""],sample:[37,1,1,""]},"rl_coach.spaces.Space":{contains:[37,1,1,""],is_valid_index:[37,1,1,""],sample:[37,1,1,""]}},objnames:{"0":["py","class","Python class"],"1":["py","method","Python method"]},objtypes:{"0":"py:class","1":"py:method"},terms:{"100x100":33,"160x160":32,"1_0":[15,25],"1st":30,"20x20":33,"210x160":32,"2nd":30,"50k":41,"9_amd64":44,"abstract":[38,42],"boolean":[3,27,37,52],"break":40,"case":[0,3,5,22,26,27,30,37,46,51,52,53],"class":[0,1,2,3,4,5,6,7,8,10,11,12,13,15,17,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,39,41,45,52],"default":[0,30,53],"enum":[26,29,37],"export":[0,26,44],"final":[8,13,16,17,19,23,41],"float":[3,4,5,6,7,8,10,11,12,13,15,19,22,23,24,26,27,29,30,32,33,34,37,38,52],"function":[0,1,3,6,7,8,11,13,26,29,30,37,38,39,41,43,52],"import":[6,18,30,34,39,51,53],"int":[0,3,4,5,6,7,10,15,20,22,24,25,27,29,30,32,33,34,37,52],"long":43,"new":[0,3,7,8,11,12,13,22,23,26,27,33,41,42,46,50,51,52],"return":[0,3,8,10,11,13,14,19,22,23,25,26,27,29,30,32,34,37,38,39,41,51,52],"short":[0,41],"static":26,"super":[38,39],"switch":[0,40],"true":[0,3,4,5,6,7,8,11,12,13,22,23,25,26,27,29,30,33,34,37,52],"try":[4,47,51],"while":[0,5,6,8,9,10,11,12,13,26,29,40,43,51,53],AWS:44,Adding:[18,50],And:[39,51],But:[40,51],Doing:51,For:[0,1,2,3,4,7,10,14,15,16,17,20,22,23,26,27,29,30,31,32,33,37,38,39,41,42,43,44,47,52,53],Has:26,Its:52,NFS:[28,44],One:[24,51,53],That:40,The:[0,1,2,3,4,5,6,7,8,10,11,12,13,14,15,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,40,41,42,43,44,47,48,50,51,52,53],Then:[4,7,8,13,14,21,23],There:[7,11,26,30,31,38,39,43,46,53],These:[1,2,3,24,29,36,42,43,44],Use:[1,2,8,13,21,22],Used:30,Uses:51,Using:[8,13,14,16,17,44],Will:26,With:[30,50],__init__:[29,38,39],_index:[5,20],_nois:13,_render:39,_restart_environment_episod:39,_take_act:39,_update_st:39,a2c:51,a3c:[10,20,40,51],a_i:22,a_t:[4,5,6,8,12,13,14,15,16,17,19,20,21,23,25],a_valu:5,abl:[33,51],about:[3,27,41,52,53],abov:[8,12,13,26,41],abs:[20,34],absolut:30,acceler:21,accept:29,access:[26,38,44],accord:[0,3,4,5,6,8,12,13,14,20,26,27,30,37,40,41,43,52],accordingli:[22,37,41,53],account:[4,7,11,22,23,30],accumul:[3,4,5,6,10,20,22,25,26,32,51,52],accumulate_gradi:26,accumulated_gradi:26,accur:51,acer:[3,51],acer_ag:6,aceralgorithmparamet:6,achiev:[0,4,7,29,32,34,37,47,51,53],acquir:12,across:[10,19,40],act:[3,4,8,13,14,24,37,38,41,52],action:[1,2,3,15,16,17,18,19,20,23,24,25,26,27,29,30,31,34,38,39,41,43,52],action_idx:39,action_penalti:[8,13],action_spac:[29,30],action_space_s:26,action_valu:[27,30],actioninfo:[3,37,41,52],actionspac:[30,37],actiontyp:39,activ:[8,13,26],actor:[3,6,7,8,11,13,30,43,51],actor_critic_ag:5,actorcriticag:38,actorcriticalgorithmparamet:5,actual:[4,5,15,16,17,24,25,30,33,34],adam:[7,26],adam_optimizer_beta1:26,adam_optimizer_beta2:26,adapt:[7,11],add:[8,9,13,21,26,27,30,32,39,41,44,51],add_rendered_image_to_env_respons:0,added:[0,4,6,7,10,11,22,30,34,38],adding:[3,11,30,38,52],addit:[3,26,27,29,30,32,34,37,39,40,41,43,50,51,52],addition:[26,29,32,38,39,41,47,48,53],additional_fetch:26,additional_input:26,additional_simulator_paramet:[29,39],additionali:40,additive_nois:30,additivenoiseparamet:30,address:13,advanc:[25,50],advantag:[3,5,7,11,18,30],affect:[0,14,26],aforement:[16,17,23],after:[0,3,8,10,11,12,20,21,23,25,26,27,29,32,37,52,53],again:30,against:3,agent:[0,1,2,4,5,6,7,8,10,11,12,13,15,17,19,20,21,22,23,24,25,26,27,29,30,31,32,33,37,39,40,43,45,47,50,51,52],agent_param:42,agent_paramet:[3,26,52],agentparamet:[3,26,38],aggreg:41,ahead:[4,51],aim:30,algorithm:[3,27,30,38,40,41,42,46,47,49,50,52],algorithmparamet:[3,38],all:[0,3,10,14,22,23,26,27,29,30,32,33,37,38,39,40,41,42,43,44,46,48,52,53],all_action_prob:27,allow:[0,3,4,13,18,26,27,29,30,31,32,33,34,40,41,42,43,50,51,52,53],allow_brak:29,allow_duplicates_in_batch_sampl:34,allow_no_action_to_be_select:37,almost:46,along:[22,29,30,48],alpha:[6,19,23,34],alreadi:[22,27,39,51],also:[5,6,7,22,23,26,29,37,38,40,46,47,51,53],altern:[29,39,48],alwai:[26,30,33],amazon:44,amazonaw:44,amount:[8,10,13,19,23,30,41,51],analysi:40,analyz:40,ani:[3,26,27,29,33,34,38,41,42,43,44,46,52],anoth:[3,18,26,31,52],answer:51,anymor:[3,52],api:[29,43,48,50],appear:[3,52],appli:[0,3,5,8,10,13,20,26,27,30,32,51,52],applic:51,apply_and_reset_gradi:26,apply_gradi:26,apply_gradients_and_sync_network:26,apply_gradients_every_x_episod:[5,10,20],apply_gradients_to_global_network:26,apply_gradients_to_online_network:26,apply_stop_condit:0,appropri:44,approx:[8,12,13],approxim:[12,13,43,51],apt:44,arbitrari:32,architectur:[3,18,38,50,52],architecture_num_q_head:30,area:33,arg:[3,26,44,52],argmax_a:[16,19,23],argument:[3,15,25,26,29,37,41,52],around:[26,27,43],arrai:[3,26,27,29,32,37,39,52],art:[3,45],artifact:44,artifici:34,arxiv:[20,34],aspect:[30,32,40],assign:[0,2,5,6,26,30],assign_kl_coeffici:26,assign_op:26,assum:[27,30,32,34,51],async:[26,42],async_train:26,asynchron:[5,20,26],atari:[17,29,32,44,53],atari_a3c:53,atari_dqn:53,ath:18,atom:[15,24,25],attach:29,attempt:0,attend:33,attent:33,attentionactionspac:33,attentiondiscret:33,attribut:27,attribute_nam:27,author:[29,47,48],auto_select_all_armi:29,autoclean:44,automat:[26,53],autonom:[29,48,50],autoremov:44,auxiliari:[29,48],avail:[4,26,27,29,30,40,42,44,50,51,53],averag:[6,7,11,26,40,41],avg:6,aws:44,axes:[32,40],axi:[32,40],axis_origin:32,axis_target:32,back:[7,42],backend:[26,42,44,50,53],background:53,backpropag:22,backward:26,balanc:2,band:40,bar:6,base1:44,base64:44,base:[7,11,12,19,21,23,29,34,38,41,44,46,48,51,52],base_paramet:[0,3,26,29,30],baselin:51,basic:[10,27,42,53],batch:[1,2,3,4,5,6,8,10,11,12,13,14,15,16,17,18,20,23,24,25,26,34,38,41,49,50,52],batch_siz:26,batchnorm:26,bc_agent:1,bcalgorithmparamet:1,becaus:41,becom:[8,13,42],been:[18,27,32,47,51],befor:[0,3,5,11,13,25,26,27,32,41,42,43,44,51,52],begin:[0,4,41],behav:37,behavior:[3,32,34,38,47,51,52,53],being:[3,38,50,51,52],bellman:[15,24,25],benchmark:[40,49,50,51],benefici:46,best:[51,53],beta1:26,beta2:26,beta:[6,8,10,13,34],beta_entropi:[5,6,7,10,11],better:[13,18,46,51],between:[0,1,2,3,6,7,8,10,11,12,13,15,19,20,22,24,25,26,27,29,30,33,34,37,38,40,41,43,50,51],bfg:[7,11],bia:[6,51],big:[11,15,25],bin:[33,44],binari:14,bind:26,binomi:14,bit:32,blizzard:48,blob:[29,32],block:50,blog:50,boilerpl:41,bolling:40,bool:[0,3,4,5,6,7,8,11,12,13,22,23,25,26,27,29,30,34,37,52],boost:[44,51],bootstrap:[3,5,6,7,8,11,13,19,20,22,23,25,27,51],bootstrap_total_return_from_old_polici:[22,27],both:[3,7,26,29,30,33,51,52],bound:[6,7,11,15,25,30,37,51],box2d:44,box:[30,33,37],boxactionspac:33,boxdiscret:33,boxmask:33,breakout:53,breakoutdeterminist:[29,53],bring:11,bucket:44,buffer:[1,2,3,6,12,14,15,16,17,20,22,23,24,25,34,41,51,52,53],build:[31,50,51],builder:44,built:[38,41],bullet:6,button:[40,53],c51:15,cach:44,cadenc:13,calcul:[3,4,5,6,7,8,10,11,13,14,15,16,17,19,20,22,23,24,25,26,27,30,34,38,52],call:[0,3,10,20,26,27,29,41,52],call_memori:[3,52],callabl:37,camera:[29,39],camera_height:29,camera_width:29,cameratyp:[29,39],can:[0,2,3,5,6,7,8,11,12,13,23,26,27,29,30,31,32,33,37,38,39,40,41,43,46,48,50,52,53],cannot:[3,46,52],carla:[32,48],carla_environ:29,carlaenviron:29,carlaenvironmentparamet:29,carlo:[3,23],cartpol:[29,39],cartpole_a3c:53,cartpole_clippedppo:[44,53],cartpole_dqn:53,categor:[3,5,6,51],categori:[31,32],categorical_dqn_ag:15,categoricaldqnalgorithmparamet:15,caus:[32,40],cdot:[5,7,8,10,12,13,14,15,16,17,19,21,23,25],central:[26,40],certainti:30,chain:[8,13],challeng:41,chang:[0,3,6,7,8,11,13,14,18,20,23,30,41,44,52],change_phas:30,channel:[29,32],channels_axi:37,check:[0,3,27,37,52],checkpoint:[0,3,26,28,42,44,52,53],checkpoint_dir:[3,52],checkpoint_prefix:[3,52],checkpoint_restore_dir:[0,53],checkpoint_restore_path:0,checkpoint_save_dir:0,checkpoint_save_sec:0,child:26,chmod:44,choic:[38,44],choos:[3,18,23,30,31,33,37,38,41,43,51,52,53],choose_act:[3,38,41,52],chosen:[3,12,23,30,33,38,52],chunk:11,cil:51,cil_ag:2,cilalgorithmparamet:2,classic_control:44,clean:[29,38,44],cli:44,clip:[3,6,8,11,13,26,32,37,51],clip_action_to_spac:37,clip_critic_target:[8,13],clip_gradi:26,clip_high:30,clip_likelihood_ratio_using_epsilon:[7,11],clip_low:30,clip_max:32,clip_min:32,clipbyglobalnorm:26,clipped_ppo_ag:7,clippedppoalgorithmparamet:7,clipping_high:32,clipping_low:32,clone:[3,51],close:29,cmake:44,coach:[0,3,26,28,29,30,31,35,36,38,41,45,46,47,48,51,53],code:[39,41,51],coeffici:[7,11,26,30,34],collect:[3,7,10,11,20,26,27,34,41,46,47,50,52,53],collect_sav:[3,26,52],color:32,com:44,combin:[25,43,50,51],comma:0,command:[41,44,53],common:[38,40,44,53],commun:42,compar:[0,11,18,51],complet:[27,30,41],complex:[26,31,41,43,51,53],compon:[3,15,25,26,30,36,38,41,50,52,53],composit:[3,52],compositeag:[3,52],comput:[26,30],concat:26,concentr:41,condit:[0,3],confid:30,config:[29,53],configur:[3,5,10,38,44,52],confus:41,connect:[12,26],connectionist:10,consecut:[8,13,22],consequ:[20,30],consid:[5,6,30,33,40],consist:[8,13,29,32,33,37,41,48],constant:6,constantli:53,constantschedul:34,constrain:33,construct:[12,26,34],consumpt:32,contain:[0,1,2,3,14,26,27,29,37,39,41,52,53],content:44,contin:42,continu:[1,2,5,8,9,10,13,21,30,31,33,37,47],continuous_entropi:30,continuous_exploration_policy_paramet:30,contribut:[4,50],control:[2,3,5,6,7,8,11,26,30,32,40,48,50,51,52],control_suite_environ:29,controlsuiteenviron:29,conveni:[40,53],converg:10,convers:31,convert:[3,27,30,32,37,41,43,52],convolut:[26,43],coordin:33,copi:[8,12,13,14,15,16,17,19,20,21,23,24,25,26,44],core:50,core_typ:[3,27,29,37,52,53],correct:[3,6,51],correctli:26,correl:30,correpond:27,correspond:[2,3,4,15,16,26,27,30,32,37,39,52],could:[3,26,37,44,46,52],count:19,countabl:33,counter:[3,52],counterpart:43,cpu:[0,26],crd:53,creat:[3,20,26,32,39,52,53],create_network:[3,52],create_target_network:26,creation:[3,52],credenti:44,critic:[3,6,7,8,11,13,30,43,51],crop:[32,33],crop_high:32,crop_low:32,cross:[1,15,25],csv:0,ctrl:40,cuda:44,cudnn7:44,curl:44,curr_stat:[3,38,52],current:[0,1,2,3,4,6,7,8,9,10,11,12,13,14,16,17,19,21,22,23,24,26,27,29,30,32,33,37,38,41,50,51,52],custom:[29,30,37,38,41],custom_reward_threshold:29,cycl:41,dai:53,dashboard:[0,3,44,50,52],data:[0,3,10,20,26,34,41,42,44,46,47,50,51,52,53],data_stor:[28,44],dataset:[3,7,11,46,51,52,53],date:[22,43,51,53],dcp:[44,53],ddpg:51,ddpg_agent:8,ddpgalgorithmparamet:8,ddqn:[19,23,51],deal:51,debug:[0,40,50],decai:[5,7,11,26],decid:[0,3,4,29,30,38,52],decis:[3,52],declar:0,decod:44,dedic:26,deep:[0,3,5,12,14,16,18,20,21,25,52],deepmind:48,def:[38,39],default_act:37,default_input_filt:39,default_output_filt:39,defin:[0,3,5,6,7,10,11,12,20,22,23,26,27,29,30,32,33,34,37,38,39,41,42,43,47,48,52,53],definit:[3,26,29,37,39,41,52],delai:[3,51],delta:[6,15,22,25],demonstr:[1,2,53],dens:30,densiti:19,depecr:0,depend:[0,3,6,26,32,34,37,39,44,47,51,52],deploi:[36,42,46],depth:29,descend:51,describ:[3,15,24,32,34,38,41,44,52],descript:[3,33,37,45,53],design:[41,44,50],desir:[33,38],destabil:10,detail:[3,27,45,46,48,50,53],determin:[2,3,22,27,34,52],determinist:[3,12,51],dev:44,develop:[41,47],deviat:[10,11,30,32,40],devic:26,dfp:51,dfp_agent:4,dfpalgorithmparamet:4,dict:[3,4,26,27,29,30,37,52],dict_siz:34,dictat:4,dictionari:[2,3,26,27,29,34,37,38,52],did:29,differ:[0,1,2,3,4,5,6,7,10,11,14,18,26,29,30,32,37,38,39,40,42,43,50,51,52],differenti:18,difficult:[40,47],difficulti:53,dimens:[27,29,32,33],dimension:[11,33],dir:[0,3,52,53],direct:[3,29,52],directli:[3,5,41,43,52],directori:[0,26,38,40,44,53],disabl:53,disable_fog:29,disappear:29,disassembl:51,discard:[27,32],discount:[8,10,11,13,19,22,23,25,26,27,51],discret:[1,2,4,7,11,14,15,16,17,18,19,20,22,23,24,25,30,31,32,33,37,41],disentangl:41,disk:0,displai:[0,40],distanc:37,distance_from_go:37,distance_metr:37,distancemetr:37,distil:[3,52],distribut:[5,6,10,11,12,15,24,25,26,28,30,35,36,37,43,50,51,53],distributed_coach:42,distributed_coach_synchronization_typ:42,distributedcoachsynchronizationtyp:42,divereg:[7,11],diverg:[6,7,11,25],dnd:[0,22,51],dnd_key_error_threshold:22,dnd_size:22,do_action_hindsight:34,doc:44,docker:44,dockerfil:44,document:48,doe:[14,26,32],doesn:42,doing:[7,11,31],domain:43,don:[4,30,40,51],done:[0,3,7,10,11,13,29,32,39,52,53],doom:[29,39,44,48],doom_basic_bc:53,doom_basic_dqn:53,doom_environ:[29,39,53],doomenviron:[29,39],doomenvironmentparamet:[39,53],doominputfilt:39,doomlevel:29,doomoutputfilt:39,doubl:[3,19,25],doubli:52,down:[26,29,51],download:44,dpkg:44,dqn:[3,19,20,25,29,30,32,33,41,43,51],dqn_agent:[17,52],dqnagent:52,dqnalgorithmparamet:17,drive:[2,29,48,50],driving_benchmark:29,due:32,duel:[3,25],dump:[0,3,52],dump_csv:0,dump_gif:0,dump_in_episode_sign:0,dump_mp4:0,dump_one_value_per_episod:[3,52],dump_one_value_per_step:[3,52],dump_parameters_document:0,dump_signals_to_csv_every_x_episod:0,dure:[3,6,7,10,11,12,14,22,30,40,41,52,53],dynam:[40,47,51],e_greedi:30,each:[0,1,2,3,4,5,6,7,10,11,12,14,16,17,18,20,22,23,24,26,27,29,30,31,32,33,34,37,38,40,41,42,43,44,47,51,52],eas:40,easi:[39,40,50],easier:43,easili:[30,46,53],echo:44,effect:[0,3,6,7,20,32,41,52],effici:[6,41,51],either:[0,3,5,20,26,30,37,40,43,53],element:[3,14,26,32,37],elf:44,embbed:26,embed:[3,22,26,52],embedd:[26,43],embedding_merger_typ:26,embeddingmergertyp:26,emploi:51,empti:27,emul:6,enabl:[26,43,53],encod:[32,37],encourag:[21,23,41],end:[2,3,10,25,27,29,32,52,53],enforc:33,engin:[29,48],enough:[4,6,22],ensembl:[30,51],ensur:[6,26],enter:[3,52,53],entir:[11,19,22,25,30,33,41],entri:[22,41],entropi:[1,5,6,7,10,11,12,15,25,30,51],enumer:37,env:[27,44],env_param:39,env_respons:[3,52],enviorn:29,environ:[0,3,4,6,18,26,27,30,31,32,33,37,38,41,44,47,49,50,52],environmentparamet:[29,39],envrespons:[0,3,29,52],episod:[0,3,4,5,10,11,14,19,20,25,29,30,38,39,40,41,42,52,53],episode_max_tim:29,episodic_hindsight_experience_replai:34,epoch:[7,52],epsilon:[7,30,34],epsilon_schedul:30,equal:2,equat:[8,12,13,16,17,20,24],error:[13,26,51],escap:53,especi:18,essenti:[20,26,33,39,41,44],estim:[3,5,7,11,14,19,23,30,52],estimate_state_value_using_ga:[5,7,11],eta:[7,11],etc:[0,3,26,29,31,37,38,48,52],evalu:[0,3,12,26,27,30,41,46,52],evaluate_onli:0,evaluation_epsilon:30,evaluation_nois:30,even:[18,26,29,39,40,41,46,51],everi:[0,5,6,8,10,12,13,14,15,16,17,19,20,21,23,24,25,53],exact:[22,30,47],exactli:26,exampl:[2,3,4,26,27,29,30,31,32,33,37,38,39,41,43,46,52,53],except:[20,27],execut:[27,40,41],exercis:13,exhibit:[3,38,52],exist:[22,26],exit:[3,52],expand_dim:27,expect:[0,3,30,47,52],experi:[0,6,8,11,12,13,25,29,34,35,40,41,42,44,46,50,51,53],experiment_path:[0,29],experiment_suit:29,experimentsuit:29,expert:[1,2,27,51],exploit:[30,41],explor:[3,4,5,6,7,8,9,11,13,14,19,21,22,38,41,46,50,51],exploration_polici:30,explorationparamet:[3,30,38],exponenti:[6,7,11,25,26],expor:3,export_onnx_graph:0,expos:[40,43,50],extend:[29,30,48],extens:[29,48],extent:53,extern:0,extra:[3,26,27,43,52],extract:[3,21,22,27,32,37,40,41,52],factor:[8,10,11,13,23,25,26,27,30,32],failur:0,faithfulli:40,fake:37,fals:[0,3,8,13,26,27,29,30,33,34,37,39,52],far:[11,32,41,47],faster:[18,51],featur:[8,13,29,43,50,51],feature_minimap_maps_to_us:29,feature_screen_maps_to_us:29,fetch:[26,27],fetched_tensor:26,few:[10,14,15,16,17,19,23,24,25,30,39],field:[47,50],file:[0,3,38,41,52,53],fill:[27,39],filter:[0,3,50,52],find:[16,40,48,50],finish:[22,53],finit:33,first:[0,8,11,13,14,22,24,25,26,27,32,41,43],fit:[13,37],fix:46,flag:[0,3,26,27,29,52],flexibl:42,flicker:29,flow:[31,50],follow:[2,3,5,6,8,10,12,13,15,16,17,20,21,22,24,25,26,27,29,30,34,38,39,44,47,51,52],footprint:32,forc:[26,29,33,39],force_cpu:26,force_environment_reset:[29,39],force_int_bin:33,forced_attention_s:37,form:[4,20,37,51],format:38,formul:[5,6],forward:[26,30],found:[3,45,46,53],frac:[6,7,12,15,25],fraction:[7,11],frame:[0,29],frame_skip:29,framework:[0,3,26,38,50,52],framework_typ:0,free:[29,48],freeglut3:44,freez:[3,52],freeze_memori:[3,52],frequenc:13,from:[0,1,2,3,4,5,6,7,8,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,29,30,31,32,33,35,37,38,39,40,41,42,43,44,46,47,48,50,52,53],full:[3,10,19,33,52],fulldiscreteactionspacemap:33,fulli:26,func:[3,52],further:46,futur:[0,3,10,27,51],future_measurements_weight:4,gae:[5,7,11],gae_lambda:[5,7,11],game:[3,27,29,48,50,52,53],game_ov:27,gamma:[5,6,8,12,13,14,15,16,17,19,20,21,22,23,25],gap:[23,51],gather:42,gaussian:[11,12,13,30],gener:[0,5,7,11,14,26,29,30,34,37,38,44,53],general_network:38,get:[3,4,7,8,9,10,11,13,14,16,17,19,21,23,26,27,29,30,37,41,43,44,47,52],get_act:30,get_action_from_us:29,get_available_kei:29,get_first_transit:27,get_goal:29,get_last_env_respons:29,get_last_transit:27,get_output_head:38,get_predict:[3,52],get_random_act:29,get_rendered_imag:[29,39],get_reward_for_goal_and_st:37,get_state_embed:[3,52],get_transit:27,get_transitions_attribut:27,get_variable_valu:26,get_weight:26,gfortran:44,gif:0,git:44,github:[39,44,47,50],given:[0,1,2,3,4,5,8,10,11,13,26,27,29,30,32,33,34,37,38,41,46,52],given_weight:26,global:[3,26,43,52],global_network:26,glx:44,goal:[1,2,3,4,6,26,27,29,34,41,43,51,52],goal_from_st:37,goal_nam:37,goal_spac:29,goal_vector:4,goals_spac:34,goalsspac:[34,37],goaltorewardconvers:37,going:31,good:[39,40],gpu:[0,26],gracefulli:53,gradient:[3,5,6,7,11,20,22,26,38,51,52],gradientclippingmethod:26,gradients_clipping_method:26,granular:34,graph:0,graphmanag:41,grayscal:[32,37],greedili:41,group:40,grow:25,guidelin:51,gym:[44,48],gym_environ:[29,53],gymenviron:29,gymenvironmentparamet:39,hac:51,had:47,hand:[18,32,41,51],handl:4,handle_episode_end:[3,29,52],handling_targets_after_episode_end:4,handlingtargetsafterepisodeend:4,hard:[40,51],harder:[40,46],has:[0,3,18,22,23,27,30,32,41,43,47,51,52],has_glob:26,has_target:26,hat:[6,7,15,25],have:[0,3,4,6,26,29,30,32,33,34,41,43,46,47,52],head:[1,2,3,5,6,10,14,18,21,22,26,30,38,43,52],headparamet:26,heads_paramet:26,health_gath:29,heat:6,heatup:[30,41],help:[23,27,40,41,51],here:[39,41],heurist:[11,30],hide:43,hierarch:[37,41],hierarchi:[3,41,51,52],high:[8,11,13,32,33,37,40],high_i:37,high_kl_penalty_coeffici:11,high_x:37,higher:11,highest:[5,6,10,23,30,32,33,37],highli:[0,39,51],hindsight:[9,34,51],hindsight_goal_selection_method:34,hindsight_transitions_per_regular_transit:34,hindsightgoalselectionmethod:34,hold:[14,26,27,34,40,41,43],horizont:[44,50,53],host:44,hostnam:0,hot:37,how:[4,7,11,30,42,44,51,53],hrl:34,html:44,http:[20,34,44],hub:44,huber:24,huber_loss_interv:24,human:[0,29],human_control:29,hyper:[38,47],hyperparamet:38,ident:26,identifi:[26,37],ies:52,ignor:29,imag:[0,26,29,32,33,37,39,43,53],image1:44,imit:[3,27,45,51],impact:26,implement:[3,7,11,26,28,29,30,34,38,39,42,47,51,53],impli:53,implment:36,importance_weight:26,importance_weight_trunc:6,importantli:41,improv:[5,18,25,29,41,51],improve_reward_model:52,includ:[0,3,4,29,31,32,36,43,48,52,53],incorpor:26,increas:[11,23,32,51],increment:[3,52],index:[0,2,27,29,32,33,34,37],indic:37,inf:[32,37],infer:[3,26,29,46,52],infinit:[0,51],info:[3,14,27,37,39,52],info_as_list:27,inform:[3,4,20,27,29,31,40,41,44,48,52],inherit:[3,38,39],init_environment_dependent_modul:[3,52],initi:[3,4,11,23,26,27,38,41,50,52],initial_feed_dict:26,initial_kl_coeffici:11,initialize_session_dependent_compon:[3,52],innov:51,input:[1,2,3,4,8,13,14,16,17,19,21,22,23,26,31,37,41,43,52],input_embedders_paramet:26,input_high:32,input_low:32,input_space_high:33,input_space_low:33,inputembedderparamet:26,inputfilt:41,insert:[22,27],inspect:0,instal:[44,53],instanc:[3,35,37,43],instanti:[3,29,41],instead:[0,3,7,20,23,26,32,33,41,51,52],instruct:53,intact:[14,47],integ:[0,32,33],integr:[39,41,42,46,50],intel:50,intend:[10,26,30,41],interact:[27,41,42,46,50,53],interest:[26,40],interfac:[29,40,42,48],intermedi:22,intern:[3,10,20,26,27,31,41,52,53],intersect:51,interv:24,intro:50,introduc:51,invers:[29,48],invok:41,involv:38,is_empti:27,is_valid_index:37,item:27,iter:[3,5,6,8,11,13,18,26,52],its:[0,3,15,25,26,27,30,37,41,44,51,52,53],itself:[26,37,53],job:0,job_typ:0,joint:29,json:0,jump:[4,33],jupyt:38,just:[3,11,23,25,39,41,43,46,52,53],kapa:24,keep:[17,27,32,53],kei:[2,22,26,27,29,34,38,40,44,51,53],key_error_threshold:34,key_width:34,keyboard:[29,53],keyword:26,kl_coeffici:26,kl_coefficient_ph:26,know:[3,51,52,53],knowledg:[3,41,52],known:[27,40,47,51],kubeconfig:36,kubernet:44,kubernetes_orchestr:36,kubernetesparamet:36,kwarg:[26,29],l2_norm_added_delta:22,l2_regular:26,lack:40,lamb:30,lambda:[5,7,11,30],lane:2,larg:[30,32,48],larger:26,last:[4,6,11,22,27,29,32],last_env_respons:29,lastli:41,later:[0,3,26,52,53],latest:[20,22,41,44],layer:[26,30,34,41,43],lazi:[27,32],lazystack:32,lbfg:26,ld_library_path:44,lead:30,learn:[0,3,4,5,6,8,9,10,12,14,15,16,17,18,21,24,25,26,27,29,30,32,40,41,43,45,47,48,49,51,52],learn_from_batch:[3,38,41,52],learner:26,learning_r:[26,34],learning_rate_decay_r:26,learning_rate_decay_step:26,least:[43,51],leav:[11,14],left:[2,6,12,51],length:[4,5,7,11,20,22,26,27],less:[18,51],level:[0,3,26,29,39,52,53],levelmanag:[3,41,52],levelselect:29,libatla:44,libav:44,libavformat:44,libbla:44,libboost:44,libbz2:44,libfluidsynth:44,libgl1:44,libglew:44,libgm:44,libgstream:44,libgtk2:44,libgtk:44,libjpeg:44,liblapack:44,libnotifi:44,libopen:44,libosmesa6:44,libportmidi:44,librari:[29,44,48],libsdl1:44,libsdl2:44,libsdl:44,libsm:44,libsmpeg:44,libswscal:44,libtiff:44,libwebkitgtk:44,libwildmidi:44,like:[12,29,37,41,43,44,46,51],likelihood:[7,11],line:[3,41,52,53],linear:33,linearboxtoboxmap:33,linearli:33,list:[0,3,4,26,27,29,30,32,33,37,38,52,53],load:[0,3,40,42,52,53],load_memory_from_fil:[3,52],load_memory_from_file_path:53,local:[3,43,44,52],locat:[24,27,32,51],log:[0,3,5,6,10,12,52],log_to_screen:[3,52],logger:[0,3,52],look:[39,44],loop:41,loss:[1,2,3,6,7,10,11,15,16,17,24,25,26,30,38,43,52],lot:[30,40,46,47,51],low:[8,11,13,32,33,37],low_i:37,low_x:37,lower:[0,34,41],lowest:[32,33,37],lstm:43,lumin:32,lvert:[6,15,25],lvl:53,mai:[0,26,45,53],main:[3,38,41,43,45,52,53],mainli:42,major:30,make:[0,3,26,29,38,40,44,46,47,51,52],manag:[3,26,42,44,52],mandatori:[37,39,43],mani:[3,18,45,47],manner:[11,19,20,23,32,41],manual:44,map:[3,26,29,31,32,33,37,38,52],mark:27,markdown:52,mask:[14,33],masked_target_space_high:33,masked_target_space_low:33,master:[3,41,44,52],match:[2,22,26,37],mathbb:[5,6],mathcal:13,mathop:5,max:[5,6,13,15,20,25,32],max_a:[14,17,22,23],max_action_valu:27,max_episodes_to_achieve_reward:0,max_fps_for_human_control:0,max_kl_diverg:6,max_over_num_fram:29,max_simultaneous_selected_act:37,max_siz:34,max_spe:29,maxim:[4,16],maximum:[0,12,15,17,22,23,27,29,30,32,34,51],mdp:46,mean:[0,2,7,8,9,10,11,12,13,21,26,30,32,33,37,40,46,51],meant:43,measur:[3,4,26,29,32,37,39,51,52],measurements_nam:37,mechan:[31,42,47,53],memor:51,memori:[3,25,27,32,38,41,42,44,50,51,52],memory_backend:44,memorygranular:34,memoryparamet:[3,38],merg:[26,29],mesa:44,method:[0,5,7,11,13,20,26,32,34],metric:[0,37,40],mid:6,middlewar:[22,26,43],middleware_paramet:26,middlewareparamet:26,midpoint:24,might:[3,10,29,38,43,52],min:[6,7,13,15,23,25],min_:[12,13],min_reward_threshold:0,mind:53,minim:[2,4,15],minimap_s:29,minimum:[0,7,13,32],mitig:51,mix:[3,7,11,22,23,51],mixedmontecarloalgorithmparamet:19,mixer1:44,mixtur:[19,26],mjkei:44,mjpro150:44,mjpro150_linux:44,mkdir:44,mmc:[19,51],mmc_agent:19,mode:[23,26,28,35,36,41,42,44,53],model:[0,19,21,26,50,52,53],modif:51,modifi:6,modul:[3,38,41,42,52],modular:[38,41,43,50],monitor:42,mont:[3,23],monte_carlo_mixing_r:[19,23],more:[3,8,13,20,26,32,38,40,41,43,44,46,50,52,53],moreov:40,most:[3,10,22,26,27,30,43,47,51,52,53],mostli:[32,41],motiv:41,move:[6,7,11,32,40,47],mp4:0,mse:[2,6,16,17,24],much:[7,11,41,51],mujoco:[29,33,39,44,48],mujoco_kei:44,mujoco_pi:44,multi:[11,26,37,43],multidimension:37,multipl:[4,7,11,20,26,29,30,32,33,34,37,40,41,47,50,53],multipli:[4,10,26,32],multiselect:33,multitask:[29,48],must:[26,32,37,47],mxnet:53,n_step:[22,25,27,34],n_step_discounted_reward:27,n_step_q_ag:20,nabla:[6,8,13],nabla_:[8,12,13],nabla_a:[8,13],naf:51,naf_ag:21,nafalgorithmparamet:21,name:[3,26,27,29,32,37,38,44,52,53],namespac:36,nasm:44,nativ:[0,29,39,48],native_rend:0,navig:3,ndarrai:[3,26,27,29,30,32,33,37,39,52],nearest:22,neat:40,nec:[0,51],nec_ag:22,necalgorithmparamet:22,necessari:[3,22,26,52],necessarili:32,need:[0,3,6,25,26,29,30,37,38,41,47,51,52,53],neg:[4,32],neighbor:22,neon_compon:38,nervanasystem:44,network:[0,3,26,30,38,41,47,50,51,52,53],network_input_tupl:26,network_nam:[3,52],network_param:30,network_paramet:26,network_wrapp:[3,26,52],networkparamet:[3,26,30,38],networkwrapp:[3,52],neural:[3,19,26,43,47],never:26,new_value_shift_coeffici:[22,34],new_weight:26,newli:[23,39,46,51],next:[0,3,8,13,16,17,21,23,24,27,29,41,52,53],next_stat:27,nfs_data_stor:28,nfsdatastoreparamet:28,nice:53,no_accumul:26,node:[26,43],nois:[8,9,13,21,30,41,51],noise_as_percentage_from_action_spac:30,noise_schedul:30,noisi:[10,25,30],non_episod:34,none:[0,3,7,8,11,13,26,27,29,30,32,33,37,39,52],norm:26,norm_unclipped_grad:26,norm_unclippsed_grad:26,normal:[3,4,10,30,31,32,37],note:[22,26,30,52],notebook:38,notic:[26,51],notori:[40,47,51],now:[7,39],nstepqalgorithmparamet:20,nth:25,num_act:[22,34,37],num_bins_per_dimens:33,num_class:34,num_consecutive_playing_step:[3,8,13,52],num_consecutive_training_step:[3,52],num_gpu:0,num_neighbor:34,num_predicted_steps_ahead:4,num_speedup_step:29,num_steps_between_copying_online_weights_to_target:[8,12,13,20],num_steps_between_gradient_upd:[5,6,10,20],num_task:0,num_training_task:0,num_transitions_to_start_replai:6,num_work:0,number:[0,2,4,5,6,8,10,12,13,14,15,20,22,24,25,26,27,29,30,32,33,34,40,48,52,53],number_of_knn:22,numpi:[3,26,27,29,30,32,33,37,39,52],nvidia:44,object:[0,3,25,26,29,30,32,34,41,52],observ:[0,3,4,11,26,27,29,31,39,41,52],observation_reduction_by_sub_parts_name_filt:32,observation_space_s:26,observation_space_typ:29,observation_stat:32,observation_typ:29,observationspac:37,observationspacetyp:29,observationtyp:29,off:[3,6,12,42,46,51,52],offer:[29,48],often:[40,41,43,46],old:[7,11,26,51],old_weight:26,onc:[0,7,10,11,14,15,16,17,19,20,23,24,25,26,37,53],one:[0,3,6,18,22,23,26,27,29,30,31,34,37,39,40,43,46,51,52],ones:[39,51],onli:[0,3,4,5,6,7,10,11,14,15,17,18,20,22,24,25,26,27,29,30,32,33,39,41,51,52,53],onlin:[8,12,13,14,15,16,17,19,20,21,22,23,24,25,26,41,43,46],online_network:26,onnx:[0,26],onto:31,open:[0,29,48],openai:[44,48],opencv:44,oper:[23,26,32],ops:26,optim:[3,4,6,26,45,51],optimization_epoch:7,optimizer_epsilon:26,optimizer_typ:26,option:[6,10,26,29,33,37,38,40,42,43,53],orchestr:[42,44,50],order:[0,3,5,6,7,8,10,11,12,13,16,17,18,20,21,22,23,24,26,27,31,32,33,40,41,43,46,47,51,52],org:[20,34],origin:[20,32,33,47],ornstein:[8,9,30],other:[0,2,10,18,23,26,29,31,32,34,40,41,51],otherwis:[11,14,26,29,30,37],ou_process:30,our:7,out:[2,16,17,30,31,33,40,44,50,51,53],outcom:[30,41],output:[0,4,6,8,13,14,15,21,22,26,30,31,32,37,38,43],output_0_0:26,output_observation_spac:32,outputfilt:41,outsid:[4,30],over:[3,7,10,11,20,22,25,26,27,30,32,33,40,41,51,52],overestim:[8,13,51],overfit:11,overhead:0,overlai:40,overrid:[3,52],override_existing_kei:34,overriden:38,overview:41,overwhelm:41,overwritten:26,own:[26,38],p_j:[15,25],page:[3,47],pair:[0,37],pal:[23,51],pal_ag:23,pal_alpha:23,palalgorithmparamet:23,paper:[5,10,12,15,20,22,24,29,34,47],parallel:[6,26,40,43],parallel_predict:26,param:[3,26,27,28,29,30,35,36,38,39,52],paramet:[2,3,4,5,6,7,8,10,11,12,13,15,19,20,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,38,39,47,50,52,53],parameter_nois:30,parameters_server_host:0,parent:[3,26,52],parent_path_suffix:[3,26,52],parmet:3,pars:41,part:[0,3,14,26,27,30,32,33,42,43,47,51,52],part_nam:32,partial:33,partialdiscreteactionspacemap:33,particular:4,particularli:[29,30,37,47,51],pass:[0,4,8,9,13,21,22,26,29,30,31,39,40,41,43,53],patamet:22,patchelf:44,patchelf_0:44,path:[0,3,26,38,39,44,52,53],pattern:41,pdf:34,penal:[7,8,11,13],penalti:11,pendulum_hac:39,pendulum_with_go:39,pendulumwithgo:39,per:[0,3,4,37,38,41,52],percentag:30,percentil:30,perceptron:43,perform:[0,3,6,26,27,32,34,39,40,41,51,52],period:[43,53],persist:3,persistent_advantage_learn:23,perspect:15,phase:[3,6,7,8,9,11,12,13,26,29,30,41,52],phi:[15,25],physic:[29,48],pi_:[6,7,12],pick:[12,29],pickl:53,pickledreplaybuff:53,pip3:44,pip:44,pixel:29,place:[33,40,41],placehold:[26,30],plai:[0,3,10,14,16,17,20,30,38,40,52],plain:43,planarmap:29,planarmapsobservationspac:32,platform:[29,48],pleas:[20,47],plu:26,plugin:44,point:[32,37,41,42],polici:[1,3,4,5,6,9,12,14,20,21,22,28,38,41,42,43,44,45,46,50,51,52],policy_gradient_rescal:[5,7,10,11],policy_gradients_ag:10,policygradientalgorithmparamet:10,policygradientrescal:[5,7,10,11],policyoptimizationag:38,popul:41,popular:[29,48],port:0,posit:[4,32],possibl:[2,3,4,22,30,33,37,40,43,50,51,52,53],post:[31,50],post_training_command:[3,52],power:[29,48],ppo:[7,11,51],ppo_ag:11,ppoalgorithmparamet:11,pre:[8,13,30,31],predefin:[14,23,30,53],predict:[1,2,3,5,6,7,8,11,12,13,14,15,16,17,23,24,25,26,30,43,51,52],prediction_typ:[3,52],predictiontyp:[3,52],prefect:51,prefer:26,prefix:[3,52],prep:44,prepar:[3,52],prepare_batch_for_infer:[3,52],present:[18,22,26,29,32,51],preset:[0,5,38,39,41,42,44,53],press:[40,53],prevent:[8,11,13,41],previou:32,previous:[11,26],print:[0,3,53],print_networks_summari:0,priorit:[25,34],prioriti:[25,34],privat:37,probabilit:[5,6],probabl:[3,5,6,10,14,15,25,27,30,38,51,52],problem:51,procedur:6,process:[0,3,8,9,26,30,31,32,33,38,40,41,43,46,47,50,52],produc:26,progress:26,project:[15,25],propag:7,propagate_updates_to_dnd:22,properti:[3,26,27,29,34,38,39,44,52],proport:34,provid:[26,42],proxi:41,proxim:3,pub:[35,36,44],publish:47,purpos:[0,3,10],pursuit:2,push:[3,52],pybullet:[29,48],pygam:[0,44],pytest:44,python3:44,python:[29,34,38,44,48,50],q_i:12,qr_dqn_agent:24,quad:6,qualiti:29,quantil:[3,51],quantileregressiondqnalgorithmparamet:24,queri:[22,26,41,51],question:51,quit:[40,46],r_i:[5,20],r_t:[4,6,7,25],rainbow:[3,38,51],rainbow_ag:38,rainbow_dqn_ag:25,rainbowag:38,rainbowagentparamet:38,rainbowalgorithmparamet:38,rainbowdqnalgorithmparamet:25,rainbowexplorationparamet:38,rainbowmemoryparamet:38,rainbownetworkparamet:38,rais:[3,27,52],ramp:[38,41],random:[0,20,29,30,37,41,47],random_initialization_step:29,randomli:[27,41],rang:[4,7,8,11,13,15,25,29,32,33,37,51],rare:22,rate:[0,6,19,22,26,29,43],rate_for_copying_weights_to_target:[6,8,12,13],rather:[4,12,40],ratio:[6,7,11,19,32],ratio_of_replai:6,raw:[29,48],reach:[0,11,37],read:[0,28],read_csv_tri:0,readabl:41,readm:44,real:3,reason:[32,47],rebuild_on_every_upd:34,receiv:[26,27],recent:[3,25,26,51,52],recommend:39,redi:[35,36,44],redispubsub:44,redispubsubmemorybackendparamet:35,reduc:[1,2,10,11,23,26,32,41,51],reduct:32,reduction_method:32,reductionmethod:32,redund:32,refer:[2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,42,44],referenc:3,regard:[3,52],region:[6,51],regist:[3,52],register_sign:[3,52],registri:44,regress:[2,3,51],regula:[6,7,11],regular:[5,7,10,11,20,22,26,30,33,34,51],regularli:26,reinforc:[3,5,8,9,10,12,15,16,17,18,20,23,24,25,29,30,40,41,43,45,47,48,49,51],relat:[26,44],relationship:51,releas:[0,50,51],relev:[3,14,30,32,52],remov:[0,32],render:[0,3,29,39],reorder:32,repeat:[29,41],replac:[30,32,34,44],replace_mse_with_huber_loss:26,replai:[1,2,3,6,8,12,13,14,15,16,17,20,22,23,24,25,34,41,51,52,53],replay_buff:53,replicated_devic:26,repo:39,repositori:50,repres:[0,7,11,15,25,26,27,29,30,33,37,53],represent:43,reproduc:[41,47],request:[3,26,52],requir:[3,26,28,30,32,40,43,44,51,52],requires_action_valu:30,rescal:[4,5,7,10,11,26,31,32],rescale_factor:32,research:[29,47,48],reset:[3,22,26,29,30,39,52],reset_accumulated_gradi:26,reset_evaluation_st:[3,52],reset_gradi:26,reset_internal_st:[3,29,52],resourc:[42,44],respect:[8,13,27,29],respons:[3,27,29,41,52],rest:[26,27,33,44],restart:39,restor:[0,3,52],restore_checkpoint:[3,52],result:[3,4,13,15,16,17,18,24,25,26,32,33,47,51,52,53],ret:6,retrac:6,retri:0,retriev:[22,34],return_additional_data:34,reus:41,reusabl:43,reward:[0,1,2,3,4,8,10,13,19,20,25,26,27,29,31,37,39,40,41,51,52],reward_test_level:0,reward_typ:37,rgb:[29,32,37],rho:[6,8,13],rho_t:6,right:[2,3,6,12,30,33,40,51,52],rl_coach:[0,1,2,3,4,5,6,7,8,10,11,12,13,15,17,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,39,44,52,53],rms_prop_optimizer_decai:26,rmsprop:26,roboschool:[29,48],robot:[29,37,48,50],roboti:44,robust:52,rollout:[28,35,36,42,44,53],root:[40,44],rule:[8,13,14],run:[0,3,4,8,10,11,12,13,14,16,17,22,23,26,29,30,32,52,53],run_off_policy_evalu:[3,52],run_pre_network_filter_for_infer:[3,52],runphas:[3,52],runtim:44,rvert:[15,25],rvert_2:6,s3_bucket_nam:44,s3_creds_fil:44,s3_data_stor:28,s3_end_point:44,s3datastoreparamet:28,s_t:[4,5,6,8,12,13,14,15,16,17,19,20,21,23,25],sac:51,sai:51,same:[3,4,7,10,13,19,20,23,26,29,33,34,40,43,47,51,52],sampl:[1,2,3,5,6,8,10,11,12,13,14,15,16,17,19,20,23,24,25,26,30,34,37,41,44,52],sample_with_info:37,satur:[8,13],save:[0,3,25,26,30,44,52,53],save_checkpoint:[3,52],saver:[3,26,52],savercollect:[3,26,52],scale:[4,10,26,32,40,44,50,53],scale_down_gradients_by_number_of_workers_for_sync_train:26,scale_measurements_target:4,scaler:26,schedul:[7,30,34,41,42,44,53],scheme:[5,30,41,51],schulman:11,sci:44,scienc:47,scipi:[32,44],scope:26,scratch:51,scratchpad:0,screen:[3,29,39,53],screen_siz:29,script:41,second:[0,26,40,51,53],section:[44,45,48],see:[3,29,32,44,47,48,51,52,53],seed:[0,29,47],seen:[4,22,23,29,32,41,47,51],segment:[29,37],select:[5,14,22,26,27,30,32,33,37,39,40,41,50,53],self:[3,26,38,39,52],send:[39,43],separ:[0,3,18,32,33,43,45,46,51],separate_actions_for_throttle_and_brak:29,seper:10,sequenti:[4,27,34],serv:[7,10,43],server:0,server_height:29,server_width:29,sess:[3,26,52],session:[3,26,52],set:[0,2,3,4,5,6,7,8,11,13,15,16,17,19,22,23,25,26,27,29,30,32,33,37,38,42,47,48,50,51,52,53],set_environment_paramet:[3,52],set_goal:29,set_incoming_direct:[3,52],set_is_train:26,set_sess:[3,52],set_variable_valu:26,set_weight:26,setup:[3,44,46,52],setup_logg:[3,52],setuptool:44,sever:[0,3,7,10,11,14,26,29,30,32,38,39,40,41,43,48,51,52,53],shape:[26,32,37],share:[0,3,26,34,43,52],shared_memory_scratchpad:0,shared_optim:26,shift:[33,41],shine:40,should:[0,3,4,7,11,14,20,23,26,27,29,32,34,37,38,39,42,52,53],should_dump:0,shouldn:14,show:47,shown:47,shuffl:[3,27,52],side:[3,52],sigma:[13,30],signal:[3,41,52],signal_nam:[3,52],significantli:18,sim:[6,12],similar:[7,18,20,27,29,33,51],simpl:[10,34,38,39,43,50,51,53],simplest:51,simplif:51,simplifi:[7,40,43],simul:[29,39,46,48,53],simultan:7,sinc:[3,7,8,10,13,20,22,23,25,26,30,32,46,52],singl:[3,4,5,6,7,11,14,18,19,20,26,27,29,30,33,37,40,41,43,52],size:[26,27,30,32,33,34,37],skill:51,skip:[29,41],slave:[3,52],slice:27,slow:[26,51,53],slower:[0,13,18,26],slowli:[8,13],small:[7,13,22,34],smaller:30,smooth:[40,51],soft:[3,8,11,13,21,51],soft_actor_critic_ag:12,softactorcriticalgorithmparamet:12,softmax:[26,30],softmax_temperatur:26,softwar:44,sole:46,solut:51,solv:[32,39,48,50],some:[0,3,11,26,27,30,32,38,39,40,43,46,47,51,52,53],sort:24,sourc:[0,1,2,3,4,5,6,7,8,10,11,12,13,15,17,19,20,21,22,23,24,25,26,27,28,29,30,32,33,34,35,36,37,39,44,48,52],space:[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,29,30,31,32,33,34,41,50,52],spacesdefinit:[3,26,52],spatial:51,spawn:[42,44],special:18,specif:[0,3,14,18,22,26,27,38,41,53],specifi:[0,26,29,30,32,39,42,53],speed:[26,32,51],speedup:53,spread:[32,33],squar:32,squeeze_list:26,squeeze_output:26,src:44,stabil:[6,20,26,51],stabl:[43,51],stack:[3,31,32,37,52],stack_siz:[26,32],stacking_axi:32,stage:43,stai:47,standard:[7,10,11,14,30,32,40,46],starcraft2_environ:29,starcraft2environ:29,starcraft:[37,48],starcraftobservationtyp:29,start:[3,6,8,11,12,13,18,23,27,32,33,39,44,52],state:[1,2,3,4,5,6,7,8,9,10,11,12,13,14,16,17,18,19,20,21,22,23,24,25,26,27,29,32,34,37,38,39,41,43,45,51,52],state_key_with_the_class_index:[2,34],state_spac:29,state_valu:27,statist:[3,10,32,50,52],std:12,stdev:30,steep:30,step:[0,3,4,5,6,7,8,10,11,12,13,14,15,16,17,19,21,22,23,24,25,26,27,29,30,32,38,39,40,41,51,52,53],stepmethod:[8,12,13,20],stochast:[12,41,51],stop:[0,29],store:[0,3,22,25,27,29,32,34,40,41,42,44,50,52,53],store_transitions_only_when_episodes_are_termin:25,str:[0,2,3,4,20,26,27,29,30,32,33,37,52],strategi:[29,48],stream:[18,42],strict:47,string:[0,26,29],structur:[0,3,27,34,38,41,52],stuff:26,style:30,sub:[33,34,35,36,37,38,41,44,53],sub_spac:37,subset:[40,47,51],subtract:23,succeed:29,success:[0,29,51],suffer:40,suffici:27,suffix:[3,26,52],suggest:38,suit:[0,48],suitabl:[42,53],sum:[4,7,10,19,26,27],sum_:[5,12,15,19,20,22,25],summari:[0,3,52],supervis:51,suppli:[3,52],support:[0,3,26,29,30,40,43,44,45,46,48,50,53],sure:[0,3,44,47,52],surrog:7,swig:44,swingup:29,symbol:26,sync:[3,26,41,42,52],synchron:[0,26,41,43],system:46,t_max:[10,20],tag:44,take:[0,3,10,11,18,22,23,26,29,30,31,39,40,41,52],taken:[1,2,4,5,6,7,8,11,12,13,15,18,22,23,24,25,26,27,29,30],tanh:[8,13],tar:44,target:[0,1,2,3,4,5,6,7,8,11,12,13,14,15,16,17,19,20,21,22,23,24,25,26,29,32,33,37,38,41,43,52],target_act:33,target_kl_diverg:11,target_network:26,target_success_r:29,targets_horizon:20,task:[0,1,2,29,32,38,40,48],task_index:0,tau:12,td3:51,td3_agent:13,td3algorithmparamet:13,techniqu:[7,11,50,51],technolog:42,teh:26,temperatur:[26,30],temperature_schedul:30,tensor:[3,26,52],tensorboard:0,tensorflow:[0,3,26,52,53],tensorflow_support:26,term:[6,7,11],termin:[3,8,13,27,41,52],test:[0,3,5,6,8,9,10,11,12,13,26,38,47,50,53],test_using_a_trace_test:0,text:6,textrm:41,than:[0,3,11,13,26,30,40,43,46,52],thei:[3,22,23,26,30,40,41,42,51,52,53],them:[4,5,10,20,26,27,29,32,37,39,40,43],therefor:[0,8,13,26,31,51],theta:[6,7,8,12,13,15,25,30],theta_:[6,7],thi:[0,3,4,5,6,7,8,10,11,13,14,18,20,22,25,26,27,29,30,31,32,33,34,35,37,38,39,40,41,42,43,44,46,47,51,52,53],thing:[40,46],those:[0,3,8,13,14,16,17,18,22,27,30,33,41,43,45,51,52],thousand:[11,14,15,16,17,19,23,24,25],thread:26,three:[3,42,43,44,45],threshold:[11,22,32],through:[0,3,4,8,9,10,11,13,14,22,23,26,38,39,41,43,52],tild:[8,12,13],time:[0,4,23,26,30,33,34,40,43,51],time_limit:39,timestep:[4,10],timid:44,tmp:0,togeth:[3,20,27,41,52],toggl:40,too:11,tool:[40,44,51],top:[26,29,31,32,34,39,40,51],torqu:29,total:[0,3,10,11,19,22,23,27,34,38,40,51,52],total_loss:26,total_return:27,trace:0,trace_max_env_step:0,trace_test_level:0,tradeoff:30,train:[0,3,18,26,30,35,36,38,39,40,41,42,43,46,47,50,51,52],train_and_sync_network:26,train_on_batch:26,train_to_eval_ratio:34,trainer:[28,42],transfer:[29,35,48],transit:[1,2,3,4,5,6,8,10,11,12,13,15,16,17,20,22,23,24,25,34,38,41,42,52],transition_idx:27,tri:51,trick:47,tricki:40,trigger:[29,44],truncat:6,truncated_norm:30,trust:[6,51],ttf2:44,tune:30,tupl:[1,2,3,8,13,26,27,29,34,37,38],turn:[2,51],tutori:[38,39,46],tweak:[3,52],twin:3,two:[8,10,13,20,26,29,30,31,32,33,37,39,42,43,51,53],txt:44,type:[0,3,10,18,26,29,32,37,38,41,43,50,51,52,53],typic:[7,11,26,51,53],ubuntu16:44,uhlenbeck:[8,9,30],uint8:32,unbound:37,uncertain:30,uncertainti:30,unchang:11,unclip:[3,38,52],uncorrel:20,undeploi:42,under:[3,26,38,53],underbrac:5,understand:53,unifi:7,uniformli:[29,30,33,37],union:[3,27,29,30,33,37,52],uniqu:26,unit:40,unlik:11,unmask:33,unnecessari:0,unshar:[3,52],unsign:32,unspecifi:26,unstabl:[40,47],until:[0,6,10,11,22,25,30],unus:26,unzip:44,updat:[3,6,7,8,10,11,12,13,14,15,16,17,18,20,21,22,23,24,25,26,27,30,38,39,40,41,43,44,51,52],update_discounted_reward:27,update_filter_internal_st:[3,52],update_log:[3,52],update_online_network:26,update_step_in_episode_log:[3,52],update_target_network:26,update_transition_before_adding_to_replay_buff:[3,52],upgrad:44,upon:[3,5,38,52],upper:[6,30],usag:[33,46,50],use:[0,1,2,3,4,5,6,8,9,10,12,13,14,16,17,21,26,27,28,29,30,32,33,34,37,38,39,41,43,44,46,50,51,52,53],use_accumulated_reward_as_measur:4,use_cpu:0,use_deterministic_for_evalu:12,use_full_action_spac:29,use_inputs_for_apply_gradi:26,use_kl_regular:[7,11],use_non_zero_discount_for_terminal_st:[8,13],use_separate_networks_per_head:26,use_target_network_for_evalu:[8,13],use_trust_region_optim:6,used:[0,2,3,5,6,7,8,10,11,12,13,14,15,19,20,21,22,23,24,26,29,30,32,33,34,35,36,38,39,41,42,43,46,47,52,53],useful:[0,3,4,25,26,30,32,37,47,51,52,53],user:[26,29,30,40,41,44],userguid:44,uses:[0,1,7,11,18,27,28,30,36,41,42,44,47,51,53],using:[0,3,5,6,7,8,10,11,12,13,16,17,19,20,21,22,23,25,26,28,29,30,32,35,38,39,40,42,46,48,51,52,53],usr:44,usual:[32,41],util:[3,40,52],v_max:15,v_min:15,val:[3,37,52],valid:[0,37],valu:[0,2,3,4,5,6,7,8,11,12,13,14,15,16,17,18,20,21,22,23,25,26,27,29,30,32,33,34,37,38,41,43,44,45,51,52],valuabl:40,value_targets_mix_fract:[7,11],valueexcept:[3,52],valueoptimizationag:38,van:4,vari:43,variabl:[26,29,44],variable_scop:26,varianc:[10,30,40,51],variant:[30,34,51],variou:[3,27,34,50],vector:[3,4,8,9,11,13,14,26,29,32,37,39,43,51,52],vectorobservationspac:32,verbos:29,veri:[0,7,8,10,13,18,22,40,51,53],version:[7,11,27],versu:26,vert:12,vertic:26,via:[2,14],video:[0,3,29],video_dump_method:0,view:40,viewabl:[3,52],visit:47,visual:[0,3,29,48,50],visualization_paramet:29,visualizationparamet:[3,29],vizdoom:[44,48],vote:30,wai:[3,7,11,30,33,39,41,43,50,51,52,53],wait:[5,26,42],walk:39,want:[3,4,25,26,32,33,34,46,52],warn:[30,32,33],wasn:27,weather_id:29,websit:[29,50],weight:[4,5,6,7,8,11,12,13,14,15,16,17,19,20,21,22,23,24,25,26,30,41,43,51],well:[22,26,30,37,51],went:11,were:[4,15,16,17,18,22,24,25,26,27,33,47],west:44,wget:44,what:[11,46,51],whatev:[3,52],when:[0,3,4,5,6,7,8,9,10,11,12,13,22,26,27,28,29,30,32,35,36,38,39,40,52,53],whenev:42,where:[2,3,4,5,6,7,11,14,15,18,20,22,23,25,26,27,29,30,32,33,37,40,46,51,52],whether:30,which:[0,1,2,3,5,6,7,8,10,11,12,13,14,18,20,21,22,23,24,26,27,28,29,30,32,34,35,36,37,38,39,40,41,42,43,45,46,47,48,50,51,52,53],who:41,why:[40,41],window:[32,33],wise:32,within:[0,7,11,21,30,37,40],without:[5,11,33,34,40,51,53],won:[4,26],wont:26,work:[3,20,26,30,32,33,40,41,51,52,53],workaround:0,workdir:44,worker:[0,20,26,28,32,34,35,36,40,42,43,44,51,53],worker_devic:26,worker_host:0,wors:51,would:[26,44,46,51],wrap:[29,32,41,48],wrapper:[3,26,27,29,37,43,52],write:[0,3,52],written:[3,25,28,52],www:44,xdist:44,y_t:[8,12,13,14,16,17,19,21,22,23],year:51,yet:[18,39],you:[4,32,34,38,39,44,50,53],your:[38,39,44,53],yuv:32,z_i:[15,25],z_j:[15,25],zero:[2,13,16,17],zip:44,zlib1g:44},titles:["Additional Parameters","Behavioral Cloning","Conditional Imitation Learning","Agents","Direct Future Prediction","Actor-Critic","ACER","Clipped Proximal Policy Optimization","Deep Deterministic Policy Gradient","Hierarchical Actor Critic","Policy Gradient","Proximal Policy Optimization","Soft Actor-Critic","Twin Delayed Deep Deterministic Policy Gradient","Bootstrapped DQN","Categorical DQN","Double DQN","Deep Q Networks","Dueling DQN","Mixed Monte Carlo","N-Step Q Learning","Normalized Advantage Functions","Neural Episodic Control","Persistent Advantage Learning","Quantile Regression DQN","Rainbow","Architectures","Core Types","Data Stores","Environments","Exploration Policies","Filters","Input Filters","Output Filters","Memories","Memory Backends","Orchestrators","Spaces","Adding a New Agent","Adding a New Environment","Coach Dashboard","Control Flow","Distributed Coach - Horizontal Scale-Out","Network Design","Usage - Distributed Coach","Algorithms","Batch Reinforcement Learning","Benchmarks","Environments","Features","Reinforcement Learning Coach","Selecting an Algorithm","test","Usage"],titleterms:{"final":22,"function":21,"new":[38,39],"switch":53,Adding:[38,39],Using:39,acer:6,across:51,action:[4,5,6,7,8,9,10,11,12,13,14,21,22,33,37,51],actioninfo:27,actor:[5,9,12],addit:[0,53],additivenois:30,advantag:[21,23],agent:[3,38,41,53],algorithm:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19,20,21,22,23,24,25,45,51,53],api:39,architectur:26,attentionactionspac:37,backend:35,balancedexperiencereplai:34,batch:[27,46],behavior:1,benchmark:47,between:53,blizzard:29,boltzmann:30,bootstrap:[14,30],boxactionspac:37,build:44,can:51,carla:29,carlo:19,categor:[15,30],choos:[4,5,6,7,8,9,10,11,12,13,14,21,22],clip:7,clone:[1,44],coach:[39,40,42,44,50],collect:51,compar:40,compoundactionspac:37,condit:2,config:44,contain:44,continu:[7,11,12,51],continuousentropi:30,control:[22,29,41],copi:43,core:27,creat:44,critic:[5,9,12],dashboard:40,data:28,deep:[8,13,17,53],deepmind:29,delai:13,demonstr:51,descript:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25],design:43,determinist:[8,13],direct:4,discret:[5,6,10,51],discreteactionspac:37,distribut:[42,44],distributedtaskparamet:0,doe:51,doubl:16,dqn:[14,15,16,18,24],duel:18,dump:53,egreedi:30,environ:[29,39,48,51,53],envrespons:27,episod:[22,27,34],episodicexperiencereplai:34,episodichindsightexperiencereplai:34,episodichrlhindsightexperiencereplai:34,evalu:53,experiencereplai:34,explor:30,explorationpolici:30,featur:49,file:44,filter:[31,32,33],flag:53,flow:41,framework:53,from:51,futur:4,gener:18,gif:53,goal:37,gradient:[8,10,13],graph:41,greedi:30,gym:[29,39],have:51,hierarch:9,horizont:42,human:[51,53],imag:44,imageobservationspac:37,imit:[2,53],implement:44,input:32,interfac:44,keep:43,kubernet:36,learn:[2,20,23,46,50,53],level:41,manag:41,memori:[34,35],mix:19,mont:19,more:51,multi:53,multipl:51,multiselectactionspac:37,network:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,43],networkwrapp:26,neural:22,nfsdatastor:28,node:[51,53],non:34,normal:21,observ:[32,37],observationclippingfilt:32,observationcropfilt:32,observationmoveaxisfilt:32,observationnormalizationfilt:32,observationreductionbysubpartsnamefilt:32,observationrescalesizebyfactorfilt:32,observationrescaletosizefilt:32,observationrgbtoyfilt:32,observationsqueezefilt:32,observationstackingfilt:32,observationtouint8filt:32,openai:[29,39],optim:[7,11],orchestr:36,ouprocess:30,out:42,output:33,pain:51,parallel:51,paramet:0,parameternois:30,persist:23,plai:53,planarmapsobservationspac:37,polici:[7,8,10,11,13,30],predict:4,prerequisit:44,presetvalidationparamet:0,prioritizedexperiencereplai:34,process:51,proxim:[7,11],push:44,qdnd:34,quantil:24,rainbow:25,redispubsubbackend:35,regress:24,reinforc:[46,50],render:53,repositori:44,reward:32,rewardclippingfilt:32,rewardnormalizationfilt:32,rewardrescalefilt:32,run:[40,44],s3datastor:28,sampl:51,scale:42,select:51,signal:40,simul:51,singl:53,singleepisodebuff:34,soft:12,solv:51,space:[37,51],starcraft:29,statist:40,step:20,store:[14,28],structur:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25],suit:29,support:42,sync:43,synchron:42,task:51,taskparamet:0,test:52,thread:53,through:53,track:40,train:[1,2,4,5,6,7,8,9,10,11,12,13,14,15,16,17,19,20,21,22,23,24,25,53],transit:[14,27],transitioncollect:34,truncatednorm:30,twin:13,type:[27,42],ucb:30,usag:[44,53],vectorobservationspac:37,visual:[40,53],visualizationparamet:0,vizdoom:29,you:51,your:51}})
\ No newline at end of file
diff --git a/docs/selecting_an_algorithm.html b/docs/selecting_an_algorithm.html
index f38ace9..fce88a8 100644
--- a/docs/selecting_an_algorithm.html
+++ b/docs/selecting_an_algorithm.html
@@ -38,7 +38,7 @@
     <link rel="index" title="Index" href="genindex.html" />
     <link rel="search" title="Search" href="search.html" />
     <link rel="next" title="Coach Dashboard" href="dashboard.html" />
-    <link rel="prev" title="Benchmarks" href="features/benchmarks.html" />
+    <link rel="prev" title="Batch Reinforcement Learning" href="features/batch_rl.html" />
     <link href="_static/css/custom.css" rel="stylesheet" type="text/css">
 
 </head>
@@ -475,7 +475,7 @@ algorithms for imitation learning in Coach.</p>
         <a href="dashboard.html" class="btn btn-neutral float-right" title="Coach Dashboard" accesskey="n" rel="next">Next <span class="fa fa-arrow-circle-right"></span></a>
       
       
-        <a href="features/benchmarks.html" class="btn btn-neutral float-left" title="Benchmarks" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left"></span> Previous</a>
+        <a href="features/batch_rl.html" class="btn btn-neutral float-left" title="Batch Reinforcement Learning" accesskey="p" rel="prev"><span class="fa fa-arrow-circle-left"></span> Previous</a>
       
     </div>
   
diff --git a/docs/test.html b/docs/test.html
index 0798236..f95618f 100644
--- a/docs/test.html
+++ b/docs/test.html
@@ -439,7 +439,7 @@ given observation</p>
 
 <dl class="method">
 <dt id="rl_coach.agents.dqn_agent.DQNAgent.prepare_batch_for_inference">
-<code class="sig-name descname">prepare_batch_for_inference</code><span class="sig-paren">(</span><em class="sig-param">states: Union[Dict[str, numpy.ndarray], List[Dict[str, numpy.ndarray]]], network_name: str</em><span class="sig-paren">)</span> &#x2192; Dict[str, numpy.core.multiarray.array]<a class="headerlink" href="#rl_coach.agents.dqn_agent.DQNAgent.prepare_batch_for_inference" title="Permalink to this definition">¶</a></dt>
+<code class="sig-name descname">prepare_batch_for_inference</code><span class="sig-paren">(</span><em class="sig-param">states: Union[Dict[str, numpy.ndarray], List[Dict[str, numpy.ndarray]]], network_name: str</em><span class="sig-paren">)</span> &#x2192; Dict[str, numpy.array]<a class="headerlink" href="#rl_coach.agents.dqn_agent.DQNAgent.prepare_batch_for_inference" title="Permalink to this definition">¶</a></dt>
 <dd><p>Convert curr_state into input tensors tensorflow is expecting. i.e. if we have several inputs states, stack all
 observations together, measurements together, etc.</p>
 <dl class="field-list simple">
diff --git a/docs_raw/source/index.rst b/docs_raw/source/index.rst
index 7fb5224..f47ce0b 100644
--- a/docs_raw/source/index.rst
+++ b/docs_raw/source/index.rst
@@ -27,7 +27,9 @@ Blog posts from the Intel® AI website:
 
 * `Release 0.11.0 <https://ai.intel.com/rl-coach-data-science-at-scale/>`_
 
-* Release 0.12.0 (current release)
+* `Release 0.12.0 <https://github.com/NervanaSystems/coach/releases/tag/v0.12.0>`_
+
+* `Release 1.0.0 <https://www.intel.ai/rl-coach-new-release>`_ (current release)
 
 You can find more details in the `GitHub repository <https://github.com/NervanaSystems/coach>`_.
 
@@ -75,5 +77,3 @@ You can find more details in the `GitHub repository <https://github.com/NervanaS
    components/core_types
    components/spaces
    components/additional_parameters
-
-
diff --git a/tutorials/0. Quick Start Guide.ipynb b/tutorials/0. Quick Start Guide.ipynb
index 4790cb7..121a6e6 100644
--- a/tutorials/0. Quick Start Guide.ipynb	
+++ b/tutorials/0. Quick Start Guide.ipynb	
@@ -7,6 +7,21 @@
     "# Getting Started Guide"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "## Table of Contents\n",
+    "- [Using Coach from the Command Line](#Using-Coach-from-the-Command-Line)\n",
+    "- [Using Coach as a Library](#Using-Coach-as-a-Library)\n",
+    "    - [Preset based - using `CoachInterface`](#Preset-based---using-CoachInterface)\n",
+    "        - [Training a preset](#Training-a-preset)\n",
+    "        - [Running each training or inference iteration manually](#Running-each-training-or-inference-iteration-manually)\n",
+    "    - [Non-preset - using `GraphManager` directly](#Non-preset---using-GraphManager-directly)\n",
+    "        - [Training an agent with a custom Gym environment](#Training-an-agent-with-a-custom-Gym-environment)\n",
+    "        - [Advanced functionality - proprietary exploration policy, checkpoint evaluation](#Advanced-functionality---proprietary-exploration-policy,-checkpoint-evaluation)"
+   ]
+  },
   {
    "cell_type": "markdown",
    "metadata": {},
@@ -54,11 +69,7 @@
    "source": [
     "Alternatively, Coach can be used a library directly from python. As described above, Coach uses the presets mechanism to define the experiments. A preset is essentially a python module which instantiates a `GraphManager` object. The graph manager is a container that holds the agents and the environments, and has some additional parameters for running the experiment, such as visualization parameters. The graph manager acts as the scheduler which orchestrates the experiment.\n",
     "\n",
-    "Running Coach directly from python is done through a `CoachInterface` object, which uses the same arguments as the command line invocation but allowes for more flexibility and additional control of the training/inference process.\n",
-    "\n",
-    "Let's start with some examples.\n",
-    "\n",
-    "Creating a very simple graph containing a single Clipped PPO agent running with the CartPole-v0 Gym environment:"
+    "**Note: Each one of the examples in this section is independent, so notebook kernels need to be restarted before running it. Make sure you run the next cell before running any of the examples.**"
    ]
   },
   {
@@ -75,7 +86,28 @@
     "if module_path not in sys.path:\n",
     "    sys.path.append(module_path)\n",
     "if resources_path not in sys.path:\n",
-    "    sys.path.append(resources_path)"
+    "    sys.path.append(resources_path)\n",
+    " \n",
+    "from rl_coach.coach import CoachInterface"
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### Preset based - using `CoachInterface`\n",
+    "\n",
+    "The basic method to run Coach directly from python is  through a `CoachInterface` object, which uses the same arguments as the command line invocation but allowes for more flexibility and additional control of the training/inference process.\n",
+    "\n",
+    "Let's start with some examples."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "#### Training a preset\n",
+    "In this example, we'll create a very simple graph containing a Clipped PPO agent running with the CartPole-v0 Gym environment. `CoachInterface` has a few useful parameters such as `custom_parameter` that enables overriding preset settings, and other optional parameters enabling control over the training process. We'll override the preset's schedule parameters, train with a single rollout worker, and save checkpoints every 10 seconds:"
    ]
   },
   {
@@ -84,17 +116,11 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from rl_coach.coach import CoachInterface\n",
-    "\n",
     "coach = CoachInterface(preset='CartPole_ClippedPPO',\n",
-    "                       custom_parameter='heatup_steps=EnvironmentSteps(5);improve_steps=TrainingSteps(3)')"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "Running the graph according to the given schedule:"
+    "                       # The optional custom_parameter enables overriding preset settings\n",
+    "                       custom_parameter='heatup_steps=EnvironmentSteps(5);improve_steps=TrainingSteps(3)',\n",
+    "                       # Other optional parameters enable easy access to advanced functionalities\n",
+    "                       num_workers=1, checkpoint_save_secs=10)"
    ]
   },
   {
@@ -110,7 +136,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### Running each phase manually"
+    "#### Running each training or inference iteration manually"
    ]
   },
   {
@@ -126,70 +152,37 @@
    "metadata": {},
    "outputs": [],
    "source": [
-    "from rl_coach.core_types import EnvironmentSteps\n",
-    "\n",
-    "coach.graph_manager.heatup(EnvironmentSteps(100))\n",
-    "for _ in range(10):\n",
-    "    coach.graph_manager.train_and_act(EnvironmentSteps(50))"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "### Additional functionality"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "`CoachInterface` allows for easy access to functionalities such as multi-threading and saving checkpoints:"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "coach = CoachInterface(preset='CartPole_ClippedPPO', num_workers=2, checkpoint_save_secs=10)\n",
-    "coach.run()"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "### Agent functionality"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "When using `CoachInterface` (single agent with one level of hierarchy) it's also possible to easily use the `Agent` object functionality, such as logging and reading signals and applying the policy the agent has learned on a given state:"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "from rl_coach.environments.gym_environment import GymEnvironment,  GymVectorEnvironment\n",
+    "from rl_coach.environments.gym_environment import GymEnvironment, GymVectorEnvironment\n",
     "from rl_coach.base_parameters import VisualizationParameters\n",
     "from rl_coach.core_types import EnvironmentSteps\n",
     "\n",
     "coach = CoachInterface(preset='CartPole_ClippedPPO')\n",
     "\n",
+    "# registering an iteration signal before starting to run\n",
+    "coach.graph_manager.log_signal('iteration', -1)\n",
+    "\n",
+    "coach.graph_manager.heatup(EnvironmentSteps(100))\n",
+    "\n",
     "# training\n",
     "for it in range(10):\n",
+    "    # logging the iteration signal during training\n",
     "    coach.graph_manager.log_signal('iteration', it)\n",
+    "    # using the graph manager to train and act a given number of steps\n",
     "    coach.graph_manager.train_and_act(EnvironmentSteps(100))\n",
+    "    # reading signals during training\n",
     "    training_reward = coach.graph_manager.get_signal_value('Training Reward')"
    ]
   },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "Sometimes we may want to track the agent's decisions, log or maybe even modify them.\n",
+    "We can access the agent itself through the `CoachInterface` as follows. \n",
+    "\n",
+    "Note that we also need an instance of the environment to do so. In this case we use instantiate a `GymEnvironment` object with the CartPole `GymVectorEnvironment`:"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": null,
@@ -200,29 +193,41 @@
     "env_params = GymVectorEnvironment(level='CartPole-v0')\n",
     "env = GymEnvironment(**env_params.__dict__, visualization_parameters=VisualizationParameters())\n",
     "\n",
-    "for it in range(10):\n",
-    "    action_info = coach.graph_manager.get_agent().choose_action(env.state)\n",
-    "    print(\"State:{}, Action:{}\".format(env.state,action_info.action))\n",
-    "    env.step(action_info.action)"
+    "response = env.reset_internal_state()\n",
+    "for _ in range(10):\n",
+    "    action_info = coach.graph_manager.get_agent().choose_action(response.next_state)\n",
+    "    print(\"State:{}, Action:{}\".format(response.next_state,action_info.action))\n",
+    "    response = env.step(action_info.action)\n",
+    "    print(\"Reward:{}\".format(response.reward))"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "## Using GraphManager Directly"
+    "### Non-preset - using `GraphManager` directly"
    ]
   },
   {
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "It is also possible to invoke coach directly in the python code without defining a preset (which is necessary for `CoachInterface`) by using the `GraphManager` object directly. Using Coach this way won't allow you access functionalities such as multi-threading, but it might be convenient if you don't want to define a preset file.\n",
+    "It is also possible to invoke coach directly in the python code without defining a preset (which is necessary for `CoachInterface`) by using the `GraphManager` object directly. Using Coach this way won't allow you access functionalities such as multi-threading, but it might be convenient if you don't want to define a preset file."
+   ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "#### Training an agent with a custom Gym environment\n",
     "\n",
-    "Here we show an example of how to do so with a custom environment.\n",
-    "We can use a custom gym environment without registering it. \n",
-    "We just need the path to the environment module.\n",
-    "We can also pass custom parameters for the environment `__init__` function as `additional_simulator_parameters`."
+    "Here we show an example of how to use the `GraphManager` to train an agent on a custom Gym environment.\n",
+    "\n",
+    "We first construct a `GymEnvironmentParameters` object describing the environment parameters. For Gym environments with vector observations, we can use the more specific `GymVectorEnvironment` object. \n",
+    "\n",
+    "The path to the custom environment is defined in the `level` parameter and it can be the absolute path to its class (e.g. `'/home/user/my_environment_dir/my_environment_module.py:MyEnvironmentClass'`) or the relative path to the module as in this example. In any case, we can use the custom gym environment without registering it.\n",
+    "\n",
+    "Custom parameters for the environment's `__init__` function can be passed as `additional_simulator_parameters`."
    ]
   },
   {
@@ -269,23 +274,7 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "The path to the environment can also be set as an absolute path, as follows: `<absolute python module path>:<environment class>`. For example:"
-   ]
-  },
-  {
-   "cell_type": "code",
-   "execution_count": null,
-   "metadata": {},
-   "outputs": [],
-   "source": [
-    "env_params = GymVectorEnvironment(level='/home/user/my_environment_dir/my_environment_module.py:MyEnvironmentClass')"
-   ]
-  },
-  {
-   "cell_type": "markdown",
-   "metadata": {},
-   "source": [
-    "### Advanced functionality - proprietary exploration policy, checkpoint evaluation"
+    "#### Advanced functionality - proprietary exploration policy, checkpoint evaluation"
    ]
   },
   {
@@ -416,6 +405,13 @@
     "# Clearning up\n",
     "shutil.rmtree(my_checkpoint_dir)"
    ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": []
   }
  ],
  "metadata": {