Episode #,Training Iter,In Heatup,ER #Transitions,ER #Episodes,Episode Length,Total steps,Epsilon,Shaped Training Reward,Training Reward,Update Target Network,Evaluation Reward,Shaped Evaluation Reward,Success Rate,Loss/Mean,Loss/Stdev,Loss/Max,Loss/Min,Learning Rate/Mean,Learning Rate/Stdev,Learning Rate/Max,Learning Rate/Min,Grads (unclipped)/Mean,Grads (unclipped)/Stdev,Grads (unclipped)/Max,Grads (unclipped)/Min,Q/Mean,Q/Stdev,Q/Max,Q/Min
1,0.0,1.0,1117.0,1117.0,1117.0,1117.0,1.0,,,0.0,,,,,,,,,,,,,,,,,,,
2,210.0,0.0,1958.0,1958.0,841.0,1958.0,0.999167410000018,-20.0,-20.0,0.0,,,,37.30497363862537,40.199281603456505,153.4302520751953,2.467848777770996,5.000000000000001e-05,6.776263578034403e-21,5e-05,5e-05,14.603501000000001,10.578437,80.69334,3.9762766000000003,,,,
3,402.0,0.0,2726.0,2726.0,768.0,2726.0,0.9984070900000346,-21.0,-21.0,0.0,,,,38.07947255298495,43.23459368266095,241.53515625,2.320526123046875,5.0000000000000016e-05,1.3552527156068802e-20,5e-05,5e-05,32.867527,23.103817000000003,127.04106999999999,8.249042,-0.01784491027499219,0.007088911611692895,-0.009264047715696506,-0.027098445154260846
4,601.0,0.0,3519.0,3519.0,793.0,3519.0,0.9976220200000516,-21.0,-21.0,0.0,,,,40.78985584680758,36.92834222767065,138.93878173828122,2.9669189453125,5e-05,0.0,5e-05,5e-05,62.59441999999999,33.358902,183.7286,26.568246999999996,-0.039346434755522436,0.004771626651866583,-0.03437434455496259,-0.04845772998523898
5,809.0,0.0,4352.0,4352.0,833.0,4352.0,0.9967973500000696,-21.0,-21.0,0.0,,,,34.69845709204674,35.17935046195014,175.6295623779297,2.969444751739502,5.0000000000000016e-05,1.3552527156068802e-20,5e-05,5e-05,54.865233999999994,28.737910999999997,232.94142000000002,26.412553999999997,-0.03589245805727842,0.005320110982296958,-0.028433983605063988,-0.045204031605389904