new traces

2026-07-09 10:56:33 +02:00 · 2018-09-12 15:29:42 +03:00
parent 673911ff7f
commit fa4895f840
76 changed files with 12786 additions and 12606 deletions
@@ -1,6 +1,6 @@
-Episode #,Training Iter,In Heatup,ER #Transitions,ER #Episodes,Episode Length,Total steps,Epsilon,Shaped Training Reward,Training Reward,Update Target Network,Evaluation Reward,Shaped Evaluation Reward,Success Rate,Loss/Mean,Loss/Stdev,Loss/Max,Loss/Min,Learning Rate/Mean,Learning Rate/Stdev,Learning Rate/Max,Learning Rate/Min,Grads (unclipped)/Mean,Grads (unclipped)/Stdev,Grads (unclipped)/Max,Grads (unclipped)/Min,Q/Mean,Q/Stdev,Q/Max,Q/Min
-1,0.0,1.0,986.0,986.0,986.0,986.0,7.0,,,0.0,,,,,,,,,,,,,,,,,,,
-2,0.0,1.0,1806.0,1806.0,820.0,1806.0,4.0,,,0.0,,,,,,,,,,,,,,,,,,,
-3,206.0,0.0,2629.0,2629.0,823.0,2629.0,5.0,-21.0,-21.0,0.0,,,,0.01375627432677452,0.013505330839893808,0.06677445024251938,0.0005553220980800688,0.0002500000000000001,1.0842021724855042e-19,0.00025,0.00025,0.013602738,0.0048916726,0.034245104,0.0056978124,,,,
-4,398.0,0.0,3397.0,3397.0,768.0,3397.0,3.0,-21.0,-21.0,0.0,,,,0.014156610367839068,0.013173363350960334,0.059119727462530136,0.0007080046343617141,0.0002500000000000001,5.421010862427521e-20,0.00025,0.00025,0.012839798999999999,0.0038416919,0.024480136,0.005681609000000001,,,,
-5,617.0,0.0,4274.0,4274.0,877.0,4274.0,6.0,-21.0,-21.0,0.0,,,,0.015369139484674181,0.01463229484329247,0.08113615959882736,0.0005487628513947129,0.0002500000000000001,1.0842021724855042e-19,0.00025,0.00025,0.014249632,0.005901839599999999,0.04092761,0.004881437,0.004008428,0.016476048,0.028364737,-0.026583625
+Episode #,Training Iter,In Heatup,ER #Transitions,ER #Episodes,Episode Length,Total steps,Epsilon,Shaped Training Reward,Training Reward,Update Target Network,Evaluation Reward,Shaped Evaluation Reward,Success Rate,Loss/Mean,Loss/Stdev,Loss/Max,Loss/Min,Learning Rate/Mean,Learning Rate/Stdev,Learning Rate/Max,Learning Rate/Min,Grads (unclipped)/Mean,Grads (unclipped)/Stdev,Grads (unclipped)/Max,Grads (unclipped)/Min,Discounted Return/Mean,Discounted Return/Stdev,Discounted Return/Max,Discounted Return/Min,Q/Mean,Q/Stdev,Q/Max,Q/Min
+1,0.0,1.0,986.0,986.0,986.0,986.0,7.0,,,0.0,,,,,,,,,,,,,,,,-1.8205545076821419,0.7192845707051421,-0.2081522550905921,-3.1698994392478896,,,,
+2,0.0,1.0,1806.0,1806.0,820.0,1806.0,4.0,,,0.0,,,,,,,,,,,,,,,,-2.3370969394351864,0.575288014748253,-0.7105532272722921,-3.355172823288848,,,,
+3,206.0,0.0,2629.0,2629.0,823.0,2629.0,5.0,-21.0,-21.0,0.0,,,,0.013241646022737044,0.013426115799074972,0.06692679971456528,0.000705955782905221,0.0002500000000000001,1.0842021724855042e-19,0.00025,0.00025,0.012983278999999999,0.004881826,0.032856163,0.00533005,-2.3342722836314502,0.7834970909114538,-0.38878391807422696,-3.369599601005491,,,,
+4,398.0,0.0,3397.0,3397.0,768.0,3397.0,3.0,-21.0,-21.0,0.0,,,,0.014017146643709566,0.013581066769959666,0.06306872516870499,0.0006765050929971039,0.0002500000000000001,5.421010862427521e-20,0.00025,0.00025,0.012632045,0.004335136,0.02522624,0.005467761,-2.4495140411664926,0.5558315778011723,-0.7105532272722921,-3.354852824180864,,,,
+5,617.0,0.0,4274.0,4274.0,877.0,4274.0,6.0,-21.0,-21.0,0.0,,,,0.014781689254851953,0.014562911817935488,0.07851850241422652,0.0011200609151273966,0.0002500000000000001,1.0842021724855042e-19,0.00025,0.00025,0.012727573999999998,0.004514621,0.035298187,0.0072377953000000005,-2.24386277951745,0.7822289069788971,-0.3810471181045498,-3.3685376079191567,-0.017959576,0.016207013,0.0050252294,-0.04572457