forge · live training

5H47sFL6-base-reset-qwen35·step 16,247

statusrunning

runtime19d 18h

last seen—

loss5.57e-4

kl6.76e-4

grad_norm2.125

reward μ0.5703

steps / h34target met

lr4.72e-6

gpu util0.0%

gpu mem0.0%

ai advisor

reading the last 160 points…

model quality

computing quality signals…

validator rejections

tailing validator logs over ssh…

PPO lossprimary objective

KL divergencebudget kl_beta = 0.04

grad_normclip @ 1

learning ratecosine schedule

rewardsmean ± std

degenerate-group ratiozero-variance reward groups

valid rollout ratioGRAIL accepted / submitted

model improvement · checkpoint evals

held-out pass@1 · math + code

model-improvement evalscheckpoint benchmarks stream once the eval pipeline publishes to R2

gpu util

0.0%

gpu mem

0.0%

sm occupancy

0.0%

gpu temp

28°C

power

114 W