6704d66cd5
Nuovo kernel _jit_top_max_per_variant: prange esterno sulle varianti invece di n_vars chiamate JIT separate via ThreadPoolExecutor. Wrapper Python top_max_per_variant prepara buffer flat (offsets + dx_flat/dy_flat/bins_flat) e bg per scala. Default batch_top=False perche su benchmark realistici (Linux 13 core, 72-180 varianti) ThreadPoolExecutor + kernel singolo che rilascia GIL e gia ottimale. Path batch_top=True utile come opzione per scenari con n_vars >>> n_threads o overhead chiamate JIT dominante. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>