# Gate Phase 1 — Decision Memo **Data**: 10 maggio 2026 **Run analizzati**: phase1-real-001 (in attesa di completamento; eventuali run successivi listati qui) **Spesa totale Phase 1**: $TBD di $700 cap (=TBD%) **Tempo speso Phase 1**: TBD settimane (calendar) **Status**: TEMPLATE — completare con numeri reali a fine run. --- ## 1. Premessa Questo memo formalizza la valutazione dei 5 hard gate definiti nello spec strategico (`docs/superpowers/specs/2026-05-09-decisione-strategica-design.md`, sez. 4.4) sulla base dei risultati della/e run reale/i. Segue la regola "mai self-approve": **author pass** seguito da **review pass adversarial** prima della decisione formale. I gate sono numerici per costruzione: PASS o FAIL è meccanico, non discrezionale. Discrezionale è solo l'azione successiva quando uno o più gate falliscono. --- ## 2. Author pass — valutazione hard gate ### Gate 1 — Loop converge **Soglia**: la fitness mediana della popolazione cresce per ≥3 generazioni consecutive prima di plateau. **Misura osservata**: | Generazione | Median fitness | Variazione | |---|---|---| | 0 | TBD | — | | 1 | TBD | TBD | | 2 | TBD | TBD | | 3 | TBD | TBD | | 4 | TBD | TBD | | 5 | TBD | TBD | | 6 | TBD | TBD | | 7 | TBD | TBD | | 8 | TBD | TBD | | 9 | TBD | TBD | Numero di generazioni consecutive con crescita: **TBD**. **Esito**: PASS / FAIL **Razionale**: TBD. --- ### Gate 2 — Output formalizzabile **Soglia**: ≥80% delle proposte LLM passano il parser S-expression senza intervento manuale. **Misura osservata**: - Evaluations totali: TBD - Parse success: TBD (= TBD%) - Parse error: TBD Distribuzione errori più frequenti: - TBD **Esito**: PASS / FAIL **Razionale**: TBD. --- ### Gate 3 — Tail superiore **Soglia**: i top-5 genomi hanno DSR in-sample ≥ 1.5x la mediana di popolazione. **Misura osservata**: - Median DSR popolazione: TBD - Top-5 DSR: TBD, TBD, TBD, TBD, TBD - Top-5 mediano: TBD - Ratio (top-5 mediano / pop median): TBD **Esito**: PASS / FAIL **Razionale**: TBD. --- ### Gate 4 — Diversità non collassa **Soglia**: entropia della distribuzione di fitness in popolazione > 0.5 a fine run. **Misura osservata**: - Entropy generazione finale: TBD - Entropy iniziale (gen 0): TBD - Trend entropy: TBD **Esito**: PASS / FAIL **Razionale**: TBD. --- ### Gate 5 — Cost predictability **Soglia**: spesa effettiva entro ±30% della stima preventivata ($500-700 per Phase 1). **Misura osservata**: - Stima preventivo: $500-700 (mid $600) - Spesa reale: $TBD (somma `total_cost_usd` su tutti i run Phase 1) - Deviazione: TBD% **Esito**: PASS / FAIL **Razionale**: TBD. --- ## 3. Soft observations (informative, non vincolanti) - **Diversità cognitiva**: cognitive_style sopravvissuti a fine run: TBD su 6 originali. - **Top-5 ispezione qualitativa**: i top genomi propongono strategie strutturalmente diverse o sono cloni? TBD. - **Failure mode parser**: tassonomia degli errori parse dominanti (TBD). - **Cerbero/Deribit data quality**: gap nei dati storici, anomalie. TBD. --- ## 4. Author pass — conclusione **Esito complessivo author pass**: PASS / FAIL / PARTIAL Hard gate falliti (se presenti): TBD. **Decisione raccomandata dall'autore**: - [ ] GO Phase 2 (specificare aggiustamenti) - [ ] ITERATE Phase 1 (specificare cosa cambiare prima di un nuovo run) - [ ] PIVOT (specificare dominio o approach alternativo) - [ ] STOP (specificare razionale + learnings) **Razionale autore**: TBD. --- ## 5. Review pass — red team adversarial **Modalità review pass**: subagent Claude red-team / collega umano / fresh-eyes 48h. *(Selezionare e documentare).* **Critiche strutturate ricevute**: 1. **Cherry-picking**: i numeri sopra sono stati cherry-picked? Quali run sono stati esclusi e perché? TBD. 2. **Statistical robustness**: i gate basati su DSR usano `n_trials` corretto? Bonferroni applicato? TBD. 3. **Overfitting al training**: c'è hold-out genuino o tutta la valutazione è in-sample? TBD. 4. **Diversità apparente vs reale**: signal correlation fra top-5 misurata? Possono essere cloni che hanno solo prompt diversi? TBD. 5. **Cost trap**: la spesa è entro budget ma vicina al cap? Estrapolando linearmente, Phase 2 sfora? TBD. **Contro-evidenze raccolte / fix applicati**: - TBD. --- ## 6. Decisione finale **Decisione**: [GO Phase 2 | ITERATE Phase 1 | PIVOT | STOP] **Razionale finale (post-review)**: TBD. **Aggiustamenti per la fase successiva**: - TBD. **Documenti correlati prodotti**: - `docs/reports/2026-05-10-phase1-technical-report.md` (report tecnico ~5 pagine) - `docs/runs/2026-05-10-phase1-real-001.md` (per ogni run, da creare se serve) --- *Memo da committare insieme al report tecnico Phase 1. Versione 1.0 del template — popolare con dati reali a chiusura run.*