6a201c7e49
Aggiunge i template per gate decision memo (sez. 4.4 spec) e technical report (sez. 4.5 spec). Da popolare con numeri reali a chiusura del run phase1-real-001 (in corso). Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
170 lines
4.7 KiB
Markdown
170 lines
4.7 KiB
Markdown
# Gate Phase 1 — Decision Memo
|
|
|
|
**Data**: 10 maggio 2026
|
|
**Run analizzati**: phase1-real-001 (in attesa di completamento; eventuali run successivi listati qui)
|
|
**Spesa totale Phase 1**: $TBD di $700 cap (=TBD%)
|
|
**Tempo speso Phase 1**: TBD settimane (calendar)
|
|
**Status**: TEMPLATE — completare con numeri reali a fine run.
|
|
|
|
---
|
|
|
|
## 1. Premessa
|
|
|
|
Questo memo formalizza la valutazione dei 5 hard gate definiti nello spec strategico (`docs/superpowers/specs/2026-05-09-decisione-strategica-design.md`, sez. 4.4) sulla base dei risultati della/e run reale/i. Segue la regola "mai self-approve": **author pass** seguito da **review pass adversarial** prima della decisione formale.
|
|
|
|
I gate sono numerici per costruzione: PASS o FAIL è meccanico, non discrezionale. Discrezionale è solo l'azione successiva quando uno o più gate falliscono.
|
|
|
|
---
|
|
|
|
## 2. Author pass — valutazione hard gate
|
|
|
|
### Gate 1 — Loop converge
|
|
|
|
**Soglia**: la fitness mediana della popolazione cresce per ≥3 generazioni consecutive prima di plateau.
|
|
|
|
**Misura osservata**:
|
|
|
|
| Generazione | Median fitness | Variazione |
|
|
|---|---|---|
|
|
| 0 | TBD | — |
|
|
| 1 | TBD | TBD |
|
|
| 2 | TBD | TBD |
|
|
| 3 | TBD | TBD |
|
|
| 4 | TBD | TBD |
|
|
| 5 | TBD | TBD |
|
|
| 6 | TBD | TBD |
|
|
| 7 | TBD | TBD |
|
|
| 8 | TBD | TBD |
|
|
| 9 | TBD | TBD |
|
|
|
|
Numero di generazioni consecutive con crescita: **TBD**.
|
|
|
|
**Esito**: PASS / FAIL
|
|
|
|
**Razionale**: TBD.
|
|
|
|
---
|
|
|
|
### Gate 2 — Output formalizzabile
|
|
|
|
**Soglia**: ≥80% delle proposte LLM passano il parser S-expression senza intervento manuale.
|
|
|
|
**Misura osservata**:
|
|
- Evaluations totali: TBD
|
|
- Parse success: TBD (= TBD%)
|
|
- Parse error: TBD
|
|
|
|
Distribuzione errori più frequenti:
|
|
- TBD
|
|
|
|
**Esito**: PASS / FAIL
|
|
|
|
**Razionale**: TBD.
|
|
|
|
---
|
|
|
|
### Gate 3 — Tail superiore
|
|
|
|
**Soglia**: i top-5 genomi hanno DSR in-sample ≥ 1.5x la mediana di popolazione.
|
|
|
|
**Misura osservata**:
|
|
- Median DSR popolazione: TBD
|
|
- Top-5 DSR: TBD, TBD, TBD, TBD, TBD
|
|
- Top-5 mediano: TBD
|
|
- Ratio (top-5 mediano / pop median): TBD
|
|
|
|
**Esito**: PASS / FAIL
|
|
|
|
**Razionale**: TBD.
|
|
|
|
---
|
|
|
|
### Gate 4 — Diversità non collassa
|
|
|
|
**Soglia**: entropia della distribuzione di fitness in popolazione > 0.5 a fine run.
|
|
|
|
**Misura osservata**:
|
|
- Entropy generazione finale: TBD
|
|
- Entropy iniziale (gen 0): TBD
|
|
- Trend entropy: TBD
|
|
|
|
**Esito**: PASS / FAIL
|
|
|
|
**Razionale**: TBD.
|
|
|
|
---
|
|
|
|
### Gate 5 — Cost predictability
|
|
|
|
**Soglia**: spesa effettiva entro ±30% della stima preventivata ($500-700 per Phase 1).
|
|
|
|
**Misura osservata**:
|
|
- Stima preventivo: $500-700 (mid $600)
|
|
- Spesa reale: $TBD (somma `total_cost_usd` su tutti i run Phase 1)
|
|
- Deviazione: TBD%
|
|
|
|
**Esito**: PASS / FAIL
|
|
|
|
**Razionale**: TBD.
|
|
|
|
---
|
|
|
|
## 3. Soft observations (informative, non vincolanti)
|
|
|
|
- **Diversità cognitiva**: cognitive_style sopravvissuti a fine run: TBD su 6 originali.
|
|
- **Top-5 ispezione qualitativa**: i top genomi propongono strategie strutturalmente diverse o sono cloni? TBD.
|
|
- **Failure mode parser**: tassonomia degli errori parse dominanti (TBD).
|
|
- **Cerbero/Deribit data quality**: gap nei dati storici, anomalie. TBD.
|
|
|
|
---
|
|
|
|
## 4. Author pass — conclusione
|
|
|
|
**Esito complessivo author pass**: PASS / FAIL / PARTIAL
|
|
|
|
Hard gate falliti (se presenti): TBD.
|
|
|
|
**Decisione raccomandata dall'autore**:
|
|
- [ ] GO Phase 2 (specificare aggiustamenti)
|
|
- [ ] ITERATE Phase 1 (specificare cosa cambiare prima di un nuovo run)
|
|
- [ ] PIVOT (specificare dominio o approach alternativo)
|
|
- [ ] STOP (specificare razionale + learnings)
|
|
|
|
**Razionale autore**: TBD.
|
|
|
|
---
|
|
|
|
## 5. Review pass — red team adversarial
|
|
|
|
**Modalità review pass**: subagent Claude red-team / collega umano / fresh-eyes 48h. *(Selezionare e documentare).*
|
|
|
|
**Critiche strutturate ricevute**:
|
|
|
|
1. **Cherry-picking**: i numeri sopra sono stati cherry-picked? Quali run sono stati esclusi e perché? TBD.
|
|
2. **Statistical robustness**: i gate basati su DSR usano `n_trials` corretto? Bonferroni applicato? TBD.
|
|
3. **Overfitting al training**: c'è hold-out genuino o tutta la valutazione è in-sample? TBD.
|
|
4. **Diversità apparente vs reale**: signal correlation fra top-5 misurata? Possono essere cloni che hanno solo prompt diversi? TBD.
|
|
5. **Cost trap**: la spesa è entro budget ma vicina al cap? Estrapolando linearmente, Phase 2 sfora? TBD.
|
|
|
|
**Contro-evidenze raccolte / fix applicati**:
|
|
- TBD.
|
|
|
|
---
|
|
|
|
## 6. Decisione finale
|
|
|
|
**Decisione**: [GO Phase 2 | ITERATE Phase 1 | PIVOT | STOP]
|
|
|
|
**Razionale finale (post-review)**: TBD.
|
|
|
|
**Aggiustamenti per la fase successiva**:
|
|
- TBD.
|
|
|
|
**Documenti correlati prodotti**:
|
|
- `docs/reports/2026-05-10-phase1-technical-report.md` (report tecnico ~5 pagine)
|
|
- `docs/runs/2026-05-10-phase1-real-001.md` (per ogni run, da creare se serve)
|
|
|
|
---
|
|
|
|
*Memo da committare insieme al report tecnico Phase 1. Versione 1.0 del template — popolare con dati reali a chiusura run.*
|