Files

T

Adriano 6a201c7e49 docs: scaffolding decision memo + technical report Phase 1

Aggiunge i template per gate decision memo (sez. 4.4 spec) e technical
report (sez. 4.5 spec). Da popolare con numeri reali a chiusura del run
phase1-real-001 (in corso).

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-10 11:21:26 +02:00

4.7 KiB

Raw Blame History

Gate Phase 1 — Decision Memo

Data: 10 maggio 2026 Run analizzati: phase1-real-001 (in attesa di completamento; eventuali run successivi listati qui) Spesa totale Phase 1: $TBD di $700 cap (=TBD%) Tempo speso Phase 1: TBD settimane (calendar) Status: TEMPLATE — completare con numeri reali a fine run.

1. Premessa

Questo memo formalizza la valutazione dei 5 hard gate definiti nello spec strategico (docs/superpowers/specs/2026-05-09-decisione-strategica-design.md, sez. 4.4) sulla base dei risultati della/e run reale/i. Segue la regola "mai self-approve": author pass seguito da review pass adversarial prima della decisione formale.

I gate sono numerici per costruzione: PASS o FAIL è meccanico, non discrezionale. Discrezionale è solo l'azione successiva quando uno o più gate falliscono.

2. Author pass — valutazione hard gate

Gate 1 — Loop converge

Soglia: la fitness mediana della popolazione cresce per ≥3 generazioni consecutive prima di plateau.

Misura osservata:

Generazione	Median fitness	Variazione
0	TBD	—
1	TBD	TBD
2	TBD	TBD
3	TBD	TBD
4	TBD	TBD
5	TBD	TBD
6	TBD	TBD
7	TBD	TBD
8	TBD	TBD
9	TBD	TBD

Numero di generazioni consecutive con crescita: TBD.

Esito: PASS / FAIL

Razionale: TBD.

Gate 2 — Output formalizzabile

Soglia: ≥80% delle proposte LLM passano il parser S-expression senza intervento manuale.

Misura osservata:

Evaluations totali: TBD
Parse success: TBD (= TBD%)
Parse error: TBD

Distribuzione errori più frequenti:

Esito: PASS / FAIL

Razionale: TBD.

Gate 3 — Tail superiore

Soglia: i top-5 genomi hanno DSR in-sample ≥ 1.5x la mediana di popolazione.

Misura osservata:

Median DSR popolazione: TBD
Top-5 DSR: TBD, TBD, TBD, TBD, TBD
Top-5 mediano: TBD
Ratio (top-5 mediano / pop median): TBD

Esito: PASS / FAIL

Razionale: TBD.

Gate 4 — Diversità non collassa

Soglia: entropia della distribuzione di fitness in popolazione > 0.5 a fine run.

Misura osservata:

Entropy generazione finale: TBD
Entropy iniziale (gen 0): TBD
Trend entropy: TBD

Esito: PASS / FAIL

Razionale: TBD.

Gate 5 — Cost predictability

Soglia: spesa effettiva entro ±30% della stima preventivata ($500-700 per Phase 1).

Misura osservata:

Stima preventivo: $500-700 (mid $600)
Spesa reale: $TBD (somma total_cost_usd su tutti i run Phase 1)
Deviazione: TBD%

Esito: PASS / FAIL

Razionale: TBD.

3. Soft observations (informative, non vincolanti)

Diversità cognitiva: cognitive_style sopravvissuti a fine run: TBD su 6 originali.
Top-5 ispezione qualitativa: i top genomi propongono strategie strutturalmente diverse o sono cloni? TBD.
Failure mode parser: tassonomia degli errori parse dominanti (TBD).
Cerbero/Deribit data quality: gap nei dati storici, anomalie. TBD.

4. Author pass — conclusione

Esito complessivo author pass: PASS / FAIL / PARTIAL

Hard gate falliti (se presenti): TBD.

Decisione raccomandata dall'autore:

GO Phase 2 (specificare aggiustamenti)
ITERATE Phase 1 (specificare cosa cambiare prima di un nuovo run)
PIVOT (specificare dominio o approach alternativo)
STOP (specificare razionale + learnings)

Razionale autore: TBD.

5. Review pass — red team adversarial

Modalità review pass: subagent Claude red-team / collega umano / fresh-eyes 48h. (Selezionare e documentare).

Critiche strutturate ricevute:

Cherry-picking: i numeri sopra sono stati cherry-picked? Quali run sono stati esclusi e perché? TBD.
Statistical robustness: i gate basati su DSR usano n_trials corretto? Bonferroni applicato? TBD.
Overfitting al training: c'è hold-out genuino o tutta la valutazione è in-sample? TBD.
Diversità apparente vs reale: signal correlation fra top-5 misurata? Possono essere cloni che hanno solo prompt diversi? TBD.
Cost trap: la spesa è entro budget ma vicina al cap? Estrapolando linearmente, Phase 2 sfora? TBD.

Contro-evidenze raccolte / fix applicati:

TBD.

6. Decisione finale

Decisione: [GO Phase 2 | ITERATE Phase 1 | PIVOT | STOP]

Razionale finale (post-review): TBD.

Aggiustamenti per la fase successiva:

TBD.

Documenti correlati prodotti:

docs/reports/2026-05-10-phase1-technical-report.md (report tecnico ~5 pagine)
docs/runs/2026-05-10-phase1-real-001.md (per ogni run, da creare se serve)

Memo da committare insieme al report tecnico Phase 1. Versione 1.0 del template — popolare con dati reali a chiusura run.

Generazione	Median fitness	Variazione
0	TBD	—
1	TBD	TBD
2	TBD	TBD
3	TBD	TBD
4	TBD	TBD
5	TBD	TBD
6	TBD	TBD
7	TBD	TBD
8	TBD	TBD
9	TBD	TBD

Generazione	Median fitness	Variazione
0	TBD	—
1	TBD	TBD
2	TBD	TBD
3	TBD	TBD
4	TBD	TBD
5	TBD	TBD
6	TBD	TBD
7	TBD	TBD
8	TBD	TBD
9	TBD	TBD

4.7 KiB Raw Blame History

Gate Phase 1 — Decision Memo

1. Premessa

2. Author pass — valutazione hard gate

Gate 1 — Loop converge

Gate 2 — Output formalizzabile

Gate 3 — Tail superiore

Gate 4 — Diversità non collassa

Gate 5 — Cost predictability

3. Soft observations (informative, non vincolanti)

4. Author pass — conclusione

5. Review pass — red team adversarial

6. Decisione finale

4.7 KiB

Raw Blame History

Generazione	Median fitness	Variazione
0	TBD	—
1	TBD	TBD
2	TBD	TBD
3	TBD	TBD
4	TBD	TBD
5	TBD	TBD
6	TBD	TBD
7	TBD	TBD
8	TBD	TBD
9	TBD	TBD