Shape_Model_2D

Adriano/Shape_Model_2D

Fork 0

Commit Graph

Author	SHA1	Message	Date
Adriano	ba54b42fdc	perf: spread bitmap uint8 + pre-NMS prima refine (3.5x globale, 49x worst case) Due ottimizzazioni chiave: 1. Spread bitmap uint8 invece di response map (N_BINS, H, W) float32 - 32x meno memoria, cache-friendly - Nuovi kernel Numba: _jit_score_bitmap, _jit_popcount_density - Formato: spread[y,x] bit b = bin b attivo nel raggio di spread - _refine_angle usa slicing su bitmap con mask & bit 2. Pre-NMS prima di refine_angle/verify_ncc - Problema: loop 'for raw in candidati' applicava refine+verify A OGNI candidato prima del check NMS → 2000+ refine chiamati per ~25 match - Fix: pre-NMS su (cx, cy) subpixel, limita a max_matches*3 candidati, poi refine + verify solo su quelli - Esempio worst case: lama_full_fast 55.9s → 1.13s (49x) Benchmark suite 16 scenari (4 immagini x full/part x fast/preciso): prima: totale find 94.6s dopo: totale find 27.3s (3.5x globale) casi peggiori <5s (prima erano >50s) ROI parziali (solo metà oggetto) funzionano in tutti i casi. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 02:11:33 +02:00
Adriano	b20b11c029	perf: Numba JIT kernel per score_by_shift (2.1x speedup) - Nuovo modulo pm2d/_jit_kernels.py con _jit_score_by_shift Numba njit parallel + fastmath + boundscheck=False - Parallelizzazione per riga output (no race condition su acc) - Fallback automatico numpy se numba non installato - Warmup automatico al module import (evita JIT lag al 1 match) Benchmark clip.png (13 istanze): prima (numpy + threads): 1.55s dopo (numba + threads): 0.72s speedup: 2.1x Pipeline totale full (refine+subpix): 0.80s Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-24 01:30:31 +02:00

Author

SHA1

Message

Date

Adriano

ba54b42fdc

perf: spread bitmap uint8 + pre-NMS prima refine (3.5x globale, 49x worst case)

Due ottimizzazioni chiave:

1. Spread bitmap uint8 invece di response map (N_BINS, H, W) float32
   - 32x meno memoria, cache-friendly
   - Nuovi kernel Numba: _jit_score_bitmap, _jit_popcount_density
   - Formato: spread[y,x] bit b = bin b attivo nel raggio di spread
   - _refine_angle usa slicing su bitmap con mask & bit

2. Pre-NMS prima di refine_angle/verify_ncc
   - Problema: loop 'for raw in candidati' applicava refine+verify A OGNI
     candidato prima del check NMS → 2000+ refine chiamati per ~25 match
   - Fix: pre-NMS su (cx, cy) subpixel, limita a max_matches*3 candidati,
     poi refine + verify solo su quelli
   - Esempio worst case: lama_full_fast 55.9s → 1.13s (49x)

Benchmark suite 16 scenari (4 immagini x full/part x fast/preciso):
  prima: totale find 94.6s
  dopo:  totale find 27.3s (3.5x globale)
  casi peggiori <5s (prima erano >50s)

ROI parziali (solo metà oggetto) funzionano in tutti i casi.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-24 02:11:33 +02:00

Adriano

b20b11c029

perf: Numba JIT kernel per score_by_shift (2.1x speedup)

- Nuovo modulo pm2d/_jit_kernels.py con _jit_score_by_shift Numba njit
  parallel + fastmath + boundscheck=False
- Parallelizzazione per riga output (no race condition su acc)
- Fallback automatico numpy se numba non installato
- Warmup automatico al module import (evita JIT lag al 1 match)

Benchmark clip.png (13 istanze):
  prima (numpy + threads): 1.55s
  dopo (numba + threads):  0.72s
  speedup: 2.1x

Pipeline totale full (refine+subpix): 0.80s

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-24 01:30:31 +02:00

2 Commits