feat(llm): full multi-tier S/A/B/C/D with routing + pricing

Estende ModelTier a 5 livelli (S/A/B/C/D) con routing automatico: S/A/B via Anthropic SDK, C/D via OpenRouter (OpenAI SDK). Aggiunge prezzi per tier S (Opus), A (Sonnet placeholder) e D (Llama). Refactor LLMClient.complete con dispatch tramite tier_models map e helper _call_anthropic / _call_openrouter. Settings esposte per tutti e 5 i modelli env-configurabili. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-05-10 09:18:57 +02:00
parent 7482600146
commit 33d8e275e7
10 changed files with 241 additions and 36 deletions
@@ -26,8 +26,11 @@ class Settings(BaseSettings):
    openrouter_api_key: SecretStr
    anthropic_api_key: SecretStr | None = None

-    llm_model_tier_c: str = "qwen/qwen-2.5-72b-instruct"
+    llm_model_tier_s: str = "claude-opus-4-7"
+    llm_model_tier_a: str = "claude-sonnet-4-6"
    llm_model_tier_b: str = "claude-sonnet-4-6"
+    llm_model_tier_c: str = "qwen/qwen-2.5-72b-instruct"
+    llm_model_tier_d: str = "meta-llama/llama-3.3-70b-instruct"
    openrouter_base_url: str = "https://openrouter.ai/api/v1"

    run_name: str = "phase1-spike-001"
@@ -8,8 +8,11 @@ from typing import Any


 class ModelTier(StrEnum):
+    S = "S"  # top-tier reasoning (Opus / equivalent) via Anthropic
+    A = "A"  # premium override via Anthropic
    B = "B"  # Sonnet 4.6 via Anthropic
    C = "C"  # Qwen 2.5 72B via OpenRouter
+    D = "D"  # ultra-economic (Llama / cheap models) via OpenRouter


@dataclass
@@ -16,8 +16,11 @@ from tenacity import (
 from ..genome.hypothesis import HypothesisAgentGenome, ModelTier

 # Modelli configurati per Phase 1
-MODEL_TIER_C = "qwen/qwen-2.5-72b-instruct"  # via OpenRouter
+MODEL_TIER_S = "claude-opus-4-7"  # via Anthropic
+MODEL_TIER_A = "claude-sonnet-4-6"  # via Anthropic (premium override)
 MODEL_TIER_B = "claude-sonnet-4-6"  # via Anthropic
+MODEL_TIER_C = "qwen/qwen-2.5-72b-instruct"  # via OpenRouter
+MODEL_TIER_D = "meta-llama/llama-3.3-70b-instruct"  # via OpenRouter
 OPENROUTER_BASE_URL = "https://openrouter.ai/api/v1"

 # Errori transient: retry. RateLimit/Auth/InvalidRequest: NO retry.
@@ -41,17 +44,33 @@ class CompletionResult:


 class LLMClient:
+    _ANTHROPIC_TIERS: tuple[ModelTier, ...] = (ModelTier.S, ModelTier.A, ModelTier.B)
+    _OPENROUTER_TIERS: tuple[ModelTier, ...] = (ModelTier.C, ModelTier.D)
+
    def __init__(
        self,
        openrouter_api_key: str,
        anthropic_api_key: str | None = None,
-        model_tier_c: str = MODEL_TIER_C,
+        model_tier_s: str = MODEL_TIER_S,
+        model_tier_a: str = MODEL_TIER_A,
        model_tier_b: str = MODEL_TIER_B,
+        model_tier_c: str = MODEL_TIER_C,
+        model_tier_d: str = MODEL_TIER_D,
        openrouter_base_url: str = OPENROUTER_BASE_URL,
    ) -> None:
-        self.model_tier_c = model_tier_c
+        self.model_tier_s = model_tier_s
+        self.model_tier_a = model_tier_a
        self.model_tier_b = model_tier_b
+        self.model_tier_c = model_tier_c
+        self.model_tier_d = model_tier_d
        self.openrouter_base_url = openrouter_base_url
+        self._tier_models: dict[ModelTier, str] = {
+            ModelTier.S: model_tier_s,
+            ModelTier.A: model_tier_a,
+            ModelTier.B: model_tier_b,
+            ModelTier.C: model_tier_c,
+            ModelTier.D: model_tier_d,
+        }
        self._openrouter = OpenAI(api_key=openrouter_api_key, base_url=openrouter_base_url)
        self._anthropic = Anthropic(api_key=anthropic_api_key) if anthropic_api_key else None

@@ -68,32 +87,53 @@ class LLMClient:
        user: str,
        max_tokens: int = 2000,
    ) -> CompletionResult:
-        if genome.model_tier == ModelTier.C:
-            resp = self._openrouter.chat.completions.create(
-                model=self.model_tier_c,
-                messages=[
-                    {"role": "system", "content": system},
-                    {"role": "user", "content": user},
-                ],
-                temperature=genome.temperature,
-                top_p=genome.top_p,
-                max_tokens=max_tokens,
-            )
-            usage = resp.usage
-            assert usage is not None
-            return CompletionResult(
-                text=resp.choices[0].message.content or "",
-                input_tokens=usage.prompt_tokens,
-                output_tokens=usage.completion_tokens,
-                tier=ModelTier.C,
-                model=self.model_tier_c,
-            )
+        model = self._tier_models[genome.model_tier]
+        if genome.model_tier in self._ANTHROPIC_TIERS:
+            return self._call_anthropic(genome, system, user, max_tokens, model)
+        return self._call_openrouter(genome, system, user, max_tokens, model)

+    def _call_openrouter(
+        self,
+        genome: HypothesisAgentGenome,
+        system: str,
+        user: str,
+        max_tokens: int,
+        model: str,
+    ) -> CompletionResult:
+        resp = self._openrouter.chat.completions.create(
+            model=model,
+            messages=[
+                {"role": "system", "content": system},
+                {"role": "user", "content": user},
+            ],
+            temperature=genome.temperature,
+            top_p=genome.top_p,
+            max_tokens=max_tokens,
+        )
+        usage = resp.usage
+        assert usage is not None
+        return CompletionResult(
+            text=resp.choices[0].message.content or "",
+            input_tokens=usage.prompt_tokens,
+            output_tokens=usage.completion_tokens,
+            tier=genome.model_tier,
+            model=model,
+        )
+
+    def _call_anthropic(
+        self,
+        genome: HypothesisAgentGenome,
+        system: str,
+        user: str,
+        max_tokens: int,
+        model: str,
+    ) -> CompletionResult:
        if self._anthropic is None:
-            raise RuntimeError("ANTHROPIC_API_KEY required for tier B genomes")
-
+            raise RuntimeError(
+                f"ANTHROPIC_API_KEY required for tier {genome.model_tier.value} genomes"
+            )
        msg = self._anthropic.messages.create(
-            model=self.model_tier_b,
+            model=model,
            system=system,
            messages=[{"role": "user", "content": user}],
            temperature=genome.temperature,
@@ -105,6 +145,6 @@ class LLMClient:
            text=text,
            input_tokens=msg.usage.input_tokens,
            output_tokens=msg.usage.output_tokens,
-            tier=ModelTier.B,
-            model=self.model_tier_b,
+            tier=genome.model_tier,
+            model=model,
        )
@@ -8,8 +8,11 @@ from typing import Any
 from ..genome.hypothesis import ModelTier

 PRICE_PER_M_TOKENS: dict[ModelTier, dict[str, float]] = {
-    ModelTier.C: {"input": 0.40, "output": 0.40},
+    ModelTier.S: {"input": 15.00, "output": 75.00},
+    ModelTier.A: {"input": 3.00, "output": 15.00},
    ModelTier.B: {"input": 3.00, "output": 15.00},
+    ModelTier.C: {"input": 0.40, "output": 0.40},
+    ModelTier.D: {"input": 0.10, "output": 0.30},
 }