ArcaSuite

Adriano/ArcaSuite

Fork 0

Commit Graph

Author	SHA1	Message	Date
Adriano	54bf41efd6	fix(mcp-docugen): preprocessor HTML→Markdown per output Word leggibile Il DOCX prodotto dalla versione precedente emetteva i div Tielogic (`<div class="cover">`, `<div class="info-col">`, `<div class="acceptance">`, `<div class="status-card">`) come testo grezzo: Pandoc non sa interpretare il CSS-flavoured HTML del PDF e li copia letteralmente nel documento Word. Anche le tabelle `<table class="financial">` finivano spezzate cella per cella. Il fix introduce un preprocessor dedicato che riscrive tutta la HTML Tielogic-flavoured in Markdown nativo prima di passare il documento a Pandoc. - docx_preprocessor.py: nuovo modulo basato su BeautifulSoup. Strippa frontmatter e <style>, poi rewrite di: * <div class="cover"> → titoli H1/H2, paragrafi, tabella pipe 2-col FORNITORE/CLIENTE, validità in italic, \newpage finale * <table class="financial"> → tabella pipe Markdown con riga total-row in bold * <div class="acceptance"> → heading H2 + intro + tabella pipe con riga firma `_____________________` + luogo/data * <div class="status-card"> → paragrafo "name — descrizione" * <span class="badge ..."> → testo bold * <div class="page-break"> → \newpage Pandoc-friendly - docx_renderer.py: deferisce tutto il preprocessing al nuovo modulo (più compatto, niente regex sparse). - pyproject.toml + uv.lock: aggiunta dipendenza beautifulsoup4>=4.12. - 8 nuovi test unit per il preprocessor (cover, tabelle, badge, acceptance, idempotenza, niente div residui, badge standalone). Adattati i test esistenti agli import dal nuovo modulo. 101 verde. Smoke E2E via MCP: l'offerta TieMeasureFlow esce in DOCX leggibile con tabelle Word native, heading colorati Tielogic e firme in tabella.	2026-04-26 11:26:52 +02:00
Adriano	725190010c	feat(mcp-docugen): nuovo tool MCP document_to_pdf via Playwright/Chromium Aggiunge la possibilità di convertire un documento Markdown in PDF direttamente lato server, senza richiedere al chiamante di avere md-to-pdf, pandoc o altri tool sull'host. Il PDF è restituito come stringa base64 nella risposta JSON-RPC, pronto a essere salvato, allegato o spedito al cliente. - pdf_renderer.py: nuovo modulo che parsea il frontmatter YAML del Markdown (incluso il blocco pdf_options stile Puppeteer/md-to-pdf), rende il body in HTML via markdown-it-py (supporta tabelle e HTML inline) e produce il PDF tramite Chromium headless gestito da Playwright. Le pdf_options camelCase (printBackground, displayHeaderFooter, headerTemplate, ...) vengono tradotte negli argomenti snake_case di page.pdf(). - mcp_tools.py: nuovo tool `document_to_pdf(markdown)` che ritorna `{pdf_b64, size_bytes}`; `document_generate` esteso con il parametro `output_format ∈ {md, pdf, both}` per emettere il PDF contestualmente alla generazione del Markdown. - pyproject.toml + uv.lock: aggiunte le dipendenze playwright>=1.48 e markdown-it-py[plugins]>=3.0. - mcp-docugen.Dockerfile: nuova fase di runtime che installa le librerie native richieste da Chromium (libnss3, libgbm1, ecc.) e scarica il binario Chromium di Playwright in /opt/ms-playwright. - 7 nuovi test unit (83 totali) che coprono lo split del frontmatter, il rendering Markdown→HTML con tabelle, la traduzione delle pdf_options camelCase→snake_case e l'errore su YAML invalido. Il test E2E che richiede Chromium è marcato skip in unit; lo smoke via MCP conferma generazione PDF da 134 KB / 4 pagine. README aggiornato con le tre strade di conversione (server-side, client-side, bundling) e la stima del nuovo costo immagine. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-25 16:16:56 +02:00
Adriano	c5e84a578b	feat(mcp-docugen): scaffold service + Docker stack con gateway Caddy Task 0 del piano (adattato a workspace uv): - services/mcp-docugen/: pyproject.toml, src/mcp_docugen/, tests/unit+integration/, README, .env.example. Package rinominato da docugen_mcp -> mcp_docugen. - Root pyproject.toml: aggiunto services/mcp-docugen a workspace members. - .python-version: 3.11 - uv.lock committato. Docker stack stile CerberoSuite/Cerbero con prefisso "arca-": - docker/base.Dockerfile -> arca-base:latest - docker/mcp-docugen.Dockerfile -> arca-mcp-docugen:dev (porta interna 9100, label arca.service, runtime multi-stage, user non-root, healthcheck) - docker-compose.yml root: gateway Caddy unica porta host (8080) + mcp-docugen su rete interna. Security defaults cap_drop ALL, no-new-privileges, read_only ove applicabile, restart unless-stopped. - gateway/Caddyfile: reverse proxy /mcp-docugen/* -> mcp-docugen:9100 + landing. - gateway/public/index.html: landing page minimale. .env.example root aggiornato con DOCUGEN_API_KEY + OPENROUTER_API_KEY condivisa. Task 1-12 (implementazione TDD effettiva) ancora da fare. Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-04-21 12:16:22 +02:00

Author

SHA1

Message

Date

Adriano

54bf41efd6

fix(mcp-docugen): preprocessor HTML→Markdown per output Word leggibile

Il DOCX prodotto dalla versione precedente emetteva i div Tielogic
(`<div class="cover">`, `<div class="info-col">`, `<div class="acceptance">`,
`<div class="status-card">`) come testo grezzo: Pandoc non sa
interpretare il CSS-flavoured HTML del PDF e li copia letteralmente
nel documento Word. Anche le tabelle `<table class="financial">`
finivano spezzate cella per cella.

Il fix introduce un preprocessor dedicato che riscrive tutta la
HTML Tielogic-flavoured in Markdown nativo prima di passare il
documento a Pandoc.

- docx_preprocessor.py: nuovo modulo basato su BeautifulSoup. Strippa
  frontmatter e <style>, poi rewrite di:
    * <div class="cover"> → titoli H1/H2, paragrafi, tabella pipe
      2-col FORNITORE/CLIENTE, validità in italic, \newpage finale
    * <table class="financial"> → tabella pipe Markdown con riga
      total-row in **bold**
    * <div class="acceptance"> → heading H2 + intro + tabella pipe
      con riga firma `_____________________` + luogo/data
    * <div class="status-card"> → paragrafo "**name** — descrizione"
    * <span class="badge ..."> → testo **bold**
    * <div class="page-break"> → \newpage Pandoc-friendly
- docx_renderer.py: deferisce tutto il preprocessing al nuovo modulo
  (più compatto, niente regex sparse).
- pyproject.toml + uv.lock: aggiunta dipendenza beautifulsoup4>=4.12.
- 8 nuovi test unit per il preprocessor (cover, tabelle, badge,
  acceptance, idempotenza, niente div residui, badge standalone).
  Adattati i test esistenti agli import dal nuovo modulo. 101 verde.

Smoke E2E via MCP: l'offerta TieMeasureFlow esce in DOCX leggibile
con tabelle Word native, heading colorati Tielogic e firme in tabella.

2026-04-26 11:26:52 +02:00

Adriano

725190010c

feat(mcp-docugen): nuovo tool MCP document_to_pdf via Playwright/Chromium

Aggiunge la possibilità di convertire un documento Markdown in PDF
direttamente lato server, senza richiedere al chiamante di avere
md-to-pdf, pandoc o altri tool sull'host. Il PDF è restituito come
stringa base64 nella risposta JSON-RPC, pronto a essere salvato,
allegato o spedito al cliente.

- pdf_renderer.py: nuovo modulo che parsea il frontmatter YAML del
  Markdown (incluso il blocco pdf_options stile Puppeteer/md-to-pdf),
  rende il body in HTML via markdown-it-py (supporta tabelle e
  HTML inline) e produce il PDF tramite Chromium headless gestito
  da Playwright. Le pdf_options camelCase (printBackground,
  displayHeaderFooter, headerTemplate, ...) vengono tradotte negli
  argomenti snake_case di page.pdf().
- mcp_tools.py: nuovo tool `document_to_pdf(markdown)` che ritorna
  `{pdf_b64, size_bytes}`; `document_generate` esteso con il
  parametro `output_format ∈ {md, pdf, both}` per emettere il PDF
  contestualmente alla generazione del Markdown.
- pyproject.toml + uv.lock: aggiunte le dipendenze playwright>=1.48
  e markdown-it-py[plugins]>=3.0.
- mcp-docugen.Dockerfile: nuova fase di runtime che installa le
  librerie native richieste da Chromium (libnss3, libgbm1, ecc.) e
  scarica il binario Chromium di Playwright in /opt/ms-playwright.
- 7 nuovi test unit (83 totali) che coprono lo split del frontmatter,
  il rendering Markdown→HTML con tabelle, la traduzione delle
  pdf_options camelCase→snake_case e l'errore su YAML invalido. Il
  test E2E che richiede Chromium è marcato skip in unit; lo smoke
  via MCP conferma generazione PDF da 134 KB / 4 pagine.

README aggiornato con le tre strade di conversione (server-side,
client-side, bundling) e la stima del nuovo costo immagine.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-25 16:16:56 +02:00

Adriano

c5e84a578b

feat(mcp-docugen): scaffold service + Docker stack con gateway Caddy

Task 0 del piano (adattato a workspace uv):
- services/mcp-docugen/: pyproject.toml, src/mcp_docugen/, tests/unit+integration/,
  README, .env.example. Package rinominato da docugen_mcp -> mcp_docugen.
- Root pyproject.toml: aggiunto services/mcp-docugen a workspace members.
- .python-version: 3.11
- uv.lock committato.

Docker stack stile CerberoSuite/Cerbero con prefisso "arca-":
- docker/base.Dockerfile -> arca-base:latest
- docker/mcp-docugen.Dockerfile -> arca-mcp-docugen:dev (porta interna 9100,
  label arca.service, runtime multi-stage, user non-root, healthcheck)
- docker-compose.yml root: gateway Caddy unica porta host (8080) + mcp-docugen
  su rete interna. Security defaults cap_drop ALL, no-new-privileges, read_only
  ove applicabile, restart unless-stopped.
- gateway/Caddyfile: reverse proxy /mcp-docugen/* -> mcp-docugen:9100 + landing.
- gateway/public/index.html: landing page minimale.

.env.example root aggiornato con DOCUGEN_API_KEY + OPENROUTER_API_KEY condivisa.

Task 1-12 (implementazione TDD effettiva) ancora da fare.

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-04-21 12:16:22 +02:00

3 Commits