Soberanía Legal del Motor¶

Resumen estratégico de por qué construir esta plataforma soberana en lugar de depender de Suno / Udio / similares.

El problema de los "jardines vallados" (SaaS)¶

Riesgo en SaaS comercial	Mitigación en suno-local
ToS reservan derecho perpetuo sobre obras del usuario	Código + audio son propiedad del operador del servidor
Limitaciones de uso comercial impuestas por la plataforma	Apache-2.0 + Snippets propios sin restricciones
Litigios RIAA contra Suno/Udio contaminan derivados	Datasets sólo CC; sin scraping comercial
Sin exportación de stems vocales/instrumentales	SongGen Dual-Track exporta stems separados
Sin edición profunda (inpainting, LoRA por estilo)	DCW + audio_inpaint + LoRA adapters
Censura opaca por palabras / estilos	Sin filtros; auditoría propia bajo control
Datos de prompts/letras visibles a la plataforma	Procesamiento 100 % local
Dependencia de uptime externo	Bare-metal control + redundancia GPU

Licencias del stack soberano¶

Código propio: Apache-2.0.
PyTorch / torchaudio / einops / FastAPI / Celery / Redis: BSD-3 / MIT / Apache-2.0.
AudioSeal: MIT (Meta).
MERT / m-hubert: licencias permisivas, ver el respectivo model card en HF.
Datasets entrenamiento: sólo CC compatible (ver docs/datasets.md).
pedalboard: GPLv3 → usar src/mixing/dsp_pure.py en distribución comercial.

EU AI Act art. 50 — watermarking obligatorio¶

Toda salida del Motor pasa por AudioSeal antes de exportar (_save_master en src/api/worker.py). El watermark es localizable a nivel de muestra y contiene un msg de 16 bits configurable (incluir ID del operador en cada generación para trazabilidad). No quitar este paso en producción.

Memorización y mitigación de infracción¶

Los DiTs pueden memorizar fragmentos del corpus de pre-train. Recomendaciones:

Audit log persistente: prompt → hash(wav generado) → ckpt usado. Permite responder takedowns con evidencia del proceso.
Cosine-similarity scan: comparar mfcc/CLAP embeddings de la salida contra la base de datos de copyright registrada. Rechazar si similitud > 0.92.
Embedding rejection para voces: comparar contra Resemblyzer ECAPA-TDNN de cantantes famosos públicos.
Diversity sampling: usar cfg_scale moderado (3-5) y temperatura > 0 para evitar colapso en muestras del training set.
Out-of-distribution detection: marcar como sospechosas salidas con baja entropía del primer codebook RVQ.

Auditoría reproducible¶

Cada out/<task_id>/: - master.wav — audio final con watermark - meta.json — { prompt, spec, plan, model_hash, sha256(wav), ckpt_paths, elapsed_s, version }

model_hash se calcula como sha256(state_dict de DiT + VAE + LoRA activos) y queda registrado para responder cualquier reclamo de "esa salida no la produjo mi plataforma".

Limitaciones honestas¶

Coverage de español cantado: sin un dataset propio de 20-50 h con cesión formal, la calidad de la voz cantada en ES queda en nivel VOCALOID (entendible pero no humano). Plan de grabación documentado en docs/datasets.md.
Cumplimiento jurisdiccional: este código no constituye asesoramiento legal. Consultar abogado local antes de despliegue comercial — la regulación AI 2024-2026 evoluciona en EU/US/MX/AR.
Calidad SOTA absoluta: Suno V4 lleva la delantera con catálogos comerciales de >100K h. La plataforma soberana llega a ~80 % de su calidad perceptual con datasets CC + dataset propio en 6-10 meses.