Soberanía Legal del Motor¶
Resumen estratégico de por qué construir esta plataforma soberana en lugar de depender de Suno / Udio / similares.
El problema de los "jardines vallados" (SaaS)¶
| Riesgo en SaaS comercial | Mitigación en suno-local |
|---|---|
| ToS reservan derecho perpetuo sobre obras del usuario | Código + audio son propiedad del operador del servidor |
| Limitaciones de uso comercial impuestas por la plataforma | Apache-2.0 + Snippets propios sin restricciones |
| Litigios RIAA contra Suno/Udio contaminan derivados | Datasets sólo CC; sin scraping comercial |
| Sin exportación de stems vocales/instrumentales | SongGen Dual-Track exporta stems separados |
| Sin edición profunda (inpainting, LoRA por estilo) | DCW + audio_inpaint + LoRA adapters |
| Censura opaca por palabras / estilos | Sin filtros; auditoría propia bajo control |
| Datos de prompts/letras visibles a la plataforma | Procesamiento 100 % local |
| Dependencia de uptime externo | Bare-metal control + redundancia GPU |
Licencias del stack soberano¶
- Código propio: Apache-2.0.
- PyTorch / torchaudio / einops / FastAPI / Celery / Redis: BSD-3 / MIT / Apache-2.0.
- AudioSeal: MIT (Meta).
- MERT / m-hubert: licencias permisivas, ver el respectivo model card en HF.
- Datasets entrenamiento: sólo CC compatible (ver docs/datasets.md).
- pedalboard: GPLv3 → usar
src/mixing/dsp_pure.pyen distribución comercial.
EU AI Act art. 50 — watermarking obligatorio¶
Toda salida del Motor pasa por AudioSeal antes de exportar (_save_master en
src/api/worker.py). El watermark es localizable a nivel
de muestra y contiene un msg de 16 bits configurable (incluir ID del operador
en cada generación para trazabilidad). No quitar este paso en producción.
Memorización y mitigación de infracción¶
Los DiTs pueden memorizar fragmentos del corpus de pre-train. Recomendaciones:
- Audit log persistente: prompt → hash(wav generado) → ckpt usado. Permite responder takedowns con evidencia del proceso.
- Cosine-similarity scan: comparar mfcc/CLAP embeddings de la salida contra la base de datos de copyright registrada. Rechazar si similitud > 0.92.
- Embedding rejection para voces: comparar contra Resemblyzer ECAPA-TDNN de cantantes famosos públicos.
- Diversity sampling: usar
cfg_scalemoderado (3-5) y temperatura > 0 para evitar colapso en muestras del training set. - Out-of-distribution detection: marcar como sospechosas salidas con baja entropía del primer codebook RVQ.
Auditoría reproducible¶
Cada out/<task_id>/:
- master.wav — audio final con watermark
- meta.json — { prompt, spec, plan, model_hash, sha256(wav), ckpt_paths, elapsed_s, version }
model_hash se calcula como sha256(state_dict de DiT + VAE + LoRA activos) y
queda registrado para responder cualquier reclamo de "esa salida no la
produjo mi plataforma".
Limitaciones honestas¶
- Coverage de español cantado: sin un dataset propio de 20-50 h con cesión formal, la calidad de la voz cantada en ES queda en nivel VOCALOID (entendible pero no humano). Plan de grabación documentado en docs/datasets.md.
- Cumplimiento jurisdiccional: este código no constituye asesoramiento legal. Consultar abogado local antes de despliegue comercial — la regulación AI 2024-2026 evoluciona en EU/US/MX/AR.
- Calidad SOTA absoluta: Suno V4 lleva la delantera con catálogos comerciales de >100K h. La plataforma soberana llega a ~80 % de su calidad perceptual con datasets CC + dataset propio en 6-10 meses.