Saltar a contenido

Soberanía Legal del Motor

Resumen estratégico de por qué construir esta plataforma soberana en lugar de depender de Suno / Udio / similares.

El problema de los "jardines vallados" (SaaS)

Riesgo en SaaS comercial Mitigación en suno-local
ToS reservan derecho perpetuo sobre obras del usuario Código + audio son propiedad del operador del servidor
Limitaciones de uso comercial impuestas por la plataforma Apache-2.0 + Snippets propios sin restricciones
Litigios RIAA contra Suno/Udio contaminan derivados Datasets sólo CC; sin scraping comercial
Sin exportación de stems vocales/instrumentales SongGen Dual-Track exporta stems separados
Sin edición profunda (inpainting, LoRA por estilo) DCW + audio_inpaint + LoRA adapters
Censura opaca por palabras / estilos Sin filtros; auditoría propia bajo control
Datos de prompts/letras visibles a la plataforma Procesamiento 100 % local
Dependencia de uptime externo Bare-metal control + redundancia GPU

Licencias del stack soberano

  • Código propio: Apache-2.0.
  • PyTorch / torchaudio / einops / FastAPI / Celery / Redis: BSD-3 / MIT / Apache-2.0.
  • AudioSeal: MIT (Meta).
  • MERT / m-hubert: licencias permisivas, ver el respectivo model card en HF.
  • Datasets entrenamiento: sólo CC compatible (ver docs/datasets.md).
  • pedalboard: GPLv3 → usar src/mixing/dsp_pure.py en distribución comercial.

EU AI Act art. 50 — watermarking obligatorio

Toda salida del Motor pasa por AudioSeal antes de exportar (_save_master en src/api/worker.py). El watermark es localizable a nivel de muestra y contiene un msg de 16 bits configurable (incluir ID del operador en cada generación para trazabilidad). No quitar este paso en producción.

Memorización y mitigación de infracción

Los DiTs pueden memorizar fragmentos del corpus de pre-train. Recomendaciones:

  1. Audit log persistente: prompt → hash(wav generado) → ckpt usado. Permite responder takedowns con evidencia del proceso.
  2. Cosine-similarity scan: comparar mfcc/CLAP embeddings de la salida contra la base de datos de copyright registrada. Rechazar si similitud > 0.92.
  3. Embedding rejection para voces: comparar contra Resemblyzer ECAPA-TDNN de cantantes famosos públicos.
  4. Diversity sampling: usar cfg_scale moderado (3-5) y temperatura > 0 para evitar colapso en muestras del training set.
  5. Out-of-distribution detection: marcar como sospechosas salidas con baja entropía del primer codebook RVQ.

Auditoría reproducible

Cada out/<task_id>/: - master.wav — audio final con watermark - meta.json{ prompt, spec, plan, model_hash, sha256(wav), ckpt_paths, elapsed_s, version }

model_hash se calcula como sha256(state_dict de DiT + VAE + LoRA activos) y queda registrado para responder cualquier reclamo de "esa salida no la produjo mi plataforma".

Limitaciones honestas

  • Coverage de español cantado: sin un dataset propio de 20-50 h con cesión formal, la calidad de la voz cantada en ES queda en nivel VOCALOID (entendible pero no humano). Plan de grabación documentado en docs/datasets.md.
  • Cumplimiento jurisdiccional: este código no constituye asesoramiento legal. Consultar abogado local antes de despliegue comercial — la regulación AI 2024-2026 evoluciona en EU/US/MX/AR.
  • Calidad SOTA absoluta: Suno V4 lleva la delantera con catálogos comerciales de >100K h. La plataforma soberana llega a ~80 % de su calidad perceptual con datasets CC + dataset propio en 6-10 meses.