Saltar a contenido

Plan de implementación por fases

Timeline realista para construir suno-local con presupuesto Colab Pro + M4 Pro 24 GB.

Fase Semanas Objetivo Entregables Métrica Créditos Colab
0 1 Setup repo, exploración datasets setup_env.sh, device.py, manifests FMA/Jamendo/MUSDB/Slakh dataset stats notebook ~5 CU
1 2–5 Neural Audio Codec (RVQ 24 kHz, 8 cb, ~50 M) src/codec/{model,train,encode,losses}.py, ckpt SI-SDR ≥ 6 dB, ViSQOL ≥ 3.5 600–1200 CU (50–100 h A100)
2 6 Lyric generator (50 M + SP propio) src/lyrics/{train,generate,sampling}.py BLEU hold-out, rhyme rate manual 100–150 CU
3 7–10 Melody/Score (REMI 80 M) src/melody/{tokenizer,model,train,sample}.py KL vs LMD, % progresiones válidas 250–400 CU
4 11–18 SVS DiffSinger-like + HiFi-GAN src/svs/{acoustic,vocoder,pitch,alignment,g2p}.py MCD ≤ 6.0, MOS ≥ 3.5 1200–2400 CU (100–200 h A100)
5 19–26 Instrumental AR (300 M – 1 B) src/instrumental/{model,conditioner,train}.py FAD-VGGish ≤ 5, CLAP ≥ 0.30 2400–6000 CU (200–500 h A100)
6 27–30 Mixing/Mastering automático src/mixing/{presets,mixer,master,loudness}.py LUFS error ≤ 0.5 <50 CU (DSP CPU)
7 31–34 Pipeline integrado + UI Gradio + Docker src/pipeline/song_generator.py, demo notebook E2E latency, demo pass-rate ≥ 80 % 100–200 CU

Total honesto: ~5.000–10.000 CU ≈ $700–1.400 en Colab Pro+ (~$50/mes × 6–10 meses) o mezcla Colab Pro + Lambda/RunPod. Súmale ~2× por ablations y errores → presupuesto realista $1.400–2.000.

Hitos clave

  • Mes 1: demo de letras estructuradas en español condicionadas por género/mood/rima.
  • Mes 3: demo MIDI con melodías por género/BPM/key/progresión.
  • Mes 4: vocoder HiFi-GAN universal preentrenado (LJSpeech + LibriTTS) reutilizado.
  • Mes 6: SVS "robótica VOCALOID-style" en español comprensible y entonada con 1 h de canto propio.
  • Mes 9: instrumental coherente local de 20-30 s tipo MusicGen-small.
  • Mes 12: pipeline E2E funcional con Gradio.

Estrategia mes-a-mes (M1-M12)

M1

  • Repo + setup + manifests FMA-large.
  • Tokenizer SentencePiece de letras con corpus Gutenberg/Wikisource + sintético.
  • LyricLM 50 M en Colab Pro: 1 GPU A100 24 h ≈ 80 K steps con bs=32.

M2-M3

  • Codec ~48 M sobre 200-500 h de FMA mono 24 kHz.
  • A100 ~50 h training. Validar SI-SDR/ViSQOL.
  • REMI tokenizer + ScoreLM 80 M sobre LMD + POP909.

M4-M5

  • HiFi-GAN universal: pre-entrenar 2-3 días sobre LibriTTS para vocoder mel→wav.
  • Acoustic SVS sobre M4Singer/Opencpop (mandarín) como pre-train cross-lingual.
  • Empezar grabaciones dataset propio español (3-5 h, 2 cantantes neutros).

M6

  • Fine-tune SVS acoustic con dataset propio español (1-3 h).
  • Primera demo end-to-end con voz robótica entendible.

M7-M9

  • Instrumental LM 300 M sobre 5-10 K h FMA-large + Jamendo.
  • Iteraciones de calidad: ajuste CFG, top-k, scheduler.

M10

  • Mixing presets por género finos. Sidechain compression. Mastering automático.
  • UI Gradio + watermarking AudioSeal.

M11-M12

  • Ablations: comparar AR vs latent diffusion (futuro DiT).
  • Documentación final, Docker, demo público.

Plan B si se acaban créditos

  1. Quedarte con vocoder HiFi-GAN preentrenado (LibriTTS) sin re-entrenar.
  2. Reducir LM instrumental a 150 M y entrenar sobre 1-2 K h.
  3. SVS sólo acoustic + vocoder universal.
  4. Mezcla DSP determinística (no learnable).

Resultado: demo MVP en 4-6 meses con ~$700.