Saltar a contenido

Datasets recomendados

Sólo materiales con licencias compatibles (CC + dominio público). Sin scraping de plataformas comerciales.

Audio musical CC

Dataset Tamaño Licencia Uso
FMA (Free Music Archive) 106.574 tracks / 343 días / 917 GiB / 161 géneros CC variadas; metadata CC-BY 4.0 Pre-train codec. Subsets small/medium/large/full
MTG-Jamendo 55.000+ tracks / 195 tags Audio CC, metadata CC-BY-NC-SA Auto-tagging multi-label, conditioning
MUSDB18 / HQ 150 canciones, 4 stems CC-BY-NC-SA (research) Source separation, eval stems
Slakh2100 2.100 canciones / 145 h / hasta 31 stems sintetizados CC-BY 4.0 Multi-instrumento, separación
MagnaTagATune 25.863 clips 29 s / 188 tags CC Auto-tagging baseline
GTZAN 1.000 tracks 30 s / 10 géneros Académico Baseline histórico
NSynth 305.979 notas / 1.006 instrumentos CC-BY 4.0 Síntesis neural por timbre
MedleyDB 196 multitracks stems jerárquicos CC-BY-NC-SA f0 + anotaciones ricas
DAMP / Smule 34 K+ vocals karaoke amateur Research SVS, conversión vocal

MIDI

Dataset Tamaño Licencia
Lakh MIDI (LMD) 176.581 MIDIs / ~9.000 h CC-BY 4.0
MAESTRO v3 ~200 h piano clásico Disklavier / 1.276 piezas CC-BY-NC-SA
POP909 909 canciones pop chinas / ~60 h con melodía+acordes+bajo CC-BY-NC-SA
GiantMIDI-Piano 10.855 obras / 2.786 compositores / 38.7 M notas Académico
MetaMIDI Dataset 436.631 MIDIs con metadata + 10.7 M matches Spotify CC-BY 4.0
Groove MIDI ~13.6 h drumming MIDI humanizado CC-BY 4.0
MusicNet / ASAP Clásica con alineación nota / 1.068 perf. piano CC-BY 4.0 / MIT

Voz cantada (limitación crítica en español)

Dataset Idioma Tamaño Licencia
Opencpop Mandarín 5.2 h, 1 cantante CC-BY-NC-SA
M4Singer Mandarín 29.8 h, 20 cantantes SATB CC-BY-NC-SA
OpenSinger Mandarín 50 h multi-singer Research
CSD Coreano + Inglés 100 canciones, 1 cantante CC-BY 4.0
NUS-48E Inglés 169 min, 12 cantantes Research
VocalSet Inglés a cappella 10.1 h, 20 cantantes pro, 17 técnicas CC-BY 4.0
TONAS Español (flamenco) 72 excerpts ~30 s a cappella Research only

Limitación honesta en español

TONAS es prácticamente el único dataset de canto en español, y son sólo 72 fragmentos cortos de flamenco a cappella sin redistribución comercial.

Plan obligatorio para producto en español competitivo:

  1. Grabar dataset propio: 20–50 h con cantantes hispanohablantes consentidos.
  2. Contrato de cesión de derechos (Art. 51 LPI España / 17 USC §201 EE. UU.).
  3. 44.1 kHz / 24-bit.
  4. Anotaciones forzadas: lyrics + phonemes X-SAMPA + MIDI alineado + técnicas vocales.
  5. Cubrir variantes dialectales: neutro, mexicano, caribeño (PR/RD/Cuba), rioplatense, andaluz, andino.
  6. Cubrir técnicas: belt, mixed voice, falsete, melisma latino, soneo (salsa), grito ranchero, quejío flamenco.
  7. Transfer learning: pre-entrenar acoustic en M4Singer + Opencpop (mandarín) con mapeo IPA universal, fine-tune en español con 1-3 h.
  8. TTS-to-singing data augmentation: forzar F0 con WORLD/pyworld sobre TTS para crear data sintética "robótica" útil para pre-entrenar.

Letras

  • Project Gutenberg (poesía DP: Bécquer, Darío, Lorca expired según jurisdicción, Whitman, Dickinson).
  • Wikisource (canciones tradicionales/folclóricas DP).
  • Cancioneros tradicionales en dominio público.
  • Licenciar catálogos pequeños vía editoriales independientes.
  • Synthetic generation con LLM + human-in-the-loop para letras 100 % nuevas.
  • LyricsGenius / MusixMatch / Common Crawl sin filtrar: PROHIBIDO sin licencia (demandas RIAA 2024-2025).

Recomendación práctica: 80 % poesía DP + 20 % generaciones propias con estilo "letra moderna".

Pre-procesamiento y augmentation

  • Pitch shift ±2 semitonos (cuidado con formantes vocales) — Librosa / SoX / Rubber Band.
  • Time stretch ±10–15 % sin alterar pitch.
  • EQ aleatorio paramétrico ±6 dB en bandas.
  • Noise injection SNR 20-40 dB (vinyl crackle, room tone, white/pink).
  • Reverb aleatorio con IR convolution.
  • Codec augmentation: encode MP3 64-128 kbps → decode.
  • SpecAugment máscaras freq/tiempo sobre mel.
  • Mix-up combinación lineal.
  • Stem mixing Slakh/MUSDB en proporciones diversas.
  • Normalización: LUFS target -23 LUFS para training (Spotify -14, Apple -16, broadcast EBU R128 -23), peak -1 dBTP.
  • Segmentación: chunks 5–30 s para audio gen, beat-aligned con madmom/librosa; VAD para SVS phrase-level 5-15 s.

Construcción de manifests

python -m src.data.build_manifest /datasets/fma_large \
    data/manifests/fma.jsonl --label-from genre --min-duration 5

python -m src.data.build_manifest /datasets/Slakh2100/babyslakh_16k \
    data/manifests/slakh.jsonl --label-from parent --min-duration 5

Cada línea del manifest:

{"path": "/datasets/fma_large/000/000002.mp3", "duration": 30.0,
 "sample_rate": 44100, "channels": 2, "label": "Pop", "lang": ""}