Studio Audio

Genera voce sintetizzata, musica strumentale, musica con voce e effetti audio. Post-produzione inclusa.

Cosa puoi fare

Studio Audio crea e modifica audio in ogni forma:

Voce sintetizzata — leggi testi a voce alta (TTS)
Musica strumentale — genere e mood (jazz, lo-fi, cinematico, ecc.)
Musica con voce — descrizione + testo cantato (lyrics)
Post-produzione — separazione stem, riduzione rumore, mastering

Parte 1: Generazione voce e musica

Scegli il tipo

In alto a sinistra, tre pulsanti:

Voce — sintesi vocale da testo
Musica strumentale — genere e atmosfera
Musica con voce — brano completo con lyrics

Voce sintetizzata

Scegli il modello:

Chatterbox TTS — veloce, qualità buona, gratuito
Chatterbox HD — qualità HD locale, gratuito, voce più naturale
IndexTTS2 — Premium HD — voce ultra-realistica, emozionale, gating (piano a pagamento)
Modelli cloud (MiniMax, F5-TTS, Qwen3-TTS) — qualità eccellente, con opzioni di voce ricca

Scrivi il testo che vuoi sentire letto ad alta voce

Opzionale: seleziona la voce

Modelli cloud hanno voci preset (Maria, Luca, ecc.)
Alcuni modelli permettono voce su misura: descrivi la voce desiderata (*"voce maschile profonda e calma"*)

Genera — la voce viene creata in pochi secondi

Musica strumentale

Scegli il modello:

Stable Audio — gratuito, strumentale di qualità
Lyria 2, Eleven Music — cloud, qualità premium

Descrivi il genere e il mood

Esempio: *"lo-fi hip hop, rilassante, con piano e batteria soft"*
Esempio: *"cinematico epico, archi, ottoni, drammatico"*

Durata: 10–120 secondi (dipende dal modello)

Genera — la musica viene creata

Musica con voce

Scegli il modello:

ACE-Step — gratuito, genera brani completi con lyrics
Yue, Lyria 2 (cloud) — premium, qualità studio

Scrivi lo stile/genere

Esempio: *"pop melodico, energico, female vocals"*

Incolla i lyrics (opzionale)

Usa tag come [verse], [chorus] per strutturare il brano
Se vuoto, il modello genera musica strumentale

Durata: 15–300 secondi

Genera — il brano viene creato con voce sintetizzata

Parte 2: Post-produzione audio

Dopo aver generato un audio o caricato il tuo, puoi applicare effetti:

Dalla Galleria → "Usa in"

Genera o carica un audio
In Galleria, clicca Usa in → Post-produzione audio
Scegli l'effetto:

Stem split (Demucs) — separa voce, batteria, bassi, altri strumenti
Denoise voce — rimuove i rumori di fondo dalla voce
Master su reference — matching automatico del mastering (fornisci un audio "reference" e lo shaping si applica al tuo)

Effetti disponibili

Effetto	Cosa fa	Quando usarlo
Demucs	Separa voce da musica	Se vuoi usare solo la voce, o solo la musica di un brano
Denoise	Toglie rumori e fruscii	Voce registrata male, registrazione da microfono economico
Matchering	Copia lo stile di mastering	Vuoi che la tua traccia suoni come quella di un altro artista

Gestione sessione

A destra, Galleria audio mostra:

Tutti gli audio generati nella sessione attuale
Durata e modello usato
Pulsanti: Ascolta, Scarica, Usa in, Elimina

Premi Nuova sessione per cancellare la griglia e ricominciare.

Modelli gratuiti vs Premium

Modello	Costo	Qualità	Quando usarlo
Chatterbox TTS	Gratis	Buona	TTS veloce, narrativo
Chatterbox HD	Gratis	Buona HD	TTS più naturale, locale
Stable Audio	Gratis	Buona	Musica strumentale veloce
ACE-Step	Gratis	Buona	Brani con voce sintetizzata
Cloud (MiniMax, F5, Qwen, Lyria, Eleven)	A crediti	Eccellente	Studio quality, voce naturalissima

Tempistiche reali

Voce TTS: 5–20 secondi
Musica strumentale: 20–60 secondi
Musica con voce: 1–3 minuti
Post-produzione (stem/denoise/master): 30–120 secondi

Problemi comuni

"La voce non si ascolta"

→ Prova un modello diverso. Alcuni modelli richiedono crediti (lucchetto 🔒).

"L'audio è troppo veloce/lento"

→ Modelli cloud permettono il parametro Velocità: regolalo da 0.5× a 2.0×.

"Voglio clonare la MIA voce"

→ Registra un campione audio (10–20 secondi), caricalo come Campione voce. I modelli F5-TTS e Qwen3-TTS supportano il cloning zero-shot.

"Il mastering sounds "strano""

→ Usa un audio reference di qualità (da Spotify, YouTube con buona mastering). Il matching sarà fedele al reference.

Pro tip

Genera la voce narrante in Studio Audio, poi mandala a Cinema Studio per sincronizzarla con un video con lip sync. Oppure genera musica + voce in un brano completo e usalo come colonna sonora nei tuoi video.