Studio Lip Sync

Sincronizza un volto con un audio. Usa una foto o un video, scegli il modello, ottieni un video con le labbra sincronizzate.

Cosa puoi fare

Studio Lip Sync sincronizza il movimento della bocca e del volto con un audio:

Foto → Video — carica una foto di un volto, aggiungi audio, ottieni un video con le labbra sincronizzate
Video → Video — carica un video, sostituisci l'audio, sincronizza automaticamente
Modalità qualità — scegli tra veloce (lip-sync basic) o alta qualità (espressioni facciali realistiche)

Perfetto per: doppiate in altre lingue, avatar parlanti, video narrati, clone vocale del volto.

Come si usa

Passo 1: carica il volto

Clicca su Carica foto (o video):

Formati supportati: JPG, PNG per foto; MP4, WebM per video
Dimensione massima: 100 MB per video, 10 MB per foto
Il volto deve essere visibile e guardare verso la camera (più o meno frontale)

Passo 2: carica l'audio

Clicca su Carica audio:

Formati supportati: MP3, WAV, M4A
Dimensione massima: 50 MB
L'audio sarà sincronizzato con le labbra del volto

Puoi anche:

Passare un URL di un audio generato in Studio Audio
Registrare una voce live dal microfono

Passo 3: scegli il modello

Due opzioni:

Wav2Lip — veloce, economico

Sincronizza solo le labbra (movimento bocca)
Non cambia espressione facciale
Generazione: ~2–3 minuti per un clip da 30 secondi
Gratuito

MuseTalk — alta qualità, con espressioni

Sincronizza labbra + espressione facciale (occhi, sopracciglia, mento)
Preserva l'identità del volto
Generazione: ~3–5 minuti per un clip
Gating: disponibile per chi ha il piano a pagamento
Supporta video lunghi (es. 2–3 minuti)

Modello	Costo	Velocità	Qualità	Quando usarlo
Wav2Lip	Gratis	~2–3 min/30s	Lip-sync semplice	Test veloce, lip-sync basico
MuseTalk	Premium	~3–5 min/30s	Espressioni naturali	Video professionali, avatar realistici

Passo 4: genera

Premi Genera. Il video viene processato in background. Una notifica desktop ti avviserà quando è pronto.

Nella Galleria a destra vedi lo stato della generazione: In elaborazione → Completato.

Passo 5: scarica o usa in altri studi

Una volta pronto:

Scarica → salva nel tuo computer
Usa in → mandalo a Cinema Studio per montarlo con altri clip

Requisiti del volto

Per ottenere i migliori risultati:

Illuminazione: il volto deve essere ben illuminato (non contro-luce, non in ombra)
Posizione: guarda verso la camera (frontale o leggero profilo, no 90°)
Dimensioni: il volto deve occupare almeno il 30–50% dell'immagine/video
Qualità: foto/video nitida, non mossa, non pixelata
Espressione: neutrale o natural; il modello adatterà l'espressione all'audio

Se il volto è di profilo stretto, laterale o coperto, il sincronismo sarà peggiore.

Requisiti dell'audio

Lingua: il modello riconosce automaticamente (IT, EN, ES, ecc.)
Qualità: audio chiaro, senza echi o rumori di fondo intensi
Durata: fino a 5 minuti per MuseTalk, 1 minuto per Wav2Lip
Formato: MP3, WAV, M4A supportati

Se l'audio è basso o distorto, la sincronizzazione sarà peggiore.

Workflow tipico

Caso 1: Doppiaggio in italiana un video in inglese

Scarica il video originale (inglese)
Studio Audio → Genera la voce narrante in italiano
Carica il video originale in Studio Lip Sync
Carica l'audio italiano come "Audio"
Genera il video sincronizzato (doppiato in italiano)
Scarica il video sincronizzato finale

Caso 2: Avatar parlante dalla tua foto

Scatta una foto del tuo volto (ben illuminata, guardando la camera)
Studio Audio → Registra la voce clonata o genera TTS
Studio Lip Sync → Carica la tua foto + audio
Genera il video lip-sync (tu che parli)
Scarica il tuo avatar parlante

Caso 3: Montaggio professionale

Genera video/avatar in Lip Sync con audio finale
Studio Cinema → Carica il video sincronizzato
Monta con altri clip, aggiungi musica di sottofondo
Scarica il video montato

Tempistiche reali

Wav2Lip: 2–3 minuti per 30 secondi di video
MuseTalk: 3–5 minuti per 30 secondi di video
Se la coda è piena, attendi il tuo turno (può aggiungere 1–2 minuti)

Problemi comuni

"Il volto è storto / le labbra non si muovono bene"

→ Controlla che il volto nella foto sia dritta e ben illuminata. Riprova con una foto più nitida e frontale.

"L'audio non è sincronizzato"

→ Usa audio chiaro e di buona qualità. Se l'audio è basso o distorto, il sincronismo fallisce. Prova a rigenerare.

"Il video impiega troppo tempo"

→ MuseTalk può arrivare a 5 minuti. Se supera 10 minuti, probabile crash del backend → ricarica la pagina.

"MuseTalk non appare (solo Wav2Lip)"

→ MuseTalk è gated al piano Premium. Se non vedi il pulsante, il tuo account non ha accesso. Contatta l'amministratore.

"Voglio sincronizzare un video lungo (3+ minuti)"

→ Usa MuseTalk (supporta fino a 5 minuti, ma con tempi lunghi). Wav2Lip è ottimizzato per clip sotto 1 minuto.

Pro tip

Combina Lip Sync + Cinema: genera un avatar parlante in Lip Sync, poi mandalo a Cinema per montarlo insieme a una colonna sonora strumentale generata in Studio Audio. Risultato: un video narrativo completamente AI-generato.