Studio Lip Sync
Sincronizza un volto con un audio. Usa una foto o un video, scegli il modello, ottieni un video con le labbra sincronizzate.
Cosa puoi fare
Studio Lip Sync sincronizza il movimento della bocca e del volto con un audio:
- Foto → Video — carica una foto di un volto, aggiungi audio, ottieni un video con le labbra sincronizzate
- Video → Video — carica un video, sostituisci l'audio, sincronizza automaticamente
- Modalità qualità — scegli tra veloce (lip-sync basic) o alta qualità (espressioni facciali realistiche)
Perfetto per: doppiate in altre lingue, avatar parlanti, video narrati, clone vocale del volto.
Come si usa
Passo 1: carica il volto
Clicca su Carica foto (o video):
- Formati supportati: JPG, PNG per foto; MP4, WebM per video
- Dimensione massima: 100 MB per video, 10 MB per foto
- Il volto deve essere visibile e guardare verso la camera (più o meno frontale)
Passo 2: carica l'audio
Clicca su Carica audio:
- Formati supportati: MP3, WAV, M4A
- Dimensione massima: 50 MB
- L'audio sarà sincronizzato con le labbra del volto
Puoi anche:
- Passare un URL di un audio generato in Studio Audio
- Registrare una voce live dal microfono
Passo 3: scegli il modello
Due opzioni:
Wav2Lip — veloce, economico
- Sincronizza solo le labbra (movimento bocca)
- Non cambia espressione facciale
- Generazione: ~2–3 minuti per un clip da 30 secondi
- Gratuito
MuseTalk — alta qualità, con espressioni
- Sincronizza labbra + espressione facciale (occhi, sopracciglia, mento)
- Preserva l'identità del volto
- Generazione: ~3–5 minuti per un clip
- Gating: disponibile per chi ha il piano a pagamento
- Supporta video lunghi (es. 2–3 minuti)
| Modello | Costo | Velocità | Qualità | Quando usarlo |
|---|---|---|---|---|
| Wav2Lip | Gratis | ~2–3 min/30s | Lip-sync semplice | Test veloce, lip-sync basico |
| MuseTalk | Premium | ~3–5 min/30s | Espressioni naturali | Video professionali, avatar realistici |
Passo 4: genera
Premi Genera. Il video viene processato in background. Una notifica desktop ti avviserà quando è pronto.
Nella Galleria a destra vedi lo stato della generazione: In elaborazione → Completato.
Passo 5: scarica o usa in altri studi
Una volta pronto:
- Scarica → salva nel tuo computer
- Usa in → mandalo a Cinema Studio per montarlo con altri clip
Requisiti del volto
Per ottenere i migliori risultati:
- Illuminazione: il volto deve essere ben illuminato (non contro-luce, non in ombra)
- Posizione: guarda verso la camera (frontale o leggero profilo, no 90°)
- Dimensioni: il volto deve occupare almeno il 30–50% dell'immagine/video
- Qualità: foto/video nitida, non mossa, non pixelata
- Espressione: neutrale o natural; il modello adatterà l'espressione all'audio
Se il volto è di profilo stretto, laterale o coperto, il sincronismo sarà peggiore.
Requisiti dell'audio
- Lingua: il modello riconosce automaticamente (IT, EN, ES, ecc.)
- Qualità: audio chiaro, senza echi o rumori di fondo intensi
- Durata: fino a 5 minuti per MuseTalk, 1 minuto per Wav2Lip
- Formato: MP3, WAV, M4A supportati
Se l'audio è basso o distorto, la sincronizzazione sarà peggiore.
Workflow tipico
Caso 1: Doppiaggio in italiana un video in inglese
- Scarica il video originale (inglese)
- Studio Audio → Genera la voce narrante in italiano
- Carica il video originale in Studio Lip Sync
- Carica l'audio italiano come "Audio"
- Genera il video sincronizzato (doppiato in italiano)
- Scarica il video sincronizzato finale
Caso 2: Avatar parlante dalla tua foto
- Scatta una foto del tuo volto (ben illuminata, guardando la camera)
- Studio Audio → Registra la voce clonata o genera TTS
- Studio Lip Sync → Carica la tua foto + audio
- Genera il video lip-sync (tu che parli)
- Scarica il tuo avatar parlante
Caso 3: Montaggio professionale
- Genera video/avatar in Lip Sync con audio finale
- Studio Cinema → Carica il video sincronizzato
- Monta con altri clip, aggiungi musica di sottofondo
- Scarica il video montato
Tempistiche reali
- Wav2Lip: 2–3 minuti per 30 secondi di video
- MuseTalk: 3–5 minuti per 30 secondi di video
- Se la coda è piena, attendi il tuo turno (può aggiungere 1–2 minuti)
Problemi comuni
"Il volto è storto / le labbra non si muovono bene"
→ Controlla che il volto nella foto sia dritta e ben illuminata. Riprova con una foto più nitida e frontale.
"L'audio non è sincronizzato"
→ Usa audio chiaro e di buona qualità. Se l'audio è basso o distorto, il sincronismo fallisce. Prova a rigenerare.
"Il video impiega troppo tempo"
→ MuseTalk può arrivare a 5 minuti. Se supera 10 minuti, probabile crash del backend → ricarica la pagina.
"MuseTalk non appare (solo Wav2Lip)"
→ MuseTalk è gated al piano Premium. Se non vedi il pulsante, il tuo account non ha accesso. Contatta l'amministratore.
"Voglio sincronizzare un video lungo (3+ minuti)"
→ Usa MuseTalk (supporta fino a 5 minuti, ma con tempi lunghi). Wav2Lip è ottimizzato per clip sotto 1 minuto.
Pro tip
Combina Lip Sync + Cinema: genera un avatar parlante in Lip Sync, poi mandalo a Cinema per montarlo insieme a una colonna sonora strumentale generata in Studio Audio. Risultato: un video narrativo completamente AI-generato.