Indice della documentazione

Studio Lip Sync

Sincronizza un volto con un audio. Usa una foto o un video, scegli il modello, ottieni un video con le labbra sincronizzate.

Cosa puoi fare

Studio Lip Sync sincronizza il movimento della bocca e del volto con un audio:

  • Foto → Video — carica una foto di un volto, aggiungi audio, ottieni un video con le labbra sincronizzate
  • Video → Video — carica un video, sostituisci l'audio, sincronizza automaticamente
  • Modalità qualità — scegli tra veloce (lip-sync basic) o alta qualità (espressioni facciali realistiche)

Perfetto per: doppiate in altre lingue, avatar parlanti, video narrati, clone vocale del volto.

Come si usa

Passo 1: carica il volto

Clicca su Carica foto (o video):

  • Formati supportati: JPG, PNG per foto; MP4, WebM per video
  • Dimensione massima: 100 MB per video, 10 MB per foto
  • Il volto deve essere visibile e guardare verso la camera (più o meno frontale)

Passo 2: carica l'audio

Clicca su Carica audio:

  • Formati supportati: MP3, WAV, M4A
  • Dimensione massima: 50 MB
  • L'audio sarà sincronizzato con le labbra del volto

Puoi anche:

  • Passare un URL di un audio generato in Studio Audio
  • Registrare una voce live dal microfono

Passo 3: scegli il modello

Due opzioni:

Wav2Lip — veloce, economico

  • Sincronizza solo le labbra (movimento bocca)
  • Non cambia espressione facciale
  • Generazione: ~2–3 minuti per un clip da 30 secondi
  • Gratuito

MuseTalk — alta qualità, con espressioni

  • Sincronizza labbra + espressione facciale (occhi, sopracciglia, mento)
  • Preserva l'identità del volto
  • Generazione: ~3–5 minuti per un clip
  • Gating: disponibile per chi ha il piano a pagamento
  • Supporta video lunghi (es. 2–3 minuti)
ModelloCostoVelocitàQualitàQuando usarlo
Wav2LipGratis~2–3 min/30sLip-sync sempliceTest veloce, lip-sync basico
MuseTalkPremium~3–5 min/30sEspressioni naturaliVideo professionali, avatar realistici

Passo 4: genera

Premi Genera. Il video viene processato in background. Una notifica desktop ti avviserà quando è pronto.

Nella Galleria a destra vedi lo stato della generazione: In elaborazione → Completato.

Passo 5: scarica o usa in altri studi

Una volta pronto:

  • Scarica → salva nel tuo computer
  • Usa in → mandalo a Cinema Studio per montarlo con altri clip

Requisiti del volto

Per ottenere i migliori risultati:

  • Illuminazione: il volto deve essere ben illuminato (non contro-luce, non in ombra)
  • Posizione: guarda verso la camera (frontale o leggero profilo, no 90°)
  • Dimensioni: il volto deve occupare almeno il 30–50% dell'immagine/video
  • Qualità: foto/video nitida, non mossa, non pixelata
  • Espressione: neutrale o natural; il modello adatterà l'espressione all'audio

Se il volto è di profilo stretto, laterale o coperto, il sincronismo sarà peggiore.

Requisiti dell'audio

  • Lingua: il modello riconosce automaticamente (IT, EN, ES, ecc.)
  • Qualità: audio chiaro, senza echi o rumori di fondo intensi
  • Durata: fino a 5 minuti per MuseTalk, 1 minuto per Wav2Lip
  • Formato: MP3, WAV, M4A supportati

Se l'audio è basso o distorto, la sincronizzazione sarà peggiore.

Workflow tipico

Caso 1: Doppiaggio in italiana un video in inglese

  1. Scarica il video originale (inglese)
  2. Studio Audio → Genera la voce narrante in italiano
  3. Carica il video originale in Studio Lip Sync
  4. Carica l'audio italiano come "Audio"
  5. Genera il video sincronizzato (doppiato in italiano)
  6. Scarica il video sincronizzato finale

Caso 2: Avatar parlante dalla tua foto

  1. Scatta una foto del tuo volto (ben illuminata, guardando la camera)
  2. Studio Audio → Registra la voce clonata o genera TTS
  3. Studio Lip Sync → Carica la tua foto + audio
  4. Genera il video lip-sync (tu che parli)
  5. Scarica il tuo avatar parlante

Caso 3: Montaggio professionale

  1. Genera video/avatar in Lip Sync con audio finale
  2. Studio Cinema → Carica il video sincronizzato
  3. Monta con altri clip, aggiungi musica di sottofondo
  4. Scarica il video montato

Tempistiche reali

  • Wav2Lip: 2–3 minuti per 30 secondi di video
  • MuseTalk: 3–5 minuti per 30 secondi di video
  • Se la coda è piena, attendi il tuo turno (può aggiungere 1–2 minuti)

Problemi comuni

"Il volto è storto / le labbra non si muovono bene"

→ Controlla che il volto nella foto sia dritta e ben illuminata. Riprova con una foto più nitida e frontale.

"L'audio non è sincronizzato"

→ Usa audio chiaro e di buona qualità. Se l'audio è basso o distorto, il sincronismo fallisce. Prova a rigenerare.

"Il video impiega troppo tempo"

→ MuseTalk può arrivare a 5 minuti. Se supera 10 minuti, probabile crash del backend → ricarica la pagina.

"MuseTalk non appare (solo Wav2Lip)"

→ MuseTalk è gated al piano Premium. Se non vedi il pulsante, il tuo account non ha accesso. Contatta l'amministratore.

"Voglio sincronizzare un video lungo (3+ minuti)"

→ Usa MuseTalk (supporta fino a 5 minuti, ma con tempi lunghi). Wav2Lip è ottimizzato per clip sotto 1 minuto.

Pro tip

Combina Lip Sync + Cinema: genera un avatar parlante in Lip Sync, poi mandalo a Cinema per montarlo insieme a una colonna sonora strumentale generata in Studio Audio. Risultato: un video narrativo completamente AI-generato.