49 lines
2.0 KiB
Markdown
49 lines
2.0 KiB
Markdown
EXAMPLES - Pipeline Whisper + Kokoro TTS
|
|
|
|
Ejemplos de uso (desde la raíz del repo, usando el venv .venv):
|
|
|
|
1) Dry-run (muestra los comandos que se ejecutarían):
|
|
|
|
.venv/bin/python whisper_project/run_full_pipeline.py \
|
|
--video dailyrutines.mp4 \
|
|
--kokoro-endpoint "https://kokoro.bfzqqk.easypanel.host/api/v1/audio/speech" \
|
|
--kokoro-key "$KOKORO_TOKEN" --voice em_alex \
|
|
--whisper-model base --dry-run
|
|
|
|
2) Ejecución completa (reemplaza el audio):
|
|
|
|
.venv/bin/python whisper_project/run_full_pipeline.py \
|
|
--video dailyrutines.mp4 \
|
|
--kokoro-endpoint "https://kokoro.bfzqqk.easypanel.host/api/v1/audio/speech" \
|
|
--kokoro-key "$KOKORO_TOKEN" --voice em_alex \
|
|
--whisper-model base
|
|
|
|
3) Usar un SRT ya generado (evita transcribir):
|
|
|
|
.venv/bin/python whisper_project/run_full_pipeline.py \
|
|
--video dailyrutines.mp4 --srt subs_en.srt \
|
|
--kokoro-endpoint "https://kokoro..." --kokoro-key "$KOKORO_TOKEN" --voice em_alex
|
|
|
|
4) Traducir con Gemini (si tienes clave) o usar fallback local:
|
|
|
|
# Usar Gemini (requiere --gemini-key o la variable GEMINI_API_KEY)
|
|
.venv/bin/python whisper_project/run_full_pipeline.py \
|
|
--video dailyrutines.mp4 --translate-method gemini --gemini-key "$GEMINI_KEY" \
|
|
--kokoro-endpoint "https://kokoro..." --kokoro-key "$KOKORO_TOKEN" --voice em_alex
|
|
|
|
# Forzar traducción local (MarianMT):
|
|
.venv/bin/python whisper_project/run_full_pipeline.py \
|
|
--video dailyrutines.mp4 --translate-method local \
|
|
--kokoro-endpoint "https://kokoro..." --kokoro-key "$KOKORO_TOKEN" --voice em_alex
|
|
|
|
5) Mezclar (mix) en lugar de reemplazar:
|
|
|
|
.venv/bin/python whisper_project/run_full_pipeline.py \
|
|
--video dailyrutines.mp4 --mix --mix-background-volume 0.3 \
|
|
--kokoro-endpoint "https://kokoro..." --kokoro-key "$KOKORO_TOKEN" --voice em_alex
|
|
|
|
Notas:
|
|
- Si algo falla con Gemini, el pipeline soporta fallback a la traducción local.
|
|
- Usa --keep-temp y/o --keep-chunks para inspeccionar los WAV intermedios.
|
|
- Ajusta --whisper-model a "base", "small", "medium" según recursos.
|