Go to file

Cesar Mendivil c22767d3d4 Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

- Updated `srt_to_kokoro.py` to provide a CLI entrypoint with argument parsing.
- Enhanced error handling and logging for better user feedback.
- Introduced a compatibility layer for legacy scripts.
- Added configuration handling via `config.toml` for endpoint and API key.
- Improved documentation and comments for clarity.

Enhance PipelineOrchestrator with in-process transcriber fallback

- Implemented `InProcessTranscriber` to handle transcription using multiple strategies.
- Added support for `srt_only` flag to return translated SRT without TTS synthesis.
- Improved error handling and logging for transcriber initialization.

Add installation and usage documentation

- Created `INSTALLATION.md` for detailed setup instructions for CPU and GPU environments.
- Added `USAGE.md` with practical examples for common use cases and command-line options.
- Included a script for automated installation and environment setup.

Implement SRT burning utility

- Added `burn_srt.py` to facilitate embedding SRT subtitles into video files using ffmpeg.
- Provided command-line options for style and codec customization.

Update project configuration management

- Introduced `config.py` to centralize configuration loading from `config.toml`.
- Ensured that environment variables are not read to avoid implicit overrides.

Enhance package management with `pyproject.toml`

- Added `pyproject.toml` for modern packaging and dependency management.
- Defined optional dependencies for CPU and TTS support.

Add smoke test fixture for SRT

- Created `smoke_test.srt` as a sample subtitle file for testing purposes.

Update requirements and setup configurations

- Revised `requirements.txt` and `setup.cfg` for better dependency management and clarity.
- Included installation instructions for editable mode and local TTS support.

2025-10-25 00:00:02 -07:00

DOCS

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

output/dailyrutines

Add diagrams and documentation for the Whisper Pipeline architecture

2025-10-24 16:49:49 -07:00

scripts

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

tests

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

whisper_project

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

.gitignore

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

config.toml.example

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

EXAMPLES.md

Update transcript from video fixed the orchester

2025-10-24 15:17:03 -07:00

mkdocs.yml

Add diagrams and documentation for the Whisper Pipeline architecture

2025-10-24 16:49:49 -07:00

prompt_init.md

Init commit

2025-10-23 21:54:13 -07:00

pyproject.toml

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

README.md

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

requirements.txt

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

setup.cfg

Refactor SRT to Kokoro synthesis script for improved CLI functionality and compatibility

2025-10-25 00:00:02 -07:00

README.md

Whisper Project (pipeline multimedia)

Resumen rápido

Canalización para: extraer audio de vídeo -> transcripción -> (opcional) traducción -> generar SRT -> sintetizar por segmentos (Kokoro o TTS local) -> reemplazar pista de audio -> quemar subtítulos.

Este repo prioriza instalaciones CPU-first por defecto. En requirements.txt y whisper_project/requirements.txt encontrarás pins y recomendaciones para instalaciones CPU-only.

Quick start (recomendado para CPU)

Crear y activar virtualenv (Python 3.11 recomendado):

python3.11 -m venv .venv311
source .venv311/bin/activate
python -m pip install --upgrade pip

Instalar PyTorch (CPU wheel) explícitamente:

python -m pip install torch --index-url https://download.pytorch.org/whl/cpu

Instalar las demás dependencias pinned:

python -m pip install -r requirements.txt

(Opcional) instalar deps internas del paquete editable:

python -m pip install -e .

Nota: con pyproject.toml en la raíz ahora puedes instalar el paquete en modo editable usando:

python -m pip install -e .

esto usará el pyproject.toml (TOML) como fuente de metadatos y extras.

Ejecutar la pipeline (ejemplo)

Usando config.toml en la raíz (si tienes Kokoro):

.venv311/bin/python -m whisper_project.main \
  --video output/dailyrutines/dailyrutines.mp4 \
  --translate-method local

Ejemplo sin traducción (solo SRT->TTS):

.venv311/bin/python -m whisper_project.main --video input.mp4 --translate-method none

Uso de `config.toml`

Coloca un config.toml en la raíz con:

[kokoro]
endpoint = "https://kokoro.example/synthesize"
api_key = "sk-..."
voice = "em_anna"
model = "tacotron2"

El CLI usa la precedencia: CLI > config.toml > ENV (modo override-env por defecto).

Coqui TTS (local) vs Kokoro (remoto)

Kokoro: cliente HTTP que sintetiza por segmento. Bueno si tienes endpoint estable y quieres offload.
Local Coqui TTS: útil si no quieres dependencia de red y tienes CPU suficiente; requiere modelos locales y más espacio.

Para usar Coqui TTS local, instala TTS y dependencias (ya listadas en whisper_project/requirements.txt) y ejecuta con la flag --local-tts.

Recomendaciones y troubleshooting

Si ves problemas de memoria/tiempo, reduce el modelo de faster-whisper a small o base.
Para problemas con torch, instala explicitamente desde el índice CPU (ver arriba).
Si ffmpeg falla, revisa que ffmpeg y ffprobe estén en PATH.

Más documentación

Consulta DOCS/architecture.md para la documentación técnica completa, diagramas y guías de pruebas. Para instrucciones de instalación y quickstart (CPU/GPU) revisa DOCS/INSTALLATION.md.

Licencia y contribución

Revisa CONTRIBUTING.md (si existe) y respeta la política de no subir credenciales en config.toml — utiliza config.toml.example como plantilla.

Fin del README.

Whisper Pipeline — Documentación

Bienvenido: esta carpeta contiene la documentación generada para la canalización multimedia (Whisper + Kokoro).

Ver la arquitectura: Architecture (navegación de MkDocs).
Para servir las docs localmente:

.venv/bin/mkdocs serve --dev-addr=127.0.0.1:8000

Puedes encontrar el diagrama del pipeline en docs/assets/pipeline_diagram.png.

Whisper dubbing pipeline

Proyecto con utilidades para transcribir, traducir y doblar vídeos por segmentos usando Whisper + TTS (Kokoro). Está pensado para ejecutar dentro de un entorno virtual Python y con ffmpeg disponible en PATH.

Contenido principal

whisper_project/transcribe.py - transcribe audio a SRT (faster-whisper backend recomendado).
whisper_project/translate_srt_local.py - traduce SRT localmente con MarianMT (Helsinki-NLP/opus-mt-en-es).
whisper_project/srt_to_kokoro.py - sintetiza cada segmento del SRT usando un endpoint TTS compatible (Kokoro), alinea, concatena y opcionalmente mezcla/reemplaza audio en el vídeo.
whisper_project/run_full_pipeline.py - orquestador "todo en uno" para extraer, transcribir (si hace falta), traducir y sintetizar + quemar subtítulos.

Nota de migración (importante)

Este repositorio fue reorganizado para seguir una arquitectura basada en adaptadores y un orquestador central.

El entrypoint canónico para la canalización es ahora whisper_project/main.py — úsalo para automatización o integración.
Para mantener compatibilidad con scripts históricos, whisper_project/run_full_pipeline.py existe como shim y delega a main.py.
Existen scripts de ejemplo en el directorio examples/. Para comodidad se añadieron shims en whisper_project/ que preferirán los adaptadores de whisper_project/infra/ y, si no están disponibles, harán fallback a los scripts en examples/.

Recomendación: cuando automatices o enlaces la canalización desde otras herramientas, invoca whisper_project/main.py y usa la opción --dry-run para verificar los pasos sin ejecutar cambios.

Requisitos

Python 3.10+ (se recomienda usar el .venv del proyecto)
ffmpeg y ffprobe en PATH
Paquetes Python (instala en el venv):
- requests, srt, transformers, sentencepiece, torch (si usas MarianMT en CPU), etc.

Uso recomendado (ejemplos)

Ejecutar en dry-run para ver los comandos que se ejecutarán:

.venv/bin/python whisper_project/run_full_pipeline.py \
  --video dailyrutines.mp4 \
  --kokoro-endpoint "https://kokoro.example/api/v1/audio/speech" \
  --kokoro-key "$KOKORO_TOKEN" \
  --voice em_alex \
  --whisper-model base \
  --dry-run

Ejecutar la canalización real (traducción local y reemplazo de la pista de audio):

.venv/bin/python whisper_project/run_full_pipeline.py \
  --video dailyrutines.mp4 \
  --kokoro-endpoint "https://kokoro.example/api/v1/audio/speech" \
  --kokoro-key "$KOKORO_TOKEN" \
  --voice em_alex \
  --whisper-model base

Flags importantes del orquestador (run_full_pipeline.py)

--translate-method : local | gemini | none. Por defecto local (MarianMT). Si eliges gemini necesitas --gemini-key.
--gemini-key : API key para Gemini (si usas --translate-method=gemini).
--mix : en lugar de reemplazar, mezcla el audio sintetizado con la pista original. Ajusta volumen de fondo con --mix-background-volume.
--mix-background-volume : volumen de la pista original cuando se mezclan (0.0 - 1.0).
--keep-chunks : conserva los WAV por segmento (útil para debugging).
--keep-temp : no borra el directorio temporal final (conserva dub_final.wav y chunks si --keep-chunks).
--dry-run : sólo muestra los comandos que se ejecutarían.

Uso directo de srt_to_kokoro.py (si ya tienes un SRT traducido)

.venv/bin/python whisper_project/srt_to_kokoro.py \
  --srt translated.srt \
  --endpoint "https://kokoro.example/api/v1/audio/speech" \
  --payload-template '{"model":"model","voice":"em_alex","input":"{text}","response_format":"wav"}' \
  --api-key "$KOKORO_TOKEN" \
  --out out.wav \
  --video input.mp4 --align --replace-original

Notas y troubleshooting

Si el endpoint TTS devuelve 400 Bad Request suele ser por quoting/format del --payload-template. run_full_pipeline.py ya maneja el quoting para el caso común.
Si ffmpeg muestra mensajes sobre "Too many bits" o "clamping" al crear el AAC, es una advertencia por bitrate; el MP4 suele generarse correctamente.
Si la síntesis remota falla por autenticación, revisa la clave (--kokoro-key) o usa --translate-method local y prueba con un proveedor de TTS alternativo en srt_to_kokoro.py.

Siguientes mejoras sugeridas

Validar que --mix y --replace-original no se usen simultáneamente y añadir una opción explícita mutuamente exclusiva.
Añadir soporte para más backends de TTS (local TTS, Whisper TTS engines, o Argos local si se desea).

Licencia y seguridad

Este repositorio contiene scripts de ejemplo. Cuida tus claves API y no las subas a repositorios públicos.

Si quieres, añado ejemplos concretos de comandos con --mix o con --keep-temp y un breve archivo EXAMPLES.md con variantes más avanzadas.

README.md

Whisper Project (pipeline multimedia)

Resumen rápido

Quick start (recomendado para CPU)

Ejecutar la pipeline (ejemplo)

Uso de config.toml

Coqui TTS (local) vs Kokoro (remoto)

Recomendaciones y troubleshooting

Más documentación

Licencia y contribución

Whisper Pipeline — Documentación

Whisper dubbing pipeline

Nota de migración (importante)

Uso de `config.toml`