Desenvolvimento de sistema automatizado para gerar vídeos de resumo de Manhua (IA + Python)

UpworkBRNot specifiedintermediate
OpenCVPythonOCR SoftwareFFmpegIA API's
Visão Geral do Projeto
Estou procurando um desenvolvedor ou equipe para criar um software capaz de transformar
automaticamente um vídeo contendo páginas de manhua em um vídeo narrado pronto para
publicação no YouTube. O usuário fornecerá apenas um vídeo rolando as páginas do capítulo e o
sistema deverá realizar automaticamente todas as etapas necessárias para gerar um vídeo final
narrado e editado.
Objetivo do Sistema
O sistema deverá executar automaticamente o seguinte fluxo:
Vídeo de páginas do manhua → extração de páginas → detecção de painéis → OCR de balões →
reconstrução narrativa → geração de roteiro → seleção de imagens → geração de narração →
edição automática → vídeo final.
Etapas do Sistema
1. Entrada de vídeo contendo páginas do manhua.
2. Detecção de páginas estáticas e extração de imagens.
3. Segmentação de painéis individuais.
4. Detecção de balões de fala.
5. OCR para extração de texto.
6. Reconstrução narrativa com IA.
7. Geração de roteiro estilo YouTube.
8. Associação automática de imagens ao roteiro.
9. Geração de narração automática.
10. Edição automática do vídeo.
Tecnologias sugeridas
Python, OpenCV, FFmpeg, PaddleOCR, YOLO, CLIP embeddings, APIs de modelos de
linguagem, sistemas de TTS e MoviePy.
Estrutura de saída esperada
Projeto_Capitulo/
roteiro.txt
audio_narracao.mp3
cena_01/imagem01.png
cena_02/imagem02.png
video_final.mp4
Escopo inicial (MVP)
Primeira versão deverá realizar: vídeo → extração de páginas → OCR → geração de roteiro



Project Overview
I am looking for a developer or development team to create software capable of automatically
converting a video containing manhua pages into a narrated YouTube-ready summary video. The
user will only provide a video scrolling through the pages of a chapter, and the system should
automatically perform all steps necessary to produce a final narrated and edited video.
System Objective
The system should automatically perform the following pipeline:
Manhua pages video → page extraction → panel detection → speech bubble OCR → narrative
reconstruction → script generation → image selection → narration generation → automated editing
→ final video.
System Steps
1. Video input containing the chapter pages.
2. Detection of static pages and extraction of images.
3. Segmentation of panels.
4. Speech bubble detection.
5. OCR text extraction.
6. Narrative reconstruction using AI.
7. YouTube-style script generation.
8. Automatic image matching with the script.
9. Voice narration generation.
10. Automatic video editing.
Suggested Technologies
Python, OpenCV, FFmpeg, PaddleOCR, YOLO, CLIP embeddings, LLM APIs, TTS systems and
MoviePy.
Expected Output Structure
Chapter_Project/
script.txt
narration_audio.mp3
scene_01/image01.png
scene_02/image02.png
final_video.mp4
Initial Scope (MVP)
The first version should be capable of: video → page extraction → OCR → script generation.
View Original Listing
Unlock AI intelligence, score breakdowns, and real-time alerts
Upgrade to Pro — $29.99/mo