44

Desenvolvimento de sistema automatizado para gerar vídeos de resumo de Manhua (IA + Python)

UpworkBRNot specifiedintermediate
OpenCVPythonOCR SoftwareFFmpegIA API's
Visão Geral do Projeto Estou procurando um desenvolvedor ou equipe para criar um software capaz de transformar automaticamente um vídeo contendo páginas de manhua em um vídeo narrado pronto para publicação no YouTube. O usuário fornecerá apenas um vídeo rolando as páginas do capítulo e o sistema deverá realizar automaticamente todas as etapas necessárias para gerar um vídeo final narrado e editado. Objetivo do Sistema O sistema deverá executar automaticamente o seguinte fluxo: Vídeo de páginas do manhua → extração de páginas → detecção de painéis → OCR de balões → reconstrução narrativa → geração de roteiro → seleção de imagens → geração de narração → edição automática → vídeo final. Etapas do Sistema 1. Entrada de vídeo contendo páginas do manhua. 2. Detecção de páginas estáticas e extração de imagens. 3. Segmentação de painéis individuais. 4. Detecção de balões de fala. 5. OCR para extração de texto. 6. Reconstrução narrativa com IA. 7. Geração de roteiro estilo YouTube. 8. Associação automática de imagens ao roteiro. 9. Geração de narração automática. 10. Edição automática do vídeo. Tecnologias sugeridas Python, OpenCV, FFmpeg, PaddleOCR, YOLO, CLIP embeddings, APIs de modelos de linguagem, sistemas de TTS e MoviePy. Estrutura de saída esperada Projeto_Capitulo/ roteiro.txt audio_narracao.mp3 cena_01/imagem01.png cena_02/imagem02.png video_final.mp4 Escopo inicial (MVP) Primeira versão deverá realizar: vídeo → extração de páginas → OCR → geração de roteiro Project Overview I am looking for a developer or development team to create software capable of automatically converting a video containing manhua pages into a narrated YouTube-ready summary video. The user will only provide a video scrolling through the pages of a chapter, and the system should automatically perform all steps necessary to produce a final narrated and edited video. System Objective The system should automatically perform the following pipeline: Manhua pages video → page extraction → panel detection → speech bubble OCR → narrative reconstruction → script generation → image selection → narration generation → automated editing → final video. System Steps 1. Video input containing the chapter pages. 2. Detection of static pages and extraction of images. 3. Segmentation of panels. 4. Speech bubble detection. 5. OCR text extraction. 6. Narrative reconstruction using AI. 7. YouTube-style script generation. 8. Automatic image matching with the script. 9. Voice narration generation. 10. Automatic video editing. Suggested Technologies Python, OpenCV, FFmpeg, PaddleOCR, YOLO, CLIP embeddings, LLM APIs, TTS systems and MoviePy. Expected Output Structure Chapter_Project/ script.txt narration_audio.mp3 scene_01/image01.png scene_02/image02.png final_video.mp4 Initial Scope (MVP) The first version should be capable of: video → page extraction → OCR → script generation.
View Original Listing
Unlock AI intelligence, score breakdowns, and real-time alerts
Upgrade to Pro — $29.99/mo