Python: Extrair dados de PDFs

Бюджет: 30 $

Tenho um lote recorrente de PDFs — alguns são digitais nativos, outros são apenas imagens escaneadas e preciso de um script em Python que percorra cada arquivo, localize trechos específicos, capture esses dados exatamente como aparecem (ex.: se for um cpf, que mantenha os caracteres origianis como 111.045.094-40) e consolide tudo em Planilha CSV. O texto quase sempre está em seções definidas do documento, então o processo pode se basear em posições, títulos de capítulos ou qualquer heurística que você considere mais sólida. Para páginas escaneadas, será indispensável OCR; nos PDFs digitais, a extração direta por biblioteca é suficiente. Espero que o código trate os dois casos de modo automático, usando algo como PyPDF2/pdfminer.six para texto nativo e Tesseract ou similar para OCR, aplicando regex para isolar os padrões numéricos. Entrego uma pasta-exemplo assim que fecharmos. Preciso: • script completo (.py) com instruções de execução e dependências • CSV gerado a partir da pasta-exemplo, com uma linha por ocorrência (colunas: arquivo, página, número extraído) • comentários no código que facilitem ajustes futuros Aceito sugestões de melhoria, mas a formatação dos números deve chegar ao CSV exatamente igual ao que aparece no PDF.

Регистрация