Limpieza e Imputación Datos Textuales

Бюджет: 250 $

Trabajo con un conjunto de datos puramente textual que, tras la extracción, quedó plagado de valores nulos en diferentes campos (tokens normalizados, lemas, etiquetas, etc.). Necesito dejar el archivo listo para análisis NLP y modelado, por lo que requiero un preprocesamiento completo que abarque: • Detección exhaustiva de celdas vacías, incoherentes o marcadas como “unknown”. • Imputación mediante modelos estadísticos (p. ej. regresión logística, árboles, KNN o enfoques bayesianos) en lugar de técnicas simples como media, moda o valores fijos. • Generación del dataset final en CSV y, en paralelo, un breve informe reproducible (Jupyter/Colab o R-Markdown) que explique cada paso, métricas de validación y código utilizado. Las columnas son cien por ciento texto, por lo que se espera que el pipeline incluya limpieza estándar (lowercasing, normalización de acentos, eliminación de ruido) antes de la imputación. Para evaluar candidaturas solo revisaré ejemplos de trabajos anteriores donde hayan aplicado modelos estadísticos de imputación o un flujo de limpieza similar sobre datos textuales. Facilítenme los enlaces o repositorios directos. Entrego acceso al dataset original y los requisitos de formato al aceptar la propuesta; la propiedad de los resultados será totalmente mía tras la entrega.

Python

Registration