Introducción

Introduction


El español es el Segundo idioma más hablado en el mundo (Ethnologue, 2015).  Por lo tanto existe una gran variedad de textos en español almacenados en forma electrónica. Este corpus puede proporcionar información acerca de un tema en específico. Por otro lado se puede generar nuevos conocimientos a partir de lo ya conocido.  Esto nos muestra el gran desafío multilingüe que la clasificación de texto enfrenta.

Con el fin organizar estos documentos, se ha empleado la minería de texto. El objetivo de la minería textual es descubrir conocimiento que a partir de un corpus de texto recaudado. La minería de texto procesa amplias colecciones de texto sin etiquetas que descubre  información. Esta explora amplias colecciones de texto en forma electrónica para buscar relaciones en su contenido y así poder establecer patrones que extraen conocimientos útiles. La información de un texto se puede absorber de un corpus dependiendo de la lengua. El corpus es un recurso con información lingüística de diferente tipo que permite el trato del mismo conocimiento. El corpus está formado con diferentes tipos de materia lingüística semántico, sintáctica, pragmática, categorías gramaticales, relaciones sintácticas, sentidos, relaciones anafóricas, estructuras retoricas, etc.

Text Mining Mind-Map

Este proyecto se enfoca en la clasificación de documentos en español  usando la minería textual a través del open source software WEKA. Este es un software de aprendizaje automático  que contiene un repositorio de algoritmos para descubrir conocimiento donde fácilmente se puede preprocesar los documentos de entrenamiento. Por medio de este software se podrá analizar y comparar los resultados de diferentes algoritmos basados en medidas provenientes de una matriz de confusión.

En la primera fase del proyecto se definirá la minería textual y su relación con otras disciplinas. A continuación se presentaran artículos relacionados al uso de la misma. Posteriormente se ejemplaran investigaciones relacionadas. Inmediatamente se explicaran significantes métodos para el pre proceso de datos en la minería de texto. Cuando el texto se encuentre en condiciones de ser clasificado se definirá el algoritmo C4.5 basado en arboles de decisiones. En orden de demostrar lo aprendido se ejemplificara el uso de la herramienta WEKA.  Finalmente so concluirán los resultados obtenidos en los experimentos. Adicionalmente se proporcionara un tutorial para el uso de WEKA en soporte a la minería textual.

 

 

  Introducción  

Minería Textual

Antecedentes

        Weka        

  Tutorial Weka  

   Conclusión   

    Bibliografía    


Por Valeria Guevara