Minería de Texto

Text Mining


 

   La ciencia necesita información ordenada de su campo en específico con el fin de generar nuevos conocimientos estructurados. Expertos hallan grandes cantidades de en textos especializados no estructurados o en bases de datos. Para poder organizar estos documentos se ha empleado la minería de texto ya que su objetivo es descubrir conocimiento que a partir de un corpus de texto recaudado en un repositorio de conocimiento clasificado generando inferencias automáticamente.

  Este proyecto se enfoca en la clasificación de documentos bilingües usando la minería textual a través de modelos de clasificación generados por el open source software WEKA. Este software de aprendizaje automático es un repositorio de algoritmos para descubrir conocimiento donde fácilmente se puede preprocesar los documentos de entrenamiento. Por medio de este software se podrá analizar y comparar los resultados de diferentes algoritmos basados en medidas provenientes de una matriz de confusión. Este proyecto ayudara a la minería textual al ejemplificar su pre proceso y clasificación usando WEKA. El resultado será la creación de un video tutorial para el uso de Weka en la clasificación de documentos en inglés y español. Adicionalmente   la creación de una herramienta para generar los datos de entrada en Weka llamados archivos arff.

  Introducción  

Minería Textual

        Weka        

  Tutorial Weka  

   Conclusión   

    Bibliografía    


Por Valeria Guevara