Conclusión

Conclusion


Se analiza la clasificación de documentos en español  usando la minería textual a través del open source software WEKA.  Este software analiza grandes cantidades de datos y decide cual es la más importante. Su objetivo es hacer predicciones automáticas que ayuden a la toma de decisiones. Al compararse weka con otras herramientas para la minería de datos como RapidMiner, IBM Cognos Business Intelligence, Microsoft SharePoint and Pentaho, weka proporciona una visualización amigable para el usuario fácil de comprender, carga los datos  eficientemente y la minería de datos es su objetivo principal.

 

La minería textual busca la extracción de patrones a partir del análisis de grandes colecciones de documentos con el objetivo de obtener nuevo conocimiento. Su finalidad es el descubrimiento de grupos interesantes, tendencias, asociaciones y derivaciones en los patrones encontrados y su visualización para la deducción de nuevas conclusiones.

Considerando la minería de texto como un subconjunto de la minería de datos. La minería de datos utiliza técnicas de las máquinas de aprendizaje para su desarrollo. De esta manera la minería de texto adopta algoritmos para la clasificación de los textos. La lingüística computacional también aporta técnicas a la minería de texto. Esta ciencia estudia el lenguaje natural con métodos computacionales para hacerlos comprensibles por el sistema operativo.

La categorización automática determina el tema de que trata una colección de documentos. Este a diferencia del clustering, decide la clase a la que un documento pertenece dentro de una lista de clases predefinida.  Cada categoría es entrenada a través de  un precedente proceso manual de categorización.

La clasificación empieza con un conjunto de textos de entrenamiento previamente categorizados para después generar un modelo de clasificación basado en el conjunto de ejemplos siendo capaz de asignar la clase correcta de un nuevo texto. Las técnicas de clasificación de árboles de decisiones representan el conocimiento de clasificación mediante una estructura sentencias if- else representadas en las ramas de un árbol.

Para fines de este proyecto se nombrara una metodología de la minería textual para la clasificación de texto que contempla la colección de datos. Este marco se representara en cuatro etapas, adquisición de datos, preproceso de documentos, extracción de información y evaluación de los resultados.  Witten, Frank and Hall hacen mención a estos pasos en su obra para el uso de la herramienta WEKA

Los datos deben ser colectados en cierta forma que pueda crear un grupo de entrenamiento de datos. Witten, Frank and Hall  consideran tres datos de entrada en minería de datos. Estos son los conceptos, instancias y atributos. Los conceptos especifican lo que se desea aprender. Una instancia representa los datos que contiene una clase a ser clasificada que contienen un conjunto de características específicas denominadas atributos.  Un atributo en una instancia representa el nivel de medición de dicho atributo en esa instancia. Los atributos son clasificados como nominales y ordinales. Los atributos nominales también conocidos como categóricos son un conjunto finito de símbolos distintos. Por ejemplo etiquetas o nombres o lugares. Los atributos ordinales también referenciados como continuos o numéricos son representaciones de medidas de secuencia significativa. Estos hacen posible manejar un orden pero no una distancia. Por ejemplo bajo < medio < alto. En el caso de documentos las clases serán atributos nominales de la instancia, debido a que las categorías no necesitan representar un orden entre ellas (atributos ordinales).

WEKA utiliza un formato estándar llamado Archivo Atributo Relación  (ARFF)  para representar la colección de documentos de texto en instancias que comparten un conjunto ordenado de atributos divididos en 3 secciones,  relación, atributo y datos.

El Preproceso de los datos se basa en la preparación del texto usando una serie de operaciones sobre el texto y generar algún tipo de información estructurada o semiestructurada para su análisis.  La manera más popular de representar los documentos es por medio de un vector. El vector contiene todas las palabras encontradas en el texto indicando su ocurrencia en el mismo. Las tareas importantes para el preprocesamiento con la finalidad de categorizar automáticamente documentos de texto son stemming, lexematización, eliminación de palabras vacías, tokenización y conversión a letras minúsculas.

Un algoritmo de stemming elimina los morfemas y encuentra las relaciones entre las palabras no tematizadas y su lexema.  La lexematización determina el lema de cada palabra. Se excluyen las palabras vacías para eliminar los términos que no auxilian a generar conocimiento del texto. La tokenización es la forma de separar el texto en palabras. Los signos de puntuación en español son  “, ; . : ¿ ? ¡ ! – — ( ) [ ] ’ ” << >> “ donde el punto y el guion corto son ambiguos. En español a diferencia de inglés contempla un signo de inicio y otro de fin en una exclamación. La conversión a letras para tratar los términos sin importar iguales.

Después del preproceso de datos, se procede a la etapa de extracción de conocimiento. La minería textual para clasificación de documentos en weka busca aprender modelo de clasificación predictivos. Estos modelos son usados para predecir la clase a la que una instancia pertenece. El modelo es creado usando el algoritmo de árboles de decisiones C4.5 ya que es el más simple y amplio para la tarea de clasificación.

Weka genera una matriz de confusión del modelo generado. Esta muestra en una manera fácil de detectar en cuantas veces las predicciones del modelo fueron hechas correctamente.  Los cuatro posibles resultados son: verdaderos positivos, falsos positivos, verdaderos negativos y falsos negativos. TP – verdaderos positivos: la instancia positiva fue predicha en la clase que le corresponde. TN – verdadero negativo: instancia negativa clasificada correctamente. FP – falsos positivos: instancia positiva fue clasificada en una clase incorrecta.  FN – falsos negativos instancia negativa clasificada incorrectamente.

La precisión y exhaustividad son métricas de relevancia para la clasificación de documentos. Este modelo reportan resultados de forma binaria pueden tener un rendimiento predictivo expresado en una matriz de confusión. La precisión es el porcentaje de los casos positivos que se predijo correctamente: TP / (TP+FP).   La exhaustividad o  sensibilidad representa la habilidad para predecir instancias positivas sobre el total de todas las instancias positivas: TP / (TP+FN). Estas medidas para ser balanceadas se desarrolla el medida –F que describe la proporción de instancias erróneamente predichas. Siendo como resultando F1 la medida calculada con la siguiente ecuación  (2 * Precisión * Exhaustividad) / (Precisión + Exhaustividad).

Se seleccionaron de la librería de Thompson Rivers University aleatoriamente 71 artículos académicos de medicina en inglés y español para el conjunto de datos de entrenamiento almacenados en formato PDF y categorizados en Hemodiálisis, Nutrición, Cáncer, Obesidad, Dieta y Diabetes. Se desarrolló una aplicación para la creación automática de un archivo arff a partir de directorios de textos variables. Esta aplicación pudo ser realizada con la colaboración de una librería PDF llamada iTextSharp para la extracción de texto de un documento de formato portable.

Documents Directory to ARFF generara el archivo arff de una colección de documentos organizados en carpetas en base a su categoría. El arff resultante tendra un primer atributo tipo string llamado “textoDocumento” que describirá el texto un segundo atributo de tipo nominal “docClass” que definirá la clase a la que pertenece.

Se aplicaron diversas pruebas aplicadas al mismo conjunto de textos para evaluar su ecxactitud predictiva. Primero se analizó la mejor estructura para el filtro, sin ajustar los valores del clasificador J48. En este se seleccionaron los mejores parámetros del mismo y selecciono el mejor para después con esta configuración evaluar la mejor configuración para el algoritmo clasificador J48.  En base a  ua tabla comparativa se descubrió que los parámetros de la combinación de  Stopwords + Word Tokenizer  E&S  + Lower Case Conversion ajustando minNumObj a 1 en el algoritmo J48,  proporcionan valores de 1 para la presicion exasustividad y por definición en su medida-F1. Concluyendo que el mejor modelo resulta de la combinación de las opciones Stopwords + Word Tokenizer  E&S  + Lower Case Conversion aplicadas al filtro en el preproceso de los datos y adicionalmente ajustando a 1 minNumObj en el algoritmo clasificador  J48.