Minería de texto

Text Mining


El conocimiento se almacena primordialmente en documentos de texto como libros, revistas, periódicos, diarios, artículos, correos, páginas web, cartas, etc. Esto ha generado la necesidad de encontrar maneras de clasificar documentos y organizar su información de manera innovadora y relevante en lugar de las tradicionales listas ordenadas. Cuando se trata de investigar un tema concreto, se encuentra una infinidad de información que ha sido ordenada como relevante. Sin embargo, toma muchas horas poder reconocer entre los millones documentos el contexto correcto. Con finalidad de asegurar su ordenamiento exacto, los documentos se han tenido que categorizar manualmente. Esto ha hecho interesante encontrar la forma de organizar textos con excelente rendimiento de clasificación. Como resultado, la minería de texto encontró nuevas oportunidades de comprensión y análisis los documentos. La minería textual surgió con el propósito de extraer, analizar y procesar textos procedentes de grandes conjuntos de datos así como también facilitar su presentación para la comprensión de un nuevo conocimiento. Asimismo Manuel Montes-y-Gómez define la minería textual como el proceso de descubrimiento de patrones interesantes y nuevos conocimientos en una colección de textos, es decir, la minería de texto es el proceso encargado del descubrimiento de conocimientos que no existían explícitamente en ningún texto de la colección, pero que surgen de relacionar el contenido de varios de ellos ([3] Hearst, 1999; [4] Kodratoff, 1999). En resumen, la minería textual busca la extracción de patrones de una nueva idea a partir del análisis de grandes colecciones de documentos con el objetivo de obtener nuevo conocimiento. Su finalidad es el descubrimiento de grupos interesantes, tendencias, asociaciones y derivaciones en los patrones encontrados y su visualización para la deducción de nuevas conclusiones.

Relaciones de la minería de texto con otras disciplinas.
Partiendo de la definición anterior, la minería de texto tiene el objetivo de aprender de datos de texto, existen otras técnicas como la minería de datos que de igual manera buscan conocimiento a partir de un conjunto de datos. Estos términos como KDD, minería de datos y minería de texto suelen relacionarse demasiado por la similitud en sus definiciones. El descubrimiento de conocimiento en bases de datos o KDD por sus siglas en ingles ha sido definido como el proceso para identificar aprovechables patrones entre datos. Knowledge discovery in databases (KDD) es un proceso que administra los datos en diversos pasos para extraer sus relaciones. Los primeros pasos son el entender y analizar estos datos. La minería de texto necesita estos pasos de igual manera con el objetivo de convertir datos de texto a un formato apropiado para ser analizado. La minería de datos se diferencia por ser la extracción de patrones de datos que generan información para generar nuevo conocimiento. Que a diferencia de a minería de texto se busca patrones de datos de texto para generar conocimiento del mismo texto.

Considerando la minería de texto como un subconjunto de la minería de datos. La minería de datos utiliza técnicas de las máquinas de aprendizaje para su desarrollo. Las máquinas de aprendizaje son descritas por Witten, Frank y Hall como el proceso de abstracción que toman los datos para inferir una estructura que los represente [1]. Asimismo, esta cuenta con métodos que definen algoritmos de para la clasificación de los datos. La minería textual hace uso de estos algoritmos que al aprender de grupo de ejemplos o “training set”, clasifican nuevos textos en categorías analizadas. Se asume que estos algoritmos expresa el texto con valores numéricos en forma de vector representando los pesos de los términos encontrados en el texto Berry, M. W., & Kogan, J. (2010). Concluyendo que estos términos podrán aparecer como sinónimos, pero en realidad son mutuamente dependientes en sus procesos.

Existen otras técnicas basadas en el procesamiento de textos como la lingüística computacional y la recuperación de información. La recuperación textual representa los documentos relevantes a una interrogación y establece los mecanismos para satisfacer las necesidades deseadas. Esta recuperación de texto no facilita el proceso de análisis ni tampoco la extracción de nuevos conocimientos como lo hace la minería textual. Al mismo tiempo, la lingüística computacional estudia el lenguaje natural con métodos computacionales para hacerlos comprensibles por el sistema operativo. Esta ciencia utiliza el análisis sintáctico y gramatical para la comprensión del lenguaje. Este procesamiento de texto en formato electrónico permite la identificación de textos similares escritos en diferentes idiomas. Aunque la minería textual demuestra tener diferentes objetivos a la lingüística computacional, adopta técnicas de la propia.

Usos de la minería textual

Las herramientas de minería textual son importantes debido a que ofrecen el análisis de la información acumulada en grandes volúmenes de documentos. La finalidad de estas herramientas es ofrecer nuevo conocimiento. Entre estas funciones se encuentra:

  • La extracción de características: siendo el proceso para reconocimiento automático de hechos presentes en los documentos. Trata de identificar referencias a nombres de personas, instituciones, eventos, autoridades existentes y sus relaciones.
  • La generación de agrupamiento también conocido como clustering: agrupa los documentos similares sin conocimiento previo de las agrupaciones. Esto significa que la agrupación será definida por el programa informático y no por una lista de clases predefinidas. La similitud es establecida por la capacidad para formar clases o categorías por la terminología encontrada en cada texto. La agrupación automática facilita la comprensión de los documentos obteniendo la visión general del texto. Otro uso es evaluar la relevancia de los documentos de cada grupo. Además, identifica relaciones desconocidas y duplicados potenciales. Conjuntamente, optimiza la organización de los resultados. [7](Brun & Senso, 2004).
  • La categorización automática: determina el tema de que trata una colección de documentos. Este a diferencia del clustering, decide la clase a la que un documento pertenece dentro de una lista de clases predefinida. Como ejemplos se tiene la detección de spam en emails, etiquetar automáticamente flujos de artículos, etc. Cada categoría es entrenada a través de un precedente proceso manual de categorización. La clasificación empieza con un conjunto de entrenamiento de los documentos que son previamente clasificados; se crea un modelo de clasificación que basado en el conjunto de ejemplos es capaz de asignar la clase correcta de un nuevo documento del dominio. [8]Hotho, A., Nürnberger, A. & Paaß, G. (2005). Este modelo describirá el análisis de las características de asignación, basándose en la similitud entre el nuevo documento y los documentos de entrenamiento. El cálculo de similitudes es comúnmente realizado identificando las relaciones de términos en forma conjunta dentro de los documentos de entrenamiento y el nuevo documento.
  • Descubrimiento de asociaciones y desviaciones: permite detectar asociaciones a diferentes niveles de generalización y desviaciones, dependiendo de los subconjuntos de la colección. Se basan en el agrupamiento conceptual dentro del texto. [5] Montes-y-Gómez, M. Su objetivo se enfoca en encontrar implicaciones entre las características de los textos para pertenecer a una clase. Con el fin de encontrar deviaciones, se identifican implicaciones raras o fuera de lo común dentro del texto analizado.
  • Análisis de tendencias: se refieren a la detección de temas emergentes en los textos. [9] Streibel, (2010). Este análisis observa patrones de cambios basados en determinadas variables. Los números, palabras, personas o lugares definirán las variables. Las tendencias emergentes son las temáticas de interés y utilidad en cierto tiempo encontradas en el texto.
  • Aplicación de inteligencia estratégica o competitiva: identifica información ventajosa de los competidores que ayude a la toma de decisiones. Analiza datos, descubre patrones y revela fortalezas y estrategias encontradas en documentos con temas de competidores. Permite anticipar las actividades de competidores y visualiza posibles áreas de acción. El uso de la inteligencia competitiva – con herramientas de minería de datos que analizan los medios sociales en empresas y su competencia – pueden producir conclusiones que ayudan a las empresas a tomar decisiones que mejoren su ventaja competitiva. [10] Gémar, G., & Jiménez-Quintero, J. A. (2015).
  • Identificar ideas principales: reconoce y extrae los principales temas o ideas tratados por la colección de documentos. A diferencia de la categorización de documentos, este permite extraer los términos que son representativos del texto sin asignarlos a una clase. Una idea se identifica buscando la ocurrencia de términos y combinaciones de términos en los documentos. Al identificar cada idea se creara redes conceptuales a través de los documentos que traten de la misma idea.
  • Elaboración automática de resúmenes: generados mediante la extracción de frases del documento original sin ser editados. La extracción es basada en la frecuencia estadística de los términos encontrados así como de la posición que ocupan estas frases en el texto. Facilita el análisis de grandes colecciones de documentos.
  • Visualización de documentos: interfaz que muestra los textos en un formato que facilite la interpretación y navegación de colecciones de texto. Permite al usuario puede navegar entre los resultados obtenidos de los documentos analizados.

Técnicas de la minería de texto.
Como se mencionó anteriormente, la minería de datos utiliza técnicas de aprendizaje automático. La minería de texto al ser un subconjunto de la minería de datos adopta estas técnicas para la identificación de patrones y comprensión de nueva información. Las técnicas de aprendizaje se clasifican dependiendo de las relaciones de los datos de entrada. Los estilos de aprendizaje que cada algoritmo puede adoptar se clasifican en adictivos e inductivos. Dentro de los métodos adictivos se encuentran los métodos explicativos también conocidos como aprendizaje analítico. Estos métodos de abducción tienen como objetivo explicar el contexto. Los métodos inductivos se subdividen en descriptivos y predictivos. Dentro de los modelos descriptivos se encuentra el aprendizaje no supervisado y el análisis exploratorio. La técnica de aprendizaje no supervisado o segmentación tiene como objetivo detectar las agrupaciones y etiquetar las entradas a partir de un conjunto de observaciones sin conocer su clasificación correcta, ejemplo: que grupos que forma y el número de grupos que encontró. El análisis exploratorio detecta asociaciones, correlaciones y dependencias, ejemplo: valores anómalos. Dentro de los métodos inductivos predictivos se encuentra la interpolación, la predicción secuencial y el aprendizaje supervisado. La interpolación es una función continua sobre varias dimensiones, ejemplo: f(2,3)=?. La predicción secuencial ordena las observaciones secuencialmente donde se predice el siguiente valor de la secuencia, ejemplo 1, 2, 3, 5, 7, ?. El aprendizaje supervisado estudia un clasificador dependiendo de observaciones de los valores de la clase a la que corresponde, ejemplo: 1,3->Si, 2,5->Si, 4,1->No, 3,9->?. [13] Hernández, J., Ramírez, M.J., & Ferri, C. (2004).

Para la extracción automática de conocimiento se emplea la técnica predictiva del aprendizaje supervisado. Donde la base de conocimiento está formada por ejemplos etiquetados. Estas técnicas se subdividen dependiendo si la información es cualitativa o cuantitativa. Se estima una función cuando los valores deseados se corresponden con las etiquetas de cada clase. A este se le llama “Clasificación” debido a que la información es cualitativa con clases disjuntas. Se estima una correspondencia cuando la información es cuantitativa y las clases se pueden solapar. A estas se les conoce como “Categorización”. En este problema de regresión la salida es una clase o más. Técnicas de clasificación usan diversas metodologías. Entre ellas se encuentran k-NN (vecino más cercano), k-medias (aprendizaje competitivo), árbol de decisiones de aprendizaje, clasificadores Bayes, Máquinas de Vectores Soporte, entre otras.
Los arboles de clasificación también conocidos como arboles de decisiones representan el conocimiento sobre el problema de clasificación mediante una estructura de árbol. Estos son frecuentemente usados en análisis de decisión ya que ayudan a identificar la estrategia con mayor probabilidad de éxito. La mayoría de los algoritmos de árboles de clasificación empiezan a partir de un conjunto de datos que contienen patrones etiquetados. Los patrones etiquetados se caracterizan por ser distintas variables predictores y una clase. Estas variables son actuales valores de los atributos en los datos. Este algoritmo inserta el valor de la variable clase en las distintas hojas del árbol asignadas. Esta conjunto de reglas comienzan el en nodo raíz preguntando por el valor de una variable. Cada rama derivada del nodo raíz corresponde a todos los posibles valores que esta variable puede tomar. Se descenderá a partir de las respuestas de cada regla hasta llegar al nodo hijo. Solo se puede recorrer un enlace único. Así consecutivamente en el sub árbol encontrado, se decidirá el posible valor de la nueva regla o nodo padre del. Se definirá la clase a la que pertenece cuando se alcance el nodo hijo, o nodo sin hijos. El resultado es la representación de un árbol por medio de un conjunto de reglas. [11]Quinlan un ingeniero informático en 1986 presenta uno de los algoritmos más populares llamado ID3. En [12] 1993John Quinlan propone el algoritmo C4.5 que mejoran su trabajo previo con ID3. El algoritmo C4.5 elimina las ramas que no aportan decisiones concluyentes, maneja los atributos con costos diferentes y maneja los valores de atributos desconocidos para manejarlos como faltantes.

 

Metodología de la minería de texto

Ye Nong en su libro  “The Handbook of Data Mining” administra la minería de datos en cuatro etapas. El primer paso es la colección de los datos. La segunda etapa será  la preparación de los datos. El tercer paso es medir la calidad de los datos o evaluar los resultados. Por último se visualizaran el conocimiento generado. [14]  (Ye, 2003). Por su parte,  Gary Miner en su libro ”Practical Text Mining and Statistical Analysis for Non-structured Text Data Applications”  establece que es crucial colectar, organizar, analizar y asimilar la información. Miner propone tres actividades diferentes con subtareas dependo de la información que se desea generar. En este libro propone un diagrama detallado para la minería de texto. La primera actividad proviene de una colección de documentos. Los textos con dominio específico deben ser colectados y organizados. Se establece el corpus de la colección. La segunda actividad se trata del pre proceso de los datos o estructuración de los datos. Esta segunda actividad es la encargada de introducir una estructura al corpus proveniente de la etapa 1. Para finalizar se extrae el conocimiento. Esta última actividad es la encargada de descubrir los patrones de los datos previamente procesados. En esta etapa se puede proporcionar retroalimentación con la primera y segunda actividad proporcionando correcciones y/o ajustes.  Los patrones y asociaciones son representados y visualizados. [15]  (Miner 2012).

La imagen que nos presenta Gary Miner, describe la metodología de la minería de texto de manera relevante para su práctica. Uysal, & Gunal  citan un marco para la minería de texto con las siguientes etapas: preprocesamiento, extracción de características, selección de características y etapas de clasificación. [17]  Uysal, & Gunal, (2014).  Uysal, & Gunal no contemplan la actividad de colección de los datos como lo hacen Gary Miner o Ye Nong para a minería de datos. Para fines de este proyecto se nombrara una metodología de la minería textual para la clasificación de texto que contempla la colección de datos. Este marco se representara en cuatro etapas, adquisición de datos, preproceso de documentos, extracción de información y evaluación de los resultados.  Witten, Frank and Hall hacen mención a estos pasos en su obra para el uso de la herramienta WEKA Witten, I. H., Frank, E. ;., & Hall, M. A. (2011).

 

Adquisición de datos.

 

En esta primera etapa se empieza creando un mecanismo para colectar los textos. Los datos deben ser colectados en cierta forma que pueda crear un grupo de entrenamiento de datos. Se debe seleccionar los correctos textos decidiendo la relevancia de los hechos problemáticos y la finalidad del conocimiento a generar. Estas relevancias dependen en las necesidades del algoritmo y del problema de negocio. Esta colección de datos de entrada deberá ser almacenada de cierta manera para poder ser procesada.

 

Datos de entrada.

Las técnicas de máquinas de aprendizaje operan con diferentes formas de datos de entrada. Witten, Frank and Hall  consideran tres datos de entrada en minería de datos. Estos son los conceptos, instancias y atributos. Los conceptos especifican lo que se desea aprender. El concepto parte de grupo de ejemplos clasificados que representan el aprendizaje. Una instancia representa los datos que contiene una clase a ser clasificada, asociada, o agrupada. Una instancia es un tipo de ejemplo individual e independiente. Las instancias contienen un conjunto de características específicas denominadas atributos.  Un atributo en una instancia representa el nivel de medición de dicho atributo en esa instancia. Dada la distinta naturaleza de los datos, las posibles cantidades de atributos son clasificados como nominales y ordinales. Los atributos nominales también conocidos como categóricos son un conjunto finito de símbolos distintos. Por ejemplo etiquetas o nombres o lugares. Los atributos ordinales también referenciados como continuos o numéricos son representaciones de medidas de secuencia significativa. Estos hacen posible manejar un orden pero no una distancia. Por ejemplo bajo < medio < alto. S. S. Stevens  en 1946 propone una división de las escalas de medición para procesos estadísticos de clasificación. [16]  Stevens, S. (1946). La minería de datos adopta esta jerarquía para clasificar correctamente el tipo atributo. Los cuatro niveles de medición son divididos en los ya mencionados nominales y ordinales agregando intervalo y ratio, razón o porción. Se describen como atributos de intervalo a las escalas métricas que tienen constantes distancias iguales entre sus valores. Se miden en una escala lineal donde el cero es arbitrario, pudiendo tomar valores positivos como negativos. Por ejemplo temperaturas en Fahrenheit o Celsius. Por último los atributos de razón  o proporción son atributos de intervalo con la propiedad de que su posición en cero indicara nada o nulo.  Por ejemplo el peso, la altura, el pulso, etc. La minería de texto al ser un subconjunto de la minería de datos, utiliza esta clasificación de datos de entrada para  cumplir sus objetivos.

La minería textual necesita juntar y especificar la colección de datos (un conjunto de instancias). Los ejemplos contendrán atributos nominales que representaran el texto. Estas instancias deben ser integradas de una manera limpia y clara en un formato de uno conjunto de atributos nominales. Los conjuntos de instancias se representan en una matriz de instancias y atributos del concepto. Estas matrices también llamados “datasets” contienen todos los ejemplos de los documentos seleccionados como relevantes.  En el caso particular de la herramienta WEKA, utiliza un formato estándar especial para representar la colección de documentos de texto. Los archivos ARFF representan las instancias que comparten un conjunto de atributos. Los Formato  de Archivo Atributo Relación por sus siglas en ingles son divididos en 3 secciones,  relación, atributo y datos. Más adelante se describirán estos archivos con detalle.

 

Preproceso de los datos.

Esta etapa se basa en la preparación del texto que consiste en su selección, limpiado y preprocesamiento en base al concepto. Proporciona la base para la aplicación de las metodologías de la minería de texto. Esta etapa se logra usando una serie de operaciones sobre el texto y generar algún tipo de información estructurada o semiestructurada para su análisis. La representación del texto es esencial para su preproceso.  Esta etapa se realiza sobre el conjunto de documentos previamente colectados donde son limpiados, comprimidos y transformados en fragmentos importantes que proporcionen información.

 

Representaciones del texto.

Los documentos exigen ser representados de una manera estructurada para poder ser preprocesados. Textos en lenguaje natural pueden verse como un conjunto de léxico (palabras) que mediante uniones (reglas gramaticales) permiten construir fragmentos con significado (semántica) cuya unión (coherencia) aporta un conocimiento. [21]  Muñoz, A., & Álvarez, I. (2014). La manera más popular de representar los documentos es por medio de un vector. El vector contiene todas las palabras encontradas en el texto indicando su ocurrencia en el mismo. Esta representación es generalmente  usada en enormes dimensiones de documentos de texto que generan un largo número de valores.

 

Modelo de Espacio Vectorial – VSM.

El vector más usado es el VSM,  modelo de espacio vectorial propuesto por Salton, Wong y Yang. Este modelo representa cada documento como una secuencia (o lista ordenada) de n elementos con números reales no negativos. Cada término presente en el texto es representado con una coordinada. Las coordinadas miden el valor (peso) de la importancia del término con valores más altos para representar un término muy importante en el documento. La coordenada con menor valor representa poca importancia del término. Este modelo define la similitud entre los vectores. [18]  ( Salton, G., Wong, A., & Yang, C. S. (1975).

TSM modelo de espacio tensor.

Además del modelo de espacio vectorial se utiliza el modelo de espacio tensor (TSM). Tensor space model en contraste con VSM , TSM representa un documento de texto mediante los tensores de orden superior en lugar de vectores [19] .

N-grams.

La minera textual  utiliza considerablemente los n-grams o términos compuestos. Estos gramos regulan la secuencia de una n número de palabras. Son básicamente un conjunto de palabras consecutivas dentro de un texto. Son conocidos como sintagmas estadísticos o conjunto de n palabras o raíces de palabras.  Un sintagma estadístico es un grupo de dos o más palabras que se repiten en lugares vecinos con una necesaria frecuencia dentro de los documentos de texto en la colección. Por ejemplo,  ”minería textual”  representa dos palabras “minería” y “textual” con propios significados que a su vez al ser interpretadas de manera conectada  proporciona un significado diferente. Estos tienen sus propios nombres dependiendo del número de palabras que se pueden encontrar conectadas o n. En  el caso de n=1 se le llama unigram , n=2 bigrama y n=3 trigrama. El algoritmo se basa en 3 partes, la separación de tokens, la generación de los n-grams y la adición de los n-grams a una estructura de datos generalmente lista. [22]  Ramesh, B., Xiang, C., & Lee, T. H. (2015). Como resultado, Google y Microsoft han desarrollado modelos de n-gram escala Web donde se ocupan para la corrección ortográfica,  el resumen de texto y el quebramiento de palabras.

 

Bolsa de palabras.

Modelo que representa el documento como un contenedor que contiene las palabras encontradas en el documento. Bag of Words (por su nombre en inglés) considera las palabras sencillas directamente como términos de indización. Estas bolsas asumen la correspondencia entre los términos y los conceptos que estos representan sin considerar el orden y la gramática o dependencia semántica entre los términos.  La clasificación de documentos utiliza estos métodos debido a que la frecuencia de la palabra se usa como instrumento para entrenar el clasificador.

Munková, D., Munk, M., & Vozár, M concluyen que Existen otras representaciones del texto además de VSM y TSM como vectores estas son: n-grams, Naturaleza del Procesamiento del Lenguaje, Bolsas de Palabras y Clusters de Palabras Distributivas. Sin embargo todos estos métodos consideran únicamente la frecuencia de los términos de las palabras incidentes en los textos, por lo que ignoran la importancia en el que estas ocurren. [20]  Munková, D., Munk, M., & Vozár, M. (2013).

 

Procesamiento lingüístico del lenguaje natural.

Dependiendo del tipo de operaciones usadas en este preproceso de datos, será el tipo de patrones a descubrir en esta colección.  Cada utilidad debe preprocesar los datos de manera diferente para cumplir su finalidad. En el caso de la categorización automática de documentos su preproceso único también depende del conocimiento a descubrir. A continuación se describirán las tareas importantes para el preprocesamiento con la finalidad de categorizar automáticamente documentos de texto.

 

Partiendo.

Un algoritmo de stemming elimina los morfemas y encuentra las relaciones entre las palabras no tematizadas y su lexema. Elimina los morfemas con el objeto de reducir a la palabra a su raíz. Informa la raíz lingüística  a la que pertenece.

Lexematización.

La lexematización es una parte del procesamiento lingüístico que  trata de determinar el lema de cada palabra que surge en los documentos. Las palabras son reducidas de género, numero, adjetivos y tiempos verbales  a su raíz. Las raíces  se utilizan como términos de indización en lugar de utilizar palabras. Esta tiene como ventaja la reducción del número de unidades de representación del que se compone el diccionario. El mismo término debe ser estandarizado a una sola forma que a diferencia del stemming, la lexematización reporta la forma básica de la palabra antes de su cambio para expresar tiempo, modo, persona, número, caso, y género. [23]  Ferilli, Esposito, Grieco, (2014). Por ejemplo, estudiante, estudiar, estudiamos, estudio. La tematización reduce todas las palabras con la misma raíz por medio de una base de conocimiento sobre las distintas flexiones.

 

Palabras vacías.

Las palabras vacías o stop words son los términos que se han generalizado y son abundantes en cualquier tipo de texto, no son informativos del el contenido de un texto. Por ejemplo artículos, preposiciones, pronombres, etc. Se excluyen las palabras vacías para eliminar los términos que no auxilian a generar conocimiento del texto. La eliminación de las palabras vacías es una técnica de la programación lenguaje natural a nivel léxico. [23]  Ferilli, Esposito, Grieco, (2014).  Existen listas predefinidas de palabras vacías para cada corpus textual.

 

Identificación segmentos repetidos.

Secuencia de palabras que al ser usadas de forma conjunta tienen un significado especial.  Estos conjuntos de palabras se repiten continuamente en los textos. Al ser divididos estas palabras pierden significado causando descontextualización. Por ejemplo “ingeniería económica”, “marketing internacional”, “minería textual”, “máquinas de aprendizaje automatico”, etc. La minería textual  en la clasificación de documentos utiliza la extracción de estos términos para encontrar los conceptos que representen el contenido del texto. Al identificar estos segmentos se aplican estadísticas que seleccionen los de mayor frecuencia. [7]  Brun, R.E., & Senso, J.A. (2004).

Tokenización.

La tokenización es la forma de separar el texto en palabras comúnmente llamadas tokens. Este proceso toma en cuenta que las palabras pueden estar interrumpidas por un final de línea, están pegadas a signos de puntuación, no siempre están separadas por espacios y no siempre los espacios en blanco separan las palabras. Los signos de puntuación en español son  “, ; . : ¿ ? ¡ ! – — ( ) [ ] ’ ” << >> “ donde el punto y el guion corto son ambiguos. En español a diferencia de inglés contempla un signo de inicio y otro de fin en una exclamación. En español se deben considerar palabras multi-palabras llamadas locuciones como “pre procesos”.

 

Segmentación.

Esta consiste en partir el texto en frases y/o párrafos usando signos de puntuación abreviaciones, acrónimos o números.

 

Conversión a letras minúsculas.

 

 

Las mayúsculas ocupan un papel importante. Estas se encuentran al principio de una frase y también pueden representar nombres propios. En el caso de no ser nombres propios, convendrá convertirlas a minúsculas para tratarlas posteriormente.

 

Identificación de nombres propios.

Los nombres propios son nombres de personas, instituciones, compañías, eventos, funciones, cantidades monetarias y fechas. Estos prototipos se basan en reglas heurísticas para identificar fragmentos que corresponden a un nombre propio. La minería textual procura identificar las relaciones que existen entre los nombres propios encontrados en el texto. [7]  Brun, R.E., & Senso, J.A. (2004).

Poda

Mejor conocido en inglés como pruning, quita palabras de baja frecuencia

 

Extracción de conocimiento 

 

Esta etapa se encarga del  análisis del texto para proporcionar conocimiento.  También conocido como clasificador. Después del preproceso de datos, estos son analizados para obtener los resultados deseados. Como se mencionó previamente la minería textual es usada con diferentes propósitos como clasificación de documentos o la creación de resúmenes.  En lo que concierne a la minería textual para clasificación de documentos, el clasificador busca aprender una función que relaciones cada atributo de la instancia con una clase predefinida. En el caso de documentos las clases serán atributos nominales de la instancia, debido a que las categorías no necesitan representar un orden entre ellas (atributos ordinales).  Esta función es conocida como modelo de clasificación. Este modelo puede ser descriptivo o predictivo. Los modelos descriptivos son herramientas que explican la diferencia entre clases. Los modelos predictivos son usados para predecir la clase a la que una instancia pertenece.  Como se había mencionado previamente, las técnicas de máquinas de aprendizaje pueden ser k-NN (vecino más cercano), k-medias (aprendizaje competitivo),  árbol de decisiones de aprendizaje, clasificadores Bayes, Máquinas de Vectores Soporte, rule-base clasificadores, entre otras.  Las técnicas de clasificación usan los algoritmos de máquinas de aprendizaje más convenientes. Los arboles de decisiones son los algoritmos más simples y amplios para la tarea de clasificación. Los modelos de árbol de decisión tienen diferentes usos. Entre ellos se encuentra la selección de variables (seleccionar las variables más importantes), encontrar la importancia de las variables (variables con roles de importancia mayor), manejo de valores perdidos, predicción y manipulación de la información  [25]  (Yan-yan, y Ying, 2015).

 

Modelo de Arboles de decisiones

Anteriormente se describió como los arboles de decisiones representan el conocimiento sobre el problema de clasificación mediante una estructura de árbol.  Los componentes de un árbol de decisión son el nodo raíz, los nodos internos los nodos hojas y las ramas. Un nodo raíz es la raíz representan una opción que generara una subdivisión del mismo. Los nodos internos  son los nodos de oportunidad ya que representa una de las opciones disponibles a ese nivel del árbol. Los nodos hojas representan el resultado final de la combinación de decisiones tomadas previamente. Las ramas son las posibles combinaciones de decisiones en formato if-then que el árbol ofrece.

Pasos para construir un modelo de árbol de decisión.

Yan-yan, y Ying señalan  la división, la detención y la poda como los pasos más importantes para construir un modelo de árbol de decisión.  Señalan la división cuando al crear el modelo se debe de identificar el atributo más importante. Con base en esa identificación se deben separar os registros al nodo raíz y a los nodos internos correspondientes. La detención evita que el modele resulte demasiado complejo o largo, mediante parámetros en la detección de reglas. La poda no considera la detención. Esta crea el árbol con una profundidad elevada y luego lo poda eliminando los nodos que no proporcionan la información relevante. [25]  (Yan-yan, y Ying, 2015).

[11]Quinlan  un ingeniero informático en 1986 presenta uno de los algoritmos más populares llamado ID3.  En [12] 1993John Quinlan propone  el algoritmo C4.5 que mejoran su trabajo previo con ID3. El algoritmo C4.5 elimina las ramas que no aportan decisiones concluyentes, maneja los atributos con costos diferentes y maneja los valores de atributos desconocidos para manejarlos como faltantes.

Cuartas, Anzola y Tarazona  definen en su artículo  la metodología de construcción del árbol de decisiones C4.5 en 4 pasos. El primero es el analizar la lista de atributos. El segundo es dividir la información en sub conjuntos. El siguiente paso es identificar el atributo con más relevante de la información y reconocerlo como parámetro de decisión. Por último se clasifica la información conforme al parámetro de decisión [24]  (2015).  Este algoritmo tambien conocido como J48 por su implementacion en java el software WEKA.

  Introducción  

Minería Textual

        Weka        

  Tutorial Weka  

   Conclusión   

    Bibliografía    


Por Valeria Guevara