Clustering Difuso con Selección de Atributos

Beca Cofre, Sebastián
Weber Haas, Richard
Hurtado Larraín, Carlos
Dupret, Georges
Ruíz del Solar, Javier

2007

Datos de edición Programa Cybertesis
Tipo de Documento Libro
Materia Clustering
Selección de atributos
Línea difusa
Fuzzy c - means
Descripción
Los algoritmos de clustering tipo K - Means buscan caracterizar grupos de datos similares y asignar cada elemento a su grupo más cercano. Los algoritmos de clustering difuso permiten que un elemento pertenezca a más de un grupo mediante un grado de pertenencia. El algoritmo Fuzzy C - ...

Los algoritmos de clustering tipo K - Means buscan caracterizar grupos de datos similares y asignar cada elemento a su grupo más cercano. Los algoritmos de clustering difuso permiten que un elemento pertenezca a más de un grupo mediante un grado de pertenencia. El algoritmo Fuzzy C - Means (FCM) es el método mas utilizado para realizar clustering difuso. Éste permite encontrar un conjunto de prototipos representativos de cada cluster y los grados de pertenencia de cada elemento a cada cluster. La selección de atributos para tareas de agrupamiento, clasificación y segmentación permite tener un mejor entendimiento de los datos de origen y los resultados derivados, además de potencialmente simplificar los análisis al reducir el tamaño de los conjuntos de datos. Este trabajo propone un nuevo algoritmo de clustering difuso que incorpora la selección de atributos como parte del proceso de agrupamiento. Para ello se modifica FCM al incluir un vector de pesos w que pondera a la función distancia. Al optimizar este nuevo modelo se obtiene el algoritmo Weighted Fuzzy C - Means (WFCM), el cual además de los clusters encontrados entrega una ponderación de los atributos representada por los valores finales del vector w. Éste se calcula mediante una regla de actualización por iteración que considera una relación inversa de la dispersión de los datos por dimensión, ponderada por los grados de pertenencia de cada dato a cada cluster. El algoritmo WFCM se evalúa en un conjunto de experimentos con datos sintéticos para mostrar sus capacidades de selección de atributos y discriminación de ruido, mediante la ponderación encontrada. Además, el algoritmo es probado con datos reales del conocido repositorio de Machine Learning de la Universidad de California en Irvine (UCI). En ambos casos se realizan comparaciones con el algoritmo FCM y se observan mejoras sustanciales en los criterios de validez de clustering. El algoritmo WFCM, al considerar una variable adicional, permite modelar algunas distribuciones de datos más complejas, sin embargo, puede tener problemas de sobreajuste para conjuntos de datos simples. Con el fin de controlar la complejidad del modelo se desarrolla un esquema de regularización de los pesos de los atributos que da origen al algoritmo Regularized WFCM (RWFCM). Este algoritmo permite controlar la dispersión de los pesos w, entregando un modelo mixto entre WFCM y FCM que se ajusta mediante un parámetro de regularización. Este algoritmo es también evaluado en un experimento con datos sintéticos que permite mostrar su eficacia en controlar la complejidad del modelo y la superioridad respecto a otras propuestas de regularización existentes.

Ver más
Identificador 14794

| 1 | 2 | 3 | 4 | 5 |

Biblioteca Digital del

Patrimonio Iberoamericano

Acceso libre y gratuito al patrimonio cultural digital iberoamericano

Resultados: visualización detallada

Clustering Difuso con Selección de Atributos