Análisis del Comportamiento del Usuario Web

Román Asenjo, Pablo Enrique
Velásquez Silva, Juan D.
Ríos Pérez, Sebastián A.
Parada Daza, Víctor M.
Dell, Robert F.

2011

Datos de edición CyberDocs
Tipo de Documento Libro
Materia Usuarios de internet; sitios web; probabilidades; minería de datos
Descripción
Desde los orígenes de la Web en el CERN, ha existido una pregunta recurrente entre los investigadores y desarrolladores: ¿Cuál es la estructura y contenido correcto para que un sitio Web atraiga y/o retenga a sus visitantes? En parte, la respuesta a esta interrogante, se encuentra fuertemente relacionada con una mayor comprensión de las motivaciones que posee un usuario al visitar un sitio. Tradicionalmente, se han utilizado algoritmos ...

Desde los orígenes de la Web en el CERN, ha existido una pregunta recurrente entre los investigadores y desarrolladores: ¿Cuál es la estructura y contenido correcto para que un sitio Web atraiga y/o retenga a sus visitantes? En parte, la respuesta a esta interrogante, se encuentra fuertemente relacionada con una mayor comprensión de las motivaciones que posee un usuario al visitar un sitio. Tradicionalmente, se han utilizado algoritmos de minería de datos (Machine Learning) para extraer patrones de comportamiento del usuario web, a partir de los cuales se elaboran estrategias para mejorar el sitio Web. El presente trabajo describe un nuevo enfoque, que aplica teorías sobre la neurofisiología de la toma de decisiones para describir el comportamiento de navegación del usuario web. Lo anterior nos lleva a la siguiente hipótesis de investigación: “Es posible aplicar teorías de la neurofisiología de la toma de decisiones para explicar el comportamiento de navegación de los usuarios Web”.En esta tesis, se propone un modelo estocástico para describir el proceso de navegación del usuario Web, basado la teoría neurofisiológica de la toma de decisiones LCA (Leaky Competing Accumulator), la cual describe la actividad neuronal de diferentes regiones de la corteza cerebral durante el proceso de determinación, hasta que se alcanza un cierto umbral que gatilla la decisión. Esta clase de modelos han sido estudiados y testeados experimentalmente por más de 40 años. De acuerdo al modelo presentado, un usuario web se enfrenta a la decisión de elegir que hipervínculo visitar, conforme a sus propias motivaciones. El proceso se repite en cada visita a las páginas hasta salir del sitio.En el caso del usuario web, la mayor fuente de datos respecto de su comportamiento de navegación y preferencias queda almacenada en archivos de Web Log, los cuales dan cuenta de cada una de las acciones que un usuario ha efectuado cuando visita a un sitio. Dependiendo de la cantidad de visitas del sitio, estos archivos pueden contener millones de registros, constituyendo una de las mayores fuentes de datos sobre comportamiento humano en la Web. Sin embargo, estos archivos también contienen registros que no son necesarios para el análisis del comportamiento del usuario web, por lo que se requiere de una etapa de pre - procesamiento que asegure la calidad de los datos con que se calibrará el modelo. En concreto, se requiere reconstruir las secuencias de páginas visitadas (sesiones) de cada visitante, el contenido de texto y la estructura de hipervínculo del sitio Web. Para estos fines, fueron desarrollados nuevos algoritmos basados en programación entera para la extracción óptima de las sesiones de usuario.Se experimentó con datos provenientes del sitio Web de nuestro departamento (DII) el cual cumple ciertas características acordes con los supuestos del modelo. En cuanto a los algoritmos del pre - procesamiento de sesiones se obtuvo una performance (F - score) del 72% versus un 60% de los algoritmos tradicionales. En relación al modelo de simulación, los parámetros fueron ajustados por medio del método de máxima verosimilitud, usando las sesiones obtenidas. Se concluye que cerca del 70% de la distribución real de sesiones se recupera mediante este método. Este es un importante avance debido a su rendimiento sobresaliente en relación a algoritmos tradicionales de Web mining que alcanzan un 70% de éxito solo en transiciones de un paso, es decir de una página a otra. Las distribuciones de tiempos también alcanzan un gran ajuste a una ley de potencia que también se observa en la realidad. Por lo tanto, se prueba la plausibilidad de la hipótesis.

Ver más
Identificador 14706

| 5 | 6 | 7 | 8 | 9 |

Biblioteca Digital del

Patrimonio Iberoamericano

Acceso libre y gratuito al patrimonio cultural digital iberoamericano

Resultados: visualización detallada

Análisis del Comportamiento del Usuario Web