Extracción y Análisis de Datos.


Extracción y Análisis de Datos: 

s tarde, aprendimos a realizar las extracciones de los datos que arrojan el uso- empleo de estos entornos virtuales de aprendizajes por lo que hicimos un ejercicio de análisis estadístico en donde se tabularon los datos de cada entorno de aprendizaje y sus resultados, para lo que empleamos una herramienta llamada RStudio, que efectivamente se usa para el manejo de estos datos, calcularlos y graficarlos.  Para esto, hemos realizado los siguiente: 

  1. Carga de datos
  2. Filtrado de datos
  3. Representación gráfica
  4. Regresión lineal
  5. Análisis de diferencias entre grupos mediante t-student



En la practica, lo traducimos de la siguiente forma: 
  1. Importamos las tablas a R.
  2. Filtramos o Extraímos los sujetos por tipo entorno, escribimos los siguientes comandos en la consola: 
    datosMoodle <- subset(quantitativeData, environment=="Moodle")
    datosPLE <- subset(quantitativeData, environment=="PLE")
  3. Resultan dos nuevas variables: datosMoodle y datosPLE que representan o contienen las calificaciones de los estudiantes en función del tamaño de sus redes personales.
  4. Luego se grafican esos datos introduciendo en la consola, el siguiente comando:  plot(quantitativeData$egonet_size,quantitativeData$grade,       ylab="grade", xlab="egonet_size", type="n")
  5. La Regresión Lineal se hace para generar los coeficientes de un modelo (en este caso, una recta) que relaciona una variable predictora (en este caso, el tamaño de red) con una variable respuesta (en este caso, la calificación final). El comando lm calcula los parámetros del modelo: lmMoodle <- lm(datosMoodle$grade ~ datosMoodle$egonet_size) lmPLE <- lm(datosPLE$grade ~ datosPLE$egonet_size)
  6. Luego representamos cada una de las rectas sobre la gráfica utilizando el comando abline, al cual se le pasan como parámetros los coeficientes de la recta, y el color y el grosor que se desean utilizar para dibujarla.
    abline(lmMoodle, col="blue", lwd=2)
    abline(lmPLE, col="blue", lwd=2)
  7. En la figura que resulta, pudimos observar una nube de puntos correspondiente al grupo de estudiantes que utilizó el entorno PLE tiene una calificación final y un tamaño de red personal mayor que el grupo de estudiantes que utilizaron el entorno Moodle. Se calculó la media para hacernos una idea de la medida en que dichos indicadores varían de uno a otro grupo. Sacamos la media de la calificación final en cada grupo, empleando:                        with(quantitativeData, tapply(grade, list(environment), mean))
      Moodle      PLE 
    64.67500      68.36885
También sacamos la Media del tamaño de red personal en cada grupo:
     with(quantitativeData, tapply(egonet_size, list(environment), mean))
       Moodle      PLE 
     9.95000       26.32787

Finalmente se hizo el análisis de datos:
Se observó que la red personal de un estudiante que utilizó el entorno PLE es 2.5 veces más grande que la red de un estudiante que utilizó el entorno Moodle. Parece una diferencia significativa. Pero se quiso saber si las diferencias observadas entre grupos en la calificación final y el tamaño de red personal eran ESTADÍSTICAMENTE significativas.

Para ello se empleo el comando t-test.
El test se puede realizar sobre muestras independientes (una observación sobre dos grupos separados) o sobre muestras dependientes (dos observaciones sobre el mismo grupo).
Ejecutamos el comando para realizar el test de t de student.
t.test(datosMoodle$grade, datosPLE$grade)




¿Qué nos indicaron los resultados? 
1- Que la media de la variable x (datosMoodle$grade) es de 64.675, mientras que la variable y (datosPLE$grade) tiene una media de 68.36885. Por tanto, como hemos dicho anteriormente, la diferencia entre ambos grupos no parece significativa porque es es tan sólo de 3.7 ptos sobre 100; 
Para saberlo, nos fijamos en el p-value. ¿Qué es el p-value? Indica que el riesgo a equivocarnos al afirmar "Sí, existe una diferencia estadísticamente significativa entre ambos grupos debida al factor diferencial entre dichos grupos", cuando en realidad dicha diferencia no se debe al factor diferencial entre grupos, sino al azar. En este caso, p-value = 0.2363 =  23.63%
Como vemos, en lo que respecta a la calificación final, el riesgo que corremos al afirmar "Sí, existe una diferencia estadísticamente significativa entre ambos grupos determinada por la plataforma utilizada en cada grupo" es grande. Pero... ¿cuál es el umbral de riesgo? 0.05 → 5%
  • Si p-value < 0.05, o lo que es lo mismo, < 5% --> riesgo a equivocarnos pequeño; por ejemplo, p-value = 0.00345 (0.345%) --> OK
  • Si p-value > 0.05, o lo que es lo mismo, >5% --> riesgo a equivocarnos grande; por ejemplo, p-value = 0.0645 (6.45%) --> NO OK
 Por tanto, en lo que respecta a la calificación final concluimos que:
  • en este estudio concreto no percibimos una diferencia significativa entre los valores de las medias de cada grupo.
  • la diferencia entre las calificaciones de los estudiantes de uno y otro grupo no es estadísticamente significativa.
Repetimos el test de t-student con el indicador tamaño de red personal: 
t.test(datosMoodle$egonet_size, datosPLE$egonet_size)

En este caso, p-value = 7.965e-16 = 0.0000000000000007965 → 0.00000000000007965%
Por tanto, en lo que respecta al tamaño de red personal concluimos que:
  • en este estudio concreto percibimos una diferencia significativa entre los valores de las medias de cada grupo.
  • la diferencia entre las calificaciones de los estudiantes de uno y otro grupo es estadísticamente significativa.
Mi opinión:

Es bueno contar con una herramienta como RStudio, desconocida para mi, pero que sirve de mucha ayuda para comprender y analizar el resultado de un estudio, estadísticamente hablando.  

He aprendido a usarlo y en estos momentos estoy aprendiendo algunos de sus comandos, a comprender la estructura de los mismos, sus parámetros y a colocarlo en la consola de programación. 

Que bueno es saber que somos capaces de descubrir, aprender y crecer, gracias a la guianza, las clases y asignaciones de nuestros profesores de esta maestría.





0 comentarios:

Publicar un comentario