You are on page 1of 45

Análisis de datos

Sesión de aprendizaje 23
Dirección de Calidad Educativa
Propósito de la sesión de clase

Define las técnicas de análisis de datos y


ubica las técnicas pertinentes para su
trabajo de investigación.

.
¿Cuál sería la mejor manera de analizar los
datos recolectados con la aplicación de los
instrumentos de recolección de datos
construidos y aplicados?
Elaboran un organizador gráfico libre
sobre las técnicas de análisis de datos.
Utilizan la Guía de Trabajo de la
asignatura.
Técnicas de análisis de datos

Es el conjunto de procedimientos que


permiten hacer hablar a los datos en base a
objetivos de estudio.
Para procesar y analizar los datos,
generalmente, se utilizan técnicas estadísticas
con el apoyo de programas informáticos
como Excel, SPSS, entre otros.
Análisis de los datos
 El análisis de datos consiste en realizar operaciones
con los datos con la finalidad de alcanzar los
objetivos del estudio.
 Existen dos grandes familias de técnicas de análisis
de datos:
Técnicas cuantitativas: los datos se presentan en
forma numérica.
Técnicas cualitativas: los datos son presentados de
manera verbal (o gráfica) - como los textos de
entrevistas, las notas, los documentos…-
El análisis de datos depende de tres factores:

• El nivel de medición de las variables.


• La manera de cómo se hayan formulado las
hipótesis.
• El interés del investigador.
Escalas de medición de las variables

NOMINAL ORDINAL INTERVALOS RAZÓN


Posee categorías a Posee categorías Variables que pueden Variables con
las que se les asigna ordenadas (de mayor establecer intervalos intervalos iguales
un nombre. a menor). No se es iguales entre sus pueden situar un cero
Las categorías no posible cuantificar la valores. Puede asumir absoluto
tienen orden, ni distancia entre las valores negativos. Ej.:
jerarquía categorías.
Ej.: Ej.: Ej.: Peso: Edad:
Religión: católico. cargo: presidente, -10°C 0 kg 0
Mormón. pentecostés vicepresidente, director 0°C 10.5 kg. 10
Estado civil: soltero, Instrucción: primaria, 20°C 20 kg. 30.5
casado, viudo, secundaria, superior 0-20
divorciado
Estadística
Ciencia que estudia la recolección, análisis e interpretación de datos de una muestra
representativa, ya sea para ayudar en la toma de decisiones o para explicar condiciones
regulares o irregulares de algún fenómeno o estudio aplicado.

ESTADÍSTICA INFERENCIAL
ESTADÍSTICA DESCRIPTIVA
Está definida por un conjunto de técnicas,
mediante las cuales se hacen
Es la encargada de la organización,
generalizaciones o se toman decisiones en
condensación, presentación de los datos en
base a información parcial obtenida mediante
tablas y gráficos y del cálculo de medidas
técnicas descriptivas.
numéricas que permitan estudiar los aspectos
más importantes de los datos.
INFERIR
- Estimar parámetros
DESCRIBIR
- Probar hipótesis
Estadística descriptiva e inferencial
POBLACIÓN

ESTADÍSTICA ESTADÍSTICA
DESCRIPTIVA INFERENCIAL
Se utiliza para Se utiliza para probar
describir los datos hipótesis y realizar
recolectados en la inferencias o
muestra sobre las generalizaciones de los
MUESTRA resultados de la muestra
variables de estudio
(Tabulaciones. a la población de
Representaciones estudio.
Síntesis de los datos) Es extrapolar resultados
a la población.
Estadística descriptiva
• Recolecta, ordena, analiza y representa un conjunto de
datos, con el fin de describir apropiadamente las
características de ese conjunto.
• Este análisis es básico. Aunque hay tendencia a generalizar
a toda la población.
• Las primeras conclusiones obtenidas tras un análisis
descriptivo, resulta del análisis de los resultados de: la
distribución de frecuencias de los datos, del cálculo de
las medidas de tendencia central (moda, mediana, media),
las medidas de variabilidad (rango, desviación estándar,
varianza) y las medidas de forma (asimetría y curtosis).
Estadística descriptiva

Conjunto de puntuaciones ordenadas en sus


Distribución de respectivas categorías. Proporciona datos de
frecuencias frecuencias y porcentajes
Estadística descriptiva

• Medidas de tendencia central:


Son los valores medios o centrales de una distribución que sirven para ubicarla
dentro de la escala de medición de una variable.

– La moda: es el valor más común en nuestro


conjunto de datos. El que más se repite.

– La mediana: es el valor medio de la selección,


si todos los valores están dispuestos de menor
a mayor.

– La media aritmética: es la suma de todos los


valores dividido por el número de datos.
Estadística descriptiva

• Medidas de variabilidad.
Indican la dispersión de los datos en la escala de
medición de la variable

– Rango: Es el intervalo entre el valor máximo y


mínimo.

– Desviación estándar. Promedio de la desviación


de las puntuaciones con respecto a la media.

– Varianza. Desviación estándar elevada al


cuadrado.
ESTADÍSTICOS APROPIADOS POR ESCALAS
NOMINAL ORDINAL INTERVALOS RAZÓN
Moda Mediana Media, rango, Todos
varianza,
desviación
estándar
Estadística descriptiva

• Medidas de forma
– Coeficiente de asimetría: Si una distribución es simétrica, tendremos el
mismo número de valores a ambos lados de la media. Para calcular la
asimetría se utilizan, por ejemplo: el coeficiente de Fisher, de Pearson o
el de Bowley.
Estadística descriptiva
• Medidas de forma
– Coeficiente de curtosis: Es una medida de la forma. Una mayor
curtosis comprende una mayor cantidad de datos muy cerca de la
media, esto se evidencia con la existencia de datos muy elevados
y con un centro concentrado.
• Distribución de
frecuencias y
representaciones
gráficas:
– Histograma de frecuencia:
es una representación
gráfica de una variable en
forma de barras, donde la
superficie de cada barra es
proporcional a
la frecuencia de los valores
representados.
Intervalo de Punto medio “xi” f
clase

Ejemplo 38 – 42 40 2

43 – 47 45 4

48 – 52 50 8

53 – 57 55 5

Histograma 58 – 62 60 3

9 63 - 68 65 3
8 Total 25
7
6
5
f
4
3
2
1
0
35 40 45 50 55 60 65
xi
– Polígono de frecuencia:
es un gráfico de líneas
de las frecuencias
absolutas de los valores
de una distribución en
el cual la altura del
punto asociado a un
valor de las variables es
proporcional a la
frecuencia de dicho
valor.
Intervalo de Punto medio “xi” f
9 Polígono de Frecuencias
clase 8
7
38 – 42 40 2
6
43 – 47 45 4 5
f 4
48 – 52 50 8
3
53 – 57 55 5 2
1
58 – 62 60 3
0
63 - 68 65 3 35 40 45 50 55 60 65 70
xi
Total 25
Pirámide poblacional

Una variante en el
histograma es colocar
en el eje “x” de tal
manera que las
columnas quedarán en
forma horizontal, es
muy común en datos
poblacionales.
Ojiva
• Es la representación gráfica de las frecuencias
acumuladas mediante un gráfico de línea. Se muestra
la distribución de frecuencias acumuladas de los
datos.

• En el eje “x” estarán los puntos medios y en el eje “y”


las frecuencias acumuladas.
Ejemplo
Intervalo Punto f fr fa
de clase medio “xi”
Ojiva
38 – 42 40 2 0.08 2 30
25
43 – 47 45 4 0.16 6 22
20 19

48 – 52 50 8 0.32 14 fa 14
10
6
53 – 57 55 5 0.20 19 2
0 0
58 – 62 60 3 0.12 22 35 40 45 50 55 60 65
63 - 68 65 3 0.12 25
xi

Total 25 1
Gráfico circular

65 40
60 12% 8% 45
12% 16%

55
20% 50
32%
Gráfico de barras

Carrera Alumnos Elección de Carrera


Medicina 8
Mecánica 11 11 11
8 8
Civil 8 6
3 3
Agronomía 3
Físico - Matemáticas 3
Leyes 6
Contaduría 11
Pictograma
• Similar al de barras, sólo que se sustituyen por
figuras, generalmente relacionadas con la variable
estudiada.
Estadística inferencial
• Son métodos y procedimientos que por medio de la
inducción determinan propiedades de una población
estadística, a partir de una pequeña parte de la misma.
• La estadística inferencial se utiliza para probar hipótesis y
estimar parámetros.
• Parámetros son las estadísticas de la población.
• Se denominan estadígrafos a los datos estadísticos
recopilados de una muestra.
Nivel de significancia
El nivel de significancia y el
intervalo de confianza son
niveles de probabilidad de
cometer un error o
equivocarse en la prueba de
hipótesis o la estimación de
parámetros.
Nivel de significancia
El nivel de significancia o significación de un test se utiliza en la
verificación de hipótesis para tomar la decisión de aceptar o
rechazar la hipótesis nula.
Se toma como referencia el p-valor, si es inferior al nivel de
significación, entonces la hipótesis nula será rechazada.
Cuanto menor sea el valor p, más significativo será el
resultado.

El nivel de significación es comúnmente representado por el


símbolo griego α (alfa). Son comunes los niveles de
significación del 0,05 y 0,01 .
PRUEBA DE HIPÓTESIS

Una hipótesis, en el contexto de la


estadística inferencial, es una proposición
respecto a uno o varios parámetros.
Lo que el investigador hace por medio de
la prueba de hipótesis es determinar si la
hipótesis poblacional es congruente con
los datos obtenidos en la muestra.
Existen dos tipos de análisis estadísticos
para probar hipótesis: los análisis
paramétricos y los no paramétricos.
Análisis paramétrico
Para realizar análisis paramétricos debe partirse de los
siguientes supuestos:
• La distribución poblacional de la variable dependiente es
normal: el universo tiene una distribución normal.
• El nivel o escala de medición de la variable dependiente es
por intervalos o razón.
• Cuando dos o más poblaciones son estudiadas, tienen una
varianza homogénea: las poblaciones en cuestión tienen
una dispersión similar en sus distribuciones.
Análisis paramétricos
 Coeficientes de correlación de Pearson: analiza la relación entre dos variables
medidas en un nivel por intervalos o de razón.
 Regresión lineal: se utiliza para estimar el efecto de una variable sobre otra. Se
utiliza para probar hipótesis correlaciónales y causales. Las variables están medidas
en un nivel por intervalos o de razón.
 Prueba t: evalúa si dos grupos difieren entre sí de manera significativa respecto a
sus medias en una variable. El nivel de medición de las variables de comparación es
de intervalos o de razón.
 Prueba de contraste de la diferencia de proporciones: Analiza si dos proporciones
o porcentajes difieren significativamente entre sí. Las variables pueden estar
medidas en cualquier nivel. (nominal, ordinal, intervalos, de razón).
 Análisis de varianza: Analiza si más de dos grupos difieren significativamente entre
sí en cuanto a sus medias y varianzas.
Análisis paramétrico
Coeficiente de correlación de Pearson
 Analiza la relación entre dos variables medidas
en un nivel por intervalos o de razón.
 Se simboliza con: r
 Ejemplos: A mayor X, mayor Y.
 A mayor X,menor Y.
 La hipótesis de investigación señala que la
correlación es significativa.(No identifica
causalidad)
 Puede variar de -1.00 a +1.00
Análisis paramétrico
Regresión lineal
• Es un modelo estadístico para estimar el efecto de
una variable sobre otra.
• Está asociado con el coeficiente de correlación de
Pearson.
• Brinda la oprtunidad de predecir las puntuaciones de
una variable tomando las puntuaciones de la otra
variable.
Análisis paramétrico
Prueba t
• Es una prueba estadística para evaluar si dos grupos
difieren entre si de manera significativa respecto a
sus medias en una variable.
• Se simboliza con :t.
• La hipótesis de investigación.propone que los dos
grupos difieren de manera significativa, y la hipótesis
nula que los dos grupos no difieren.
Prueba de diferencia de proporciones
• Es una prueba estadística para analizar si dos
proporciones o porcentajes difieren
significativamente entre sí, en dos grupos.
• La comparación se realiza con una variable.
• Si hay varias variables hay que realizar una prueba por
cada variable.
Análisis paramétrico
Análisis de varianza(ANOVA- one-way)
• Es una prueba estadística para analizar si más de dos
grupos difieren significativamente (son
diferentes)entre sí en cuanto a sus medias y
varianzas.

• Hay otras a estadísticas relacionadas con anova.


Análisis no paramétrico
Para realizar análisis no paramétricos debe partirse de los
siguientes supuestos:
• La mayoría de estos análisis no requieren de presupuestos
acerca de la forma de la distribución poblacional. Aceptan
distribuciones no normales.
• Las variables no necesariamente tienen que estar medidas
en un nivel de intervalos o de razón; pueden analizar
datos nominales u ordinales. De hecho, si se requieren
aplicar análisis no paramétricos a datos por intervalos o
razón, éstos se resumen a categorías discretas. Las
variables deben ser categóricas.
Análisis no paramétrico

 Chi cuadrada (χ²): Evalúa hipótesis acerca de la relación entre dos variables
categóricas. El nivel de medición de las variables es nominal u ordinal.
 Coeficiente de correlación de Pearson: Es apropiada para variables medidas por
intervalos o razón y para relaciones lineales.
 Coeficientes de correlación por rangos ordenados rho de Sperman y tau de Kendall.
Son medidas de correlación para variables en un nivel de medición ordinal. Los
individuos o sujetos de la muestra pueden ordenarse por rangos.
 Coeficientes de correlación o independencia para tabulaciones cruzadas: Phi
(variables ordinales reducidas a dos categorías), coeficiente de contingencia C de
Pearson (variables ordinales reducidas a dos categorías), V de Cramer, Godman-
KrusKal, …
Análisis no paramétrico
Chi cuadrada
• Es una prueba estadística para evaluar hipótesis
acerca de la relación entre dos variables categóricas.
• Se simboliza (χ²)
• No considera relaciones causales.
Análisis no paramétrico
Coeficientes rho de Spearman(rs) y tau simbolizado
por t de Kendall:

Los individuos u objetos de la muestra pueden ser


ordenados por rangos.
¿QUÉ APRENDIMOS HOY?
Síntesis de lo estudiado

¿CÓMO APLICARÁN LO
APRENDIDO?

You might also like