You are on page 1of 21

Estadstica bsica descriptiva.

Presentado por: Erney Caicedo.

Presentado a: Andrs Hurtado.

DISEO DE E PE!I"E#$OS

%niversidad de #ari&o '(() Estadstica bsica descriptiva.

"edidas de tendencia centra*. Son valores alrededor de los cuales gira un grupo de datos y se clasifican en: "edia "ediana. "oda. Posiciones. "edia. Puede ser aritmtica, geomtrica o ponderada. "edia arit+tica o pro+edio: en torno a esta medida se hacen estadsticas de inferencia. Se define como el cociente entre la suma de los datos o valores de una variable y el numero total de datos. En esta media todos los elementos que la componen tienen la misma importancia. Esta medida tiene el inconveniente de que no permite discriminar segn la mayor o menor importancia que queramos atribuir a ciertos elementos del con unto. Se denota por:

!onde : i , valor de cada dato. i, orden de los datos. n , numero total de datos. E-e+p*o: calcular el promedio de los datos obtenidos para edades de un grupo de personas. Edades: "#, "$, %&, %'. (alcular promedio.

= "#+"$+%&+%' , %)

" Interpretaci.n: el promedio de las edades es %) a*os.

"edia /eo+trica: se utili-a generalmente para calcular promedios de tasas de crecimiento acumulativas, ndices financieros, poblacionales y se define como:

!onde: n , numero de incrementos. 0 y ' , valor de los incrementos. E-e+p*o: si en un a*o el incremento salarial de los traba adores fue el #. /&)#0 y en el siguiente a*o fue del &%. /&&%0 cual fue el incremento promedio anual.

El incremento , &&&," 1 &)) , &&,". Interpretaci.n: el incremento promedio anual fue del &&," .. "edia ponderada: si los datos 2&, 2', ... 2n tienen ponderaci3n n&,n', ... nn respectivamente, el promedio ponderado es: "p, 0n0 1 'n' 1 ... 1 nn

n
"ediana: dado un con unto de valores siempre es posible ordenarlos, sea en forma ascendente o descendente. Pues bien, se llama mediana al valor que se encuentra situado e4actamente en la mitad de la serie ordenada de valores. Si la serie tiene un nmero par de valores, habr5 dos valores en la mitad de la serie en ve- de uno. En tal caso, se toma la semisuma o media aritmtica de ambos valores. E-e+p*o: calcular la mediana para la siguiente lista de datos. ), &, ', 6, %, 7, $, ', &, %. Primero ordenamos los datos en forma ascendente : ), &, &, ', ', 6, %, %, 7, $. (omo tenemos un numero par de datos es decir n, &). 8acemos: Posici3n , /n + &09' , /&) + &09' , %,%

En esta posici3n se encuentran los datos: ' y 6 entonces calculamos mediana. "ediana , 2' 1 345 ' , '6) E-e+p*o ': calcular la mediana de la siguiente lista de datos: 6, ", 7, $, #, ', 6, 7, #, ', &. Primero ordenamos los datos en forma ascendente: &, ', ', 6, 6, ", 7, 7, #, #, $. (omo tenemos un numero impar de datos es decir n ,&&. 8acemos: Posici3n , /n+&09' , /&&+&09' , :. En esta posici3n encontramos el nmero " por lo tanto: "ediana , 274 "oda: se define como el valor que m5s se repite en un con unto dado de observaciones o datos, es la menos utili-ada por que tiene una muy mala apro4imaci3n de un valor verdadero. Segn la moda las distribuciones de los datos pueden ser: ;nimodal: una sola moda. <imodal: dos modas. =ultimodal : m5s de dos modas. >modal: sin modas. E-e+p*os: calcular la moda para las siguientes listas de datos: a0 b0 c0 d0 ), 6, %, &, ), %, :, &, 6, 7, $, 6, ", 7, $, 6, #, &), $, &', &' &%, '), '), '%, '%. 7, 7, &), &).

Soluci3n: a0 =oda , b0 =oda , c0 =oda , d0 =oda ,

) unimodal. 7, &' bimodal. $, '), '% multimodal. no e4iste amodal.

Posici.n. Permiten dividir una poblaci3n de los datos e partes iguales, entre ellos tenemos, los cuartiles, deciles, percentiles, que dividen la poblaci3n en ",&), &)) partes respectivamente: Cuarti*es: se define como: ?@, posici3n /n + &0?@A " si el nmero no es entero entonces aplicamos esta formula para una me or apro4imaci3n. ?q@A, da + B/dp C da0 donde, n6 es el total de datos de la poblaci3n 89:6 es el cuartil ha encontrar. da6 dato anterior. dp6 dato posterior. ;6 son las cifras decimales que pertenecen a la posici3n encontrada. E-e+p*o : encontrar el segundo cuartil de /), 6, 7, &', &%, 0<6 '), '6, 6), 6%, 6#, ")0 n , 0'. ?@, posici3n /&' + &0' ,:.) @ es entonces (.) de la posici3n. " ?g@A , &% + ).%/&# C &%0 , &7.%, es decir que el %). de los datos esta ubicado en el &7,%. Deci*es: se define como: !@, posici3n /n + &0!@A &) si el nmero no es entero entonces aplicamos esta formula para una me or apro4imaci3n. !d@A, da + B/dp C da0 donde, n6 es el total de datos de la poblaci3n

E-e+p*o : encontrar el tercer decil de /), 6, =, &', &%, &#, '), '6, 6), 6%, 6#, ")0 n , 0'. !@, posici3n /&' + &06 ,6.> @ es entonces (.> de la posici3n. &) !d@A , 6 + ).$/&' C 60 , &&.&, es decir que el 6). de los datos esta ubicado en el &&,&. Percenti*es: se define como: P@, posici3n /n + &0P@A &)) si el nmero no es entero entonces aplicamos esta formula para una me or apro4imaci3n. Pd@A, da + B/dp C da0 donde, n6 es el total de datos de la poblaci3n E-e+p*o : encontrar el '%avo percentil de /), 6, =, &', &%, &#, '), '6, 6), 6%, 6#, ")0 n , 0'. P@, posici3n /&' + &06 ,6.') @ es entonces (.') de la posici3n. &) Pd@A , 6 + ).'%/&' C 60 , %.'%, es decir que el '%. de los datos esta ubicado en el %,'%.

"edidas de desviaci.n. Estas medidas se ocupan de la descripci3n de la variabilidad entre los valores. Se dispone de diversas tcnicas para medir el grado de variabilidad en con unto de datos. Estas son: ?arian@a Desviaci.n estndar CoeAiciente de variaci.n ?arian@a: se define como la suma de los cuadrados de las distancias de los datos a la media, divido entre el total de datos se define como:

!onde # , representa el total de datos de la poblaci3n B' , Dearian-a poblacional se puede calcular la distancia 2i 1 2. Sino se conocen los datos usando la Darian-a muestral que se denota como:

!onde n , tama*o de la muestra. E-e+p*o: el reporte inicial de rendimientos de capital para los accionistas de una empresa en un periodo de % a*os est5n dados por los siguientes valores /millones de pesos0 /&6.', :.', &).', &7.%, &'.$0 hallar la Darian-a:

2 media , :)9% &' /millones0 8allamos la Darian-a.

B' , :$,6# , &6,##


% Desviaci.n estndar: se define como la ra- cuadrada de la Darian-a y se define como:

E-e+p*o: con el e emplo anterior podemos calcular la desviaci3n est5ndar

Interpretaci.n: la desviaci3n est5ndar en el rendimiento de la empresa es de 6,7 millones. CoeAiciente de variaci.n: cuando se pretende reali-ar la homogeneidad entre los datos de dos muestras diferentes, > y <, se usa el coeficiente de variaci3n definido como: Poblacional:

=uestral:

Este arro a un valor relativo sin unidades de medida, para saber cual muestra tiene menor dispersi3n: C?A C C?D

Significa que la muestra > es m5s homognea /tiene menor dispersi3n0 que la muestra <. E que los valores de >, est5n m5s cercan a la media. E-e+p*o: Sean dos empresas > y <, en la empresa >, los salarios se cancelan en pesos y en la empresa <, se cancelan en d3lares. En la empresa > el salario promedio es de "7'.%)) pesos, con una desviaci3n est5ndar de &%.7)) pesos. En la empresa <, el salario promedio es de &6% d3lares, con una desviaci3n est5ndar de $ d3lares. En que empresa hay menos dispersi3n salarial. Para la empresa >

cv , &%.7))9"7'.%)) , 6.6'. Para la empresa <

cv , $9&6% , :.:. Fuego: C?A C C?D Interpretaci.n: 8ay menos dispersi3n en la empresa > que en la <, los salarios de la empresa > son mas homogneos.

"todos ErAicos. Presentaciones en tab*as: Primero definiremos que es una tabla para luego traba ar las diferentes clases de tablas: ;na tabla es un cuadro que consiste en la disposici3n con unta, ordenada y normalmente totali-ada, de las sumas o frecuencias totales obtenidos en la tabulaci3n de los datos, referentes a las categoras o dimensiones de una variable o de varias variables relacionadas entre s. Fas tablas sistemati-an los resultados cuantitativos y ofrecen una visi3n numrica, sinttica y global del fen3meno observado y de las relaciones entre sus diversas caractersticas o variables. En ella, culmina y se concreta definitivamente la fase clasificatoria de la investigaci3n cuantitativa. Geniendo la definici3n de lo que es una tabla, podemos traba ar entonces cada uno de los tipos de tablas pedidas: $ab*a de entrada de datos: Es una tabla en la cual solo aparecen los datos que se obtuvieron de la investigaci3n cientfica o del e4perimento. Es la tabla m5s sencilla y se utili-a cuando no se necesita mayor informaci3n acerca de los datos, estas tablas se construyen por medio de la tabulaci3n de los datos, este procedimiento es relativamente sencillo, para reali-arlo nos ocupamos de un con unto de datos estadsticos obtenidos al registrar los resultados de una serie de n repeticiones de algn e4perimento u observaci3n aleatoria, suponiendo que las repeticiones son mutuamente independientes y se reali-an en condiciones uniformes, es importante decir que el resultado de cada observaci3n puede e4presarse de forma numrica, para este tipo de tablas de entrada de datos se puede traba ar con una 3 mas variables, de manera que nuestro material estadstico consiste en n valores observados de la variable 2 . Fos valores observados se suelen registrar, en primer lugar en una lista, si l numero de observaciones no e4cede de ') 3 6), estos datos se registran en orden creciente de magnitud. (on los datos de esta tabla pueden hacerse diversas representaciones gr5ficas y calcularse determinadas caractersticas numricas como la media, la mediana, etc.

EH: >grupar en una tabla de datos &), &, :, $, ', %, 7, ", 6, #

$ab*as de Arecuencias: ;na tabla de frecuencia esta formada por las categoras o valores de una variable y sus frecuencias correspondientes. Esta tabla es lo mismo que una distribuci3n de frecuencias. Esta tabla se crea por medio de la tabulaci3n y agrupaci3n, la cual es un mtodo sencillo como lo habamos empe-ado a ver en la tabla de datos, Se reali-a el mismo procedimiento de tabulaci3n anteriormente descrito si el numero de valores observados para la variable, se traba a con una sola variable, descontando los repetidos son peque*os, si e4isten repetidos la frecuencia f es el numero de repeticiones de un valor de 2 dado, Sin embargo, cuando el con unto de datos es mayor, resulta laborioso traba ar directamente con los valores individuales observados y entonces se lleva a cabo, por lo general, algn tipo de agrupaci3n como paso preliminar, antes de iniciar cualquier otro tratamiento de los datos. Fas reglas para proceder a la agrupaci3n son diferentes segn sea la variable, discreta o continua, para una variable discreta suele resultar conveniente hacer una tabla en cuya primera columna figuren todos los valores de la variable 2 representados en el material, y en la segunda, la frecuencia f con que ha aparecido cada valor de 2 en las observaciones. Para una variable continua, el procedimiento de agrupaci3n es algo m5s complicado. Se toma un intervalo adecuado sobre el e e de la variable que contenga los n valores observados, y divdase el intervalo en cierto numero de intervalos de clase. Godas las observaciones que pertenecen al mismo intervalo de clase se agrupan y cuentan, y l numero que resulte representa la frecuencia de clase correspondiente a dicho intervalo, luego se forma una tabla, en cuya primera columna figuran los limites de cada intervalo de clase, y en la segunda aparecen las correspondientes frecuencias.

Estas clases de tablas son las mas usadas y brindan mayor informaci3n de los datos que las tablas de entradas de datos, efectivamente, una tabla de este tipo dar5 en forma abreviada, una informaci3n completa acerca de la distribuci3n de los valores observados. (on estas se pueden utili-ar mas a fondo los mtodos gr5ficos al igual que los mtodos aritmticos. E : >grupar en una tabla &, &, ', ', ', ', 6, 6, 6, ", %

>grupar en una tabla las siguientes estaturas: &:), &:#, &7%, &#6, &7), &:", &7), &#", &7&, &:#, &#7, &:&, &#6, &7%, &#%, &#:, &#7, &:", &:%, &7%, &:', &##, &:$, &:6, &::, &7', &76, &:7, &7", &7:, &7#, &7$, &77

$ab*as de dob*e entrada: Gambin llamadas tablas de contingencias, son aquellas tablas de datos referentes a dos variables, formada, en las cabeceras de las filas, por las categoras o valores de una variable y en las de las columnas por los de la otra, y en las casillas de la tabla, por las frecuencias o numero de elementos que renen a la ve- las dos categoras o valores de las dos variables que se cru-an en cada casilla. Para la tabulaci3n de un material agrupado de observaciones simultaneas de dos variables aleatorias necesitaremos una tabla descrita como anteriormente lo describimos, las reglas para agrupar son las mismas que en el caso de una sola variable. Este tipo de tablas brindan informaci3n estadstica de dos eventos relacionados entre s, es til en casos en los cuales los e4perimentos son dependientes de otro e4perimento, mas adelante aparecen mas aplicaciones del an5lisis estadstico bivariable. E emplo:

"todos /rAicos: Primero definiremos lo que es un gr5fico o diagrama en estadstica ;n diagrama es una especie de esquem5tico, formado por lneas, figuras, mapas, utili-ado para representar, bien datos estadsticos a escala o segn una cierta proporci3n, o bien los elementos de un sistema, las etapas de un proceso y las divisiones o subdivisiones de una clasificaci3n. Entre las funciones que cumplen los diagramas se pueden se*alar las siguientes: 8acen m5s visibles los datos, sistemas y procesos Ponen de manifiesto sus variaciones y su evoluci3n hist3rica o espacial. Pueden evidenciar las relaciones entre los diversos elementos de un sistema o de un proceso y representar la correlaci3n entre dos o m5s variables.

Sistemati-an y sinteti-an los datos, sistemas y procesos. >claran y complementan las tablas y las e4posiciones te3ricas o cuantitativas. El estudio de su disposici3n y de las relaciones que muestran pueden sugerir hip3tesis nuevas. >lgunos de los diagramas m5s importantes son el diagrama en 5rbol, diagrama de 5reas o superficies, diagrama de bandas, diagrama de barras, diagrama de bloques, diagrama circular, diagrama circular polar, diagrama de puntos, diagrama de tallo y ho a diagrama, histogramas y gr5ficos de ca a y bigote o bo4plots. ErAicos univariados: Para traba ar los gr5ficos univariables debemos primero saber lo que es el an5lisis estadstico univariable y despus de esto traba aremos los mtodos pedidos El an5lisis estadstico que opera con datos referentes a una sola variable o distribuci3n de frecuencias y pretende determinar sus propiedades estadsticas. El a.e.u. proporciona al analista medidas representativas de la distribuci3n o promedios, ndices de dispersi3n de los datos de la distribuci3n, procedimientos para normali-ar los datos, medidas de desigualdad de unos datos en relaci3n con otros y por ultimo medidas de la asimetra de la distribuci3n. ErAicos de puntos: Es una variaci3n del diagrama lineal simple el cual esta formado por lneas rectas o curvas, que resultan de la representaci3n, en un e e de coordenadas, de distribuciones de frecuencias, este construye colocando en el e e 4 los valores correspondientes a la variable y en el e e de las ordenadas el valor correspondiente a la frecuencia para este valor. Proporciona principalmente informaci3n con respecto a las frecuencias. Este se usa cuando solo se necesita informaci3n sobre la frecuencia. (uando la muestra se agrupa por intervalos se traba a con la marca de clase del intervalo de clase, la marca de clase es el punto medio del intervalo

EH: !uraci3n de tubos de ne3n

ErAico de puntos

ErAicos de ta**o y Fo-a: es una forma r5pida de obtener una representaci3n visual ilustrativa del con unto de datos, para construir un diagrama de tallo y ho a primero se debe seleccionar uno 3 m5s dgitos iniciales para los valores de tallo, el dgito o dgitos finales se convierten en ho as, luego se hace una lista de valores de tallo en una columna vertical.

Prosiguiendo a registrar la ho a por cada observaci3n unto al valor correspondiente de tallo, finalmente se indica las unidades de tallos y ho as en algn lugar del diagrama, este se usa para listas grandes y es un mtodo resumido de mostrar los datos, posee la desventa a que no proporciona sino los datos, y no aparece por ningn lado informaci3n sobre frecuencias y dem5s datos importantes. E : realice un diagrama de tallo y ho a para los siguientes datos de distancias en yardas de una cancha de golf :"6% :77) :$6: 7&&6 :":" :"66 :"7) :%': :%'7 :%): :%#6 ::)% ::$" ::&" :7$) :7)) :7$# :77) :7"% :7&6 :#$) :#7) :#76 :#%) :$)) :$'7 :$)" 7)%& 7))% 7)&& 7)") 7)%) 7)'' 7&6& 7&:$ 7&:# 7&)% 7&:% 7'#) 7')$

Dia/ra+as de barras: nombre que recibe el diagrama utili-ado para representar gr5ficamente distribuciones discretas de frecuencias no agrupadas. Se llama as porque las frecuencias de cada categora de la distribuci3n se hacen figurar por tra-os o columnas de longitud proporcional, separados unos de otros. E4isten tres principales clases de gr5ficos de barras: Darra si+p*e: se emplean para graficar hechos nicos Darras +G*tip*es: es muy recomendable para comprar una serie estadstica con otra, para ello emplea barras simples se distinto color o tramado en un mismo plano cartesiano, una al lado de la otra Darras co+puestas: en este mtodo de graficacion las barras de la segunda serie se colocan encima de las barras de la primera serie en forma respectiva. El diagrama de barras proporciona informaci3n comparativa principalmente y este es su uso principal, este diagrama tambin muestra la informaci3n referente a las frecuencias

Histo/ra+as: Se emplea para ilustrar muestras agrupadas en intervalos. Esta formado por rect5ngulos unidos a otros, cuyos vrtices de la base coinciden con los limites de los intervalos y el centro de cada intervalo es la marca de clase, que representamos en el e e de las abscisas. Fa altura de cada rect5ngulo es proporcional a la frecuencia del intervalo respectivo. E* Fisto/ra+a se usa para representar variables cuantitativas continuas que han sido agrupadas en intervalos de clase, la desventa a que presenta que no funciona para variables discretas, de lo contrario es una forma til y practica de mostrar los datos estadsticos.

ErAicos de sectores: es un gr5fico que se basa en una proporcionalidad entre la frecuencia y el 5ngulo central de una circunferencia, de tal manera que a la frecuencia total le corresponde el 5ngulo central de 6:)I. Para construir se aplica la siguiente formula: 2 , frecuencia relativa J 6:)I9S frecuencia relativa Este se usa cuando se traba a con datos que tienen grandes frecuencias, y los valores de la variable son pocos, la venta a que tiene este diagrama es que es f5cil de hacer y es entendible f5cilmente, la desventa a que posee es que cuando los valores de la variable son muchos es casi imposible o me or dicho no informa mucho este diagrama y no es productivo, proporciona principalmente informaci3n acerca de las frecuencias de los datos de una manera entendible y sencilla. EH: Kepresentar mediante un gr5fico de sectores la frecuencia con que aparece cada una de las cinco vocales en el presente p5rrafo:

Lraficamos

ErAicos bivariados: Para traba ar los diagramas de dispersi3n, primero debemos saber que es el an5lisis estadstico bivariable y las venta as que este tiene El an5lisis estadstico bivariable es aquel an5lisis que opera con datos referentes a dos variables y pretende descubrir y estudiar sus propiedades estadsticas. El an5lisis estadstico bivariable se orienta fundamentalmente a la normali-aci3n de los valores o frecuencias ce los datos brutos, determina la e4istencia, direcci3n y grado de la variaci3n con unta entre las dos variables, lo que se reali-a mediante l calculo de los coeficientes de correlaci3n pertinentes, calcula la covarian-a o producto de las desviaciones de las dos variables en relaci3n a sus medias respectivas y por ultimo establece la naturale-a y forma de la asociaci3n entre las dos variables en el caso de las variables de intervalo. Dia/ra+a de dispersi.n: es un diagrama que representa gr5ficamente, en un espacio de ordenadas, los puntos de dicho espacio que corresponden a los valores correlativos de una distribuci3n bivariante con unta, estos diagramas deben usarse cuando tenemos un an5lisis estadstico bivariable, 3sea una tabla de datos de doble entrada, la venta a que tienen es que se puede graficar de una forma sencilla una distribuci3n bivariante con unta y la desventa a principal es que no funciona si sucede que una dupla se repita E emplo:

DIDHIOE!AIIA Sierra <ravo. K. !iccionario Practico de Estadstica, Ed Paraninfo S.>. =adrid. Espa*a, pags %:C%7, &77C&#7, "'7C"6'. Serrano Kodrgue-, Havier. Mntroducci3n a la Estadstica. Ed universitaria de >mrica FM!>, <ogot5, (olombia. Pag 6)C"$ !evore, Hay F. Probabilidad y Estadstica para ingeniera y ciencias, Ed Ghomson, "ta Edici3n, pags 7C67.

You might also like