You are on page 1of 15

TareaNo.

2AnlisisEstadsticodeDatos

1 2
ZusiEilGonzlezPedraza ,LinaDanielaCarvajalBelalczar
1
PregradodeAstronoma,InstitutodeFsica,UniversidaddeAntioquia

Mayo19del2016

Para el desarrollo de la Tarea No. 2 se har uso de los datos proporcionados por el profesor John
Alejandro Martinez Agudelo los cuales, se analizarn siguiendo las indicaciones brindadas en el
enunciadodelaTareaNo.2.

1. Grafiquelos histogramas para E1yE2enlamismagrfica.Dira quelasdistribucionesson


las mismas? Grafique el histogramapara P: qu clasede simetra tiene la distribucin?Qu
tanprobableesobtenerunaprecipitacinmayoroiguala10mm/dia?

EnelGrfico1,insertadoenlosAnexos,seevidenciaqueambasdistribucionesno son igualespuesno


tienen los mismo parmetros,no pueden ser representadasexactamenteporlamismafuncin,mssu
comportamiento essimilar.EnelGrfico2,insertadoenlosAnexos,sepuedeobservaruna distribucin
con una asimetra positiva, tanto para E1 como para E2 , por la forma en que est la distribucin
respecto a la medida central. Una forma de verlo o masbien, verificarlo, es usandoelcoeficiente de
asimetra,siendoeste:

n
[ ] (x x)
1
3
= n1
s3 i
i=1

El cual para E1 yE2sonrespectivamente:0.2536 y0.2027, lo cualindicaquelaasimetra espositiva,
talcomoresultenlaGrfica1(VerAnexos).

Al observar el comportamiento de los datos, para obtener la probabilidad de que la precipitacin sea
mayor o iguala 10 mm/da,siendoN el nmero totalde ensayosigual a 384 yX es elnmerototalde
xitos, en ste caso que la precipitacin sea mayor o igual a 10 mm/da, luego X=29, luego: La
probabilidadesde0.0755.

2. Calcule la diferencia de los valores medios entre E1 y E2. Haga dos tipos de test de
significancia:

Se tiene que la diferencia de los valores medios de E1 y E2 es 0.4285mm/da, siendolamedia


E1=3.7196mm/daylamediaE2=3.2911mm/dia.

Para evaluar si E1 yE2difieren demanerasignificativarespectoasusmediasse realizaunaprueba


paramtrica usando la distribucin t paramuestras apareadasy unaprueba deWilcoxon (prueba no
paramtrica)queseutilizaparamuestrasrelacionadas.Elintervalodeconfianzaesdel95%.


TareaNo.2AnlisisdeDatos.

i)Pruebaparamtricausandoladistribucint.
El estadsticot que seobtiene se distribuyesegnelmodelodetstudentN1=383 gradosdelibertad,
permitiendo conocer la probabilidad asociada a los diferentes valores de la media muestral de las
diferenciasrelacionadas.

Planteamientodehiptesis:
H0:Ladiferenciaentrelasmediasesiguala0.
Ha:Ladiferenciaentrelasmediasesdiferentede0.

Al realizar la prueba se obtieneunestadsticotde25.501 con significacinbilateral<0.001.Elvalorde


significacinbilateral es el quenosbrindainformacin sobreelgradode compatibilidadexistenteentre
las medias muestrales,siendo este nivel muypequeo ymenorque 0.005(nivel de significacin alfa)
se rechaza la hiptesis de igualdad de medias y se concluye que lamedia de E1 es mayor que la
mediadeE2..ElriesgoderechazarlahiptesisnulaH0cuandoesverdaderaesmenoral0,01%.
LosdatosobtenidosdelarealizacindelapruebaseencuentransuministradosenlaTabla1.(Anexos)

ii)una pruebanoparamtrica (permutaciones oboostrap).Es la diferencia entrelosvalores


mediosdeE1yE2significativa?

LapruebadeWilcoxonserealizautilizandolaherramientaestadsticaSPSS.
La prueba de Wilcoxon es utilizada bsicamente para saber si las medias de dos muestras
correlacionadasdifieren.

ParaelanlisisdelaPruebadeWilcoxonsetieneelsiguienteplanteamientodehiptesis:

H0:LasmediasdeE1ydeE2soniguales.
Ha:LasmediasdeE1yE2sondiferentes.

La hiptesisnula postula quela distribucinde lasdosmuestras es la misma la hiptesis alternativa


establecequehaydiferenciasrespectoalatendenciacentraldelaspoblacionesypuedeserdireccional
o no. Elcontraste estbasado en el comportamiento delas diferencias entrela puntuacionesdecada
par asociado, teniendo en cuenta el signo y lamagnitud de ladiferencia. El contrastese basaen el
comportamiento de las diferencias entre las puntuaciones de los elementos de cada par asociado,
teniendoencuentanosloelsigno,sinotambinlamagnituddeladiferencia.

Al realizar la prueba se obtiene un estadstico de Wilcoxon Zde 15.11 con significacinbilateral


<0.001. Puesto que el valor del nivel crtico es menor que el nivel de significacin se rechaza la
hiptesis nula H0 que postula la igualdad de medias y se concluye que las variables comparadas
difieren,siendoelpromediodeE1mayoreldeE2.Elriesgoderechazarlahiptesis
nulaH0cuandoesverdaderaesmenoral0,01%.

Yaque en lasdospruebas analizadassellegalomismo seconcluye quelasmediasdeE1Y deE2


sondistintas. Ladiferencia entrelos valores medios deE1 yE2nessignificativa,puestoqueel riesgo
de aceptar que estas dos sean iguales cuando esta es verdadera es del 0.01% , esdecirque una
seguridad del 95% lleva implcitoun nivel menoral el nivelde significancia elegidoquefuealfa=0.05y
unaseguridaddel99%llevaimplcitounniveldesignificanciamenora0.01.

2


TareaNo.2AnlisisdeDatos.

3. Calcule lacorrelacin entreE1 yP. Tambin calcule la correlacin entreE2 yP. Sonestos
valores de la correlacin significativos? Discuta fsicamente el significado del signo y
significanciadelacorrelacinentreE1yP,yentreE2yP.

Para calcular la correlacin entre dos variables se utiliza la correlacin depearsonconn=384 ,pero
para esto primero deben calcularse las desviaciones estndar, siendo estas para E1, E2 y P
respectivamente: 0.7249 mm/da,0.5519 mm/da, 3.4058 mm/da. Las desviaciones fueron calculadas
usando:

2
s= (xix)
n1
Adems de sto se hallan las anomalas y lasanomalasestandarizadas,debidoaque se necesitan
paraelclculodelaCorrelacindePearson,lascualesresultaronser:

CorrelacindePearsonentreE1yP:0.0283

Por unlado el signo negativoindica una relacininversa, pero el valornos indica que losdatosestn
muy dispersos,puesr estmuycercanoacero,porloquesepuedeafirmarquelosdatosE1yPnose
relacionan al menos, linealmente, adems de que pueden ser independientes. Para observar mejor
esto, seha realizado el diagrama dedispersin utilizando lasanomalasestandarizadasy a su vez se
hagraficadoenrojolarectaconpendiente0.0283resultantedelacorrelacin dePearson.(Ver Grfica
2 en Anexos). En sta Grfica 2 se puede observar la dispersin de los datos y que stos no se
encuentranrelacionadoslinealmente.

CorrelacindePearsonentreE2yP:0.0372

Realizando el anlisis delacorrelacinentreE2yP,seencuentra quesegnelsigno,la correlacines


directamente proporcional, pero el valor tan cercano a cero indica que los datos se encuentran muy
dispersos, lo que quiere decir que E2 y P no se relacionan linealmente y adems pueden ser
independientes. Igual que en el caso anterior, se realiza la Grfica 3 (Ver enAnexos), la culesun
diagrama de dispersin de lasanomalasestandarizadas de E2 yP, yen rojosemuestra la relacin
lineal segn la correlacin de Pearson, con una pendiente de 0.0372. Luego, se observa que
efectivamentelos datos seencuentranmuydispersosynoseevidenciarelacioneslinealesenelmismo
grfico.

Siendo E1yE2datos delaEvaporacindelaguapromediomensualy P,lasprecipitacionesmensuales


promedio, y todos corresponden a la misma regin y se midieron enel mismo intervalo deaos,las
correlaciones anteriormente calculadas dejan mucho que pensar, pues aunque ambas estn muy
cercanasacero,tienen signosdiferentes, loque podra verse comouna contradiccin.Peroaltender
ambas a cero, se podra decir que las precipitaciones promedio mensuales no se dan, ono slo se
presentan por la evaporacin promedio mensual es decir, hay muchas otras variables que pueden
influir no es correcto verlo en el mismo instante y con una variacin lineal, puede que estn
relacionadas pero tener otro tipo de comportamiento. Por el momento con los datos obtenidos, slo
podemosdecirquealparecerE1yE2conPnoseencuentranrelacionadaslinealmente.

4. Repitaelpaso3, correlacionandoE1 conPen el mes anterior(lag 1).Haga lo mismo para


E2 con P en el mes anterior. Que significa esta correlacin? Son los valores obtenidos
significativos?

Calculando la correlacinde forma similara la anterior, pero con n=383, puesseestanalizando E1y
E2conelPdelmesanterior,resultaser:

3


TareaNo.2AnlisisdeDatos.

CorrelacindePearsonparaE1yPdelmesanterior:
0.0420

CorrelacindePearsonparaE2yPdelmesanterior: 0.0592

Lascorrelaciones resultantessonun poco ms significativasque las calculadas enel punto tres,pues


se encuentran ms alejadas de cero, pero sin embargo siguen estando muy cercade ste.Adems
sigueresultandoqueel signodelacorrelacinentreE1yP esnegativo,peroparaE2conP espositivo.
Al igual queen el punto3 serealizanlosdiagramasdedispersin(Grfica 5yGafica6enAnexos) de
las anomalas estandarizadascorrespondientes, con el finde observarmejor los resultados y verificar
que el valor numrico corresponde tenga concordancia al que se presenta cuando se realiza el
Scatter plot. Fsicamente, esta correlacin estara diciendo que lasprecipitaciones promediodel mes
anterior indican quetantoo quetanpoco puede evaporarse enpromedioelaguadela superficieenel
mes siguiente. Sinembargo,hayque tener encuentaque nosloelaguaque hay enlasuperficie es
debida a las lluvias que se presenten, lo que podra darnos un indicio de la cercana al cero enlas
correlacionescalculadas.

5. GrafiqueelciclomedioanualdeE1,E2yP.Describalosresultados.Remuevaelcicloanual
de cada serie para hacer una estimacin de su tendencia. Haga una prueba paramtrica
(lineal)yotranoparamtrica(MannKendall)delasignificanciadelatendencia.

CiclomedioAnualdeE1:

Para graficar el ciclo anual de E1 se tom el promedio de la evaporacin por cada mes del ao,
tomando los datos de cada mes entre 1984 y 2015, de tal manera que al final obtenga 12 datos
correspondientes,cada unoacadames.EnelGrfico7(Ver Anexos)sepuedeobservardelcicloanual
de E1, donde el punto mximo de evaporacin es en Agosto correspondiente a 4.2 mm/da
aproximadamente y en mnimo en el mes de Diciembre con una evaporacin media de 3.3 mm/da.
Adems, se puede notar que entre Enero y Marzo la Evaporacinmedia asciende hasta alcanzar un
valor de 3.7 mm/da aproximadamente.Para el mesde Abril desciende un poco,peroposteriormente
seguir aumentando hasta alcanzar el mximo enAgosto. Entre Octubre yNoviembrese presenta el
mayor descenso, pues pasade estar de 4.08mm/daa3.57mm/dalaevaporacinmedia,paraasen
Diciembre alcanzar el mnimo anual de evaporacin media. El promedio anual de Evaporacines de
3.719mm/da.

CiclomedioAnualdeE2:
Enel Grfico8 de los Anexos, sepuede observarelciclomedio anualde la Evaporacin, calculadoa
partirdelosdatosE2.AdemspuedenotarsequeelmximoseencuentraenelmesdeJuliodonde
se evaporan al rededor de 3.66 mm/da de agua enlasuperficie. Paraelinicio yfin de ao es decir
Entre los meses de Enero y Diciembre se perciben los valores ms bajos de evaporacin.Entrelos
meses deFebrero yJulio elnivel deEvaporacin media asciende, para luegodescenderhasta Enero
delaosiguiente.

CiclomedioanualdeP:
ste ciclo medio anual seencuentraenlaGrfica9delos Anexos. Sepuede observarqueparaelmes
de Abril se tiene el nivel mximode precipitacinloquesegn el conocimientoemprico es bueno ya
quesueledecirseen estareginAbril,lluviasmil. Ahora bien, se puede decir que en elaohaydos
pocas de lluvia: una, en los meses de Abril y Marzo, y la otra menos pronunciada entre Octubre y
Noviembre. En el mes del ao que se presentan menos precipitaciones es en Enero, pero hay un
segundopicomnimoenJulio.

4


TareaNo.2AnlisisdeDatos.

RelacinentrelosCiclosanualesmedios:

En el Grfico 10 de la seccin de Anexos, se pueden observar los ciclos medios anuales de la


Evaporacin y la Precipitacin, usando el conjunto de datos E1, E2 y P. En el grfico, se puede
observar que las precipitaciones son ms fluctuantes que las Evaporaciones medias, al tener mayor
amplitud en susoscilaciones sinembargo,no sepuede observaruna relacinde proporcionalidad de
forma clara. Para esto se realiza el Grfico 11 donde se observa que entre Junio y Septiembre las
precipitaciones y la evaporacin se comportan de manera inversa, pero a principio del ao ambas
ascienden.Adems se puede notarqueelcomportamientode E1yE2es similar,como eradeesperar,
peronoigual,debidoaladiferenciadelosvaloresdelasmuestras.

Remocindelciclomedioanualdelosdatos:

Porotroladoseremueve elciclomedioanualdelaserie,detalformaquedenuevosetienelacantidad
de datos originales, pero no iguales en cantidad ya que, a cada mes se le retira la media
correspondiente.EnlaGrfica12,13 y14 sepuedenobservarlos cmosehandesviadolosdatosdel
ciclo medio anual. Entre los aos 1999 y 2001, la precipitacin tuvo ungrnpico es decir,fuuna
poca dealtas precipitaciones en laregin. Entre el 2011 yel2015sehapresentadoaltaevaporacin
segn los datos de E1 y E2, pero han habido bajas precipitaciones. Hasta 1992, los datos se
aproximaban en mayormedida al ciclo medioanual, pero despus deste ao empiezan adesviarse
ms.

Conelfinde detectar el tipo detendencia y de lasseries E1,E2yP serealizandostipos deprueba


Utilizando losciclosmediosanuales.Serealizaunaparamtricayotranoparamtricarespectivamente.
Elvalorestablecidoparalasignificanciaesalfa=0.05.

Prueba paramtrica(lineal): Alhacer unprocesode regresin linealutilizandoSPSS acadaseriede


tiempo para obtenerlasignificanciade latendenciaseobtienenvarios resultados, deloscuales seha
extradolos que servirn para analizar la tendencia de lasseries,estosseencuentran enlaTabla2.
[Anexos]. ElestadsticoFcontrarresta la hiptesisnula deque elvalorpoblacionaldeResceroynos
permite decidir si existe una relacin significativa entre el tiempo ylaevaporaciny la precipitacin.
Observandoelnivelcrtico asociado se tiene que el nivelde significancia esde0.216, indicandoas
que no existe una relacin lineal significativa, pueslaecuacionde regresion linealno ofrece unbuen
ajuste a la nube de puntos. Por tanto segnesta pruebapuedeafirmar queno existe una tendencia
lineal para losciclos medios anuales. En la Grfica15. [Anexos]sepuedevisualizarlaregresin lineal
aplicada acadauna delasseries.Enlaregresin lineal aplicadaa E1 seobtuvoun valorRcuadrado
de 0.001, , para E2 de 0.038 ypara P uno de 0.183.ParaE1seobtuvounniveldesignificanciade
0.932, para E2 DE 0.541 y para Pde 0.165. Tantoparala evaporacin como para la precipitacin
existeunadependenciapositiva.Laserieconmenordependenciatieneeslaprecipitacin.

Pruebanoparamtrica:

SerealizalapruebadeMannKendallparaE1,E2yP.

PlanteamientodeHiptesis:
H0:Noexisteunatendenciaenlaserie.
Ha:Existeuntendenciaenlaserie.

Delaprueba seobtiene que paraE1,elvalorobtenidodesignificacinbilateralfuede0.947,el cuales


superior al nivel de significacin 0.05, por lo cual la hiptesis nula no puede ser rechazada,puesel
riesgo de rechazarla cuando es verdadera es de 94.66%. Dados estos valores se concluyequeno

5


TareaNo.2AnlisisdeDatos.

existeunatendencia para E1. Similarmente para E2 se obtienequeel niveldesignificacin bilaterales


de 0.381, siendo este mucho mayor que el nivel designificacin alfa(0.05),porloque tampoco se
puede rechazar H0, el riesgo de rechazarla cuando es verdadera sera del 38.07%. Para la
precipitacin (P) el nivel de significacin es de 0.153, siendo el riesgo de rechazarla cuando es
verdadera del 15,26%, por lo que esttampocotienetendencia. Losdatos obtenidosmediante esta
pruebaseencuentranconsignadosenlaTabla3.(Anexos) .

Concluyendoconelanlisisdelaspruebasrealizadas,losvaloresestimadosparalaevaporaciny
laprecipitacinnotienenningunadetendencia.


ANEXOS
6


TareaNo.2AnlisisdeDatos.


Grfica 1: Histograma de evaporacin mensual promedio, utilizando los conjuntos de datosE1y E2,
representadosenazulyrojorespectivamente.

Grfica2:Histogramadeprecipitacinmensualpromedio,utilizandoelconjuntodedatosP.

7


TareaNo.2AnlisisdeDatos.


Grfica3:Diagrama de dispersinde lasvariablesE1y P. La lnea conlaquesegnla correlacinde
Pearsonserelacionanestrepresentadaenrojo,lacualtienependientenegativaadems,los datosse
encuentranmuydispersostalcomosecalcul,puesr=0.0283.


Grfica4: Diagrama de dispersinde lasvariablesE2yP. Lalneaconlaquesegnla correlacinde
Pearson se relacionanlosdatos estrepresentadaenrojo,la cualtienependientepositivaadems,los
datosseencuentranmuydispersostalcomosecalcul,puesr=0.0372.

8


TareaNo.2AnlisisdeDatos.


Grfica5: Diagrama de dispersinde lasvariablesE1y Pdelmesanterior. Lalneaconlaquesegn
la correlacin de Pearson se relacionan los datos est representada en rojo, la cualtienependiente
negativaadems,losdatosseencuentranmuydispersostalcomosecalcul,puesr=0.0420.


Grfica6: Diagrama de dispersinde lasvariablesE2y Pdelmesanterior. Lalneaconlaquesegn
la correlacin de Pearson se relacionan los datos est representada en rojo, la cualtienependiente
positivaadems,losdatosseencuentranmuydispersostalcomosecalcul,puesr=0.0592.

9


TareaNo.2AnlisisdeDatos.


Grfica7:Cicloanual deEvaporacin promedio utilizando el conjunto de datosE1. Elpicomximode
evaporacin segn los datos E1 se presentan en Agosto con unaevaporacin mediade 4.2 mm/da
aproximadamente. Por otra parte el punto mnimo se encuentra en Diciembre con 3.3 mm/da de
Evaporacinmedia.


Grfico 8: Ciclo Anual de Evaporacin promediousando el conjuntode datosE2. Se puede observar
quesegn el grfico queel mximo de evaporacinmedia sepresenta enelmesdeJulio, yelmnimo
enelmesdeEnero.

10


TareaNo.2AnlisisdeDatos.


Grfica9:Ciclomedio anualde lasPrecipitaciones usandoelconjuntodedatosP.ParaelmesdeAbril
setieneel nivelmximodeprecipitacin.Enelaohaydospocasdelluvia: una,enlosmesesdeAbril
y Marzo, ylaotra menos pronunciadaentre OctubreyNoviembre.En elmesdel aoquesepresentan
menosprecipitacionesesenEnero,perohayunsegundopicomnimoenJulio.


Grfico10:Ciclomedio anual de laEvaporaciny la Precipitacin, usandoelconjunto dedatosE1,E2
y P.Enelgrficose pretendecompararelcomportamientode losdatos, dondesepuedenobservarque
lasprecipitacionessonmsfluctuantesquelasEvaporacionesmedias.

11


TareaNo.2AnlisisdeDatos.


Gafico 11:Ciclomedio anual de E1, E2y P,dondesepuedeobservar que entreJunioy Septiembre
lasprecipitaciones ylaevaporacintienen uncomportamientoinverso, pero aprincipio delao,tienen
unarelacindirecta,puesambasascienden.


Grfico12:EnestagrficasemuestraladesviacindelaevaporacinusandoconjuntodedatosE1.

12


TareaNo.2AnlisisdeDatos.


Grfico13:EnestagrficasemuestraladesviacindelaevaporacinusandoconjuntodedatosE2.


Grfica14:EnestagrficasemuestraladesviacindelaprecipitacinusandoconjuntodedatosP.

13


TareaNo.2AnlisisdeDatos.

Grfica 15. Regresin lineal para el ciclo anual de la evaporacin y la precipitacin.Se muestra el
resumenderegresinlinealrealizadaaelcicloanualdelasseriesestudiadasE1,E2yP.

Diferencia 0,429

t(Valorobservado) 25,501

|t|(Valorcrtico) 1,966

gl 383

valorp(bilateral) <0,0001

alfa 0,05

Tabla1.
TablaresumendelapruebatstudentparaE1yE2.

En la Tabla 1. Se encuentran suministrados los datos de la realizacin de la pruebaparamtrica t


studentparamuestras apareadas E1 yE2, teniendo encuenta383(gl) grados de libertad.La prueba
fue analizada con el fin de contrarrestar hiptesis en funcin delamedia aritmtica. Alfaes el valor
establecidoparalasignificancia.

14


TareaNo.2AnlisisdeDatos.

Modelo Sumade gl Media F Sig.


cuadrados cuadrtica

1 Regresin 58,640 3 19,547 1,854 ,216

Residual 84,360 8 10,545



Total 143,000 11

Tabla2.Datosobtenidos dela regresinlineal.Seencuentranconsignadoslos datosqueseutilizaron


para analizar lasignificancia delatendenciadelos ciclosmediosanualesde E1,E2yP realizandouna
pruebaparamtricalineal,teniendoencuentaunvalordesignificanciade0.05.

SerietemporalP SerietemporalE2 SerietemporalE1

TaudeKendall 0,333 0,212 0,000

S 22,000 14,000 0,000

valorp(bilateral) 0,153 0,381 0,947

alfa 0,05 0,05 0,05

Tabla3.Pruebade tendenciadeMannKendall/Pruebabilateral realizadaparaE1,E2yP.Muestrala


prueba detendencia deMannKendall, una pruebanoparamtricaque serealiz con elfin deanalizar
las tendencias de los datos la evaporacin y la tendencia de la precipitacin teniendo en cuenta el
anlisis de significancia bilateral, dada por valorp (bilateral). S es el valor de la tendencia de
MannKendall.Alfaeselvalorestablecidoparalasignificancia.

15

You might also like