You are on page 1of 23

Analiza datelor in R

Anisorac Vasile
IS anul I

Proiectul vizează analiza datelor a 97 de subiecți bolnavi de cancer de prostată in stadiu avansat
Am încercat redarea unui model liniar pentru aceste date în funcție de variabila nivelul PSA.
Descrierea Variabilelor:
header name descriere
subject ID De la 1 la 97
psa Nivelul PSA Nivelul antigen de Ser prostatic specific (mg/ml)
cancervol Cancer Volume Volumul estimativ al cancerului de prostată (cc)
weight Weight Greutatea prostatei (gm)
age Age Vârsta pacientului (ani)
benpros Benign prostatic -Cantitatea de Hiperplazie prostatică benignă (cm2)
hyperplasia
vesinv Seminal vesicle Prezența (1) sau absența (0) a invaziei seminale vezicale
invasion
capspen Capsular penetration Gradul de penetrare capsular (cm)
gleason Gleason score Determinarea Gleason gradul patologic al bolii (6, 7 or 8)

Cancer data:
# Variabila principală (țintă) - Psa
Variabile cantitative - cancervol weight age benpros capspen
Variabile calitative - vesinv gleason
# Subject -> key.
Variabile:
#table(cancerdata$psa)
#table(cancerdata$weight)
#table(cancerdata$benpros)
#table(cancerdata$capspen)
#table(cancerdata$gleason)
Figură 1 analiza boxplot asupra variabilelor
Figură 2 Analiza comportamentului datelor 1
Figură 3 grafice de dispersie

Interpretare:
-vârsta nu pare sa aibă un efect asupra creșterii PSA însă vedem o creștere cantitativă în special
între 60 si 70 de ani
- Hiperplazia benignă are un efect mare asupra nivelului PSA.
-gradul de penetrare capsulară(capspen) tinde să aibă si el o relevanță majoră

Corelarea datelor:
> cor(cancerdata):
importanta factorului PSA o regasim sub forma:

O corelație mai mare întâlnim între cancervol și capsen (0.692896688) și vesubv cu gleason (0.4
28573479)
O corelație scăzută ne poate indica ca variabilele nu sunt factori decizionali

2) Regresia Lineara- corelațiile cu un singur parametru.


Analiza prin corelatie cu Variabilele cantitative:

A. Corelatie cancervol-psa
Formula de apel:

Pe grafic se observa un trend de crestere testul t indica ca parametrul este signigicant:

Figură 4 Corelatie cancervol-psa

B. Corelatie capspen with psa


Formula de apel:

Pe grafic se observa un trend de crestere testul t indica ca parametrul este signigicant:

C. Corelatie cu varsta:
Pe grafic nu se observa un trend de crestere, testul t indica ca parametrul este
insignigicant:
Analiza prin corelatie cu Variabilele calitative (categorical data)
Corelatie psa- Vesinv:

Din testul T acest factor reiese a fi foarte important:


Corelatie Psa-Gleason:

Din testul T acest factor reiese a fi foarte important:


Regresie liniara multivariata
Cancervol + capspen:

capsen anova arata o valoare ridicata.


3b) Cancervol + Capspen + vesinv

#Since the significance is high valuer, the factor is important. fitml3_cvves is imp
3c) Adaugare gleason + fitml3_cvves
indicates gleason with value 7 may not be signifcant, but other value 8 is significant.
The F-test is rejected, so the factor is important.

3d) weight+age,+benpros impreuna cu fitml4_cvvesgle.


T-test : 0.01866 indicates the model can be improved.

3e) + celelalte variabile


T-test: 0.3332 indicates weight not needed.
3f) fara weight:
T-test: 0.2284 indicates age not needed.
3g) + benpros
fitml4_cvvesgle is without benpros, compare it with current model.
anova(fitml5_cvvesgle_other_noweightage,fitml4_cvvesgle)

T-Test: 0.005593, indicates benpros is needed in the model.


Deci modelul final este : fitml5_cvvesgle_other_noweightage

Modelul final corelat este

Y = fitml5_Cv_ves_gle_benpros <- <-lm(( logb ( 1 + psa, 2 ) ~ logb ( 1 + cancervol, 2 ) + factor(vesinv) +


factor(gleason) + benpros ), data=cancerdata)

Atunci când corelăm toți parametrii valoarea P rezultata este ridicată fapt ce indică ca modelul nostru
este potrivit în analiza variabilelor.

#Ploturi cu Modelul Corelat fitml5_Cv_ves_gle_benpros

par(mfrow=c(2,2))
plot(fitml5_Cv_ves_gle_benpros)
#residual plot
plot(fitted(fitml5_Cv_ves_gle_benpros),resid(fitml5_Cv_ves_gle_benpros),ylab =
"fittedvalue", xlab ="fitted model" )
abline(h=0)
#qqplot
qqnorm(resid(fitml5_Cv_ves_gle_benpros))
qqline(resid(fitml5_Cv_ves_gle_benpros))

#time series plot


plot(resid(fitml5_Cv_ves_gle_benpros),type="l")
# shows the minimum and max are increasing.sn
Akaike information criterion
Pentru calitatea modelului
Backward
Calculul modelului predictiv

Our final fitted Model is: “fitml5_Cv_ves_gle_benpros”.

The mean for the categorical variable is considered as max occurrence of a variable. So far Vesinv it is 0
and Gleason mean is 7.

The mean of other predictor is calculated using the mean function.

For the mean values of the predictors, the Prediction values of the y i.e. logb(1+psa,2) comes out to be
3.789468.

So psa = 2^y -1 = 12.8275.


psa/log(2) =psa = (2^(y)-1)/log(2)

#18.50617

For the mean values of the predictors, the psa value comes out to be 12.8275.

For a linear regression, the line will pass through y mean for the value of x mean. But for a multi
regression with factors considered as maximum frequency, this is not the case.
By this technique, it avoids the overfitting of the model.

You might also like