Professional Documents
Culture Documents
Anisorac Vasile
IS anul I
Proiectul vizează analiza datelor a 97 de subiecți bolnavi de cancer de prostată in stadiu avansat
Am încercat redarea unui model liniar pentru aceste date în funcție de variabila nivelul PSA.
Descrierea Variabilelor:
header name descriere
subject ID De la 1 la 97
psa Nivelul PSA Nivelul antigen de Ser prostatic specific (mg/ml)
cancervol Cancer Volume Volumul estimativ al cancerului de prostată (cc)
weight Weight Greutatea prostatei (gm)
age Age Vârsta pacientului (ani)
benpros Benign prostatic -Cantitatea de Hiperplazie prostatică benignă (cm2)
hyperplasia
vesinv Seminal vesicle Prezența (1) sau absența (0) a invaziei seminale vezicale
invasion
capspen Capsular penetration Gradul de penetrare capsular (cm)
gleason Gleason score Determinarea Gleason gradul patologic al bolii (6, 7 or 8)
Cancer data:
# Variabila principală (țintă) - Psa
Variabile cantitative - cancervol weight age benpros capspen
Variabile calitative - vesinv gleason
# Subject -> key.
Variabile:
#table(cancerdata$psa)
#table(cancerdata$weight)
#table(cancerdata$benpros)
#table(cancerdata$capspen)
#table(cancerdata$gleason)
Figură 1 analiza boxplot asupra variabilelor
Figură 2 Analiza comportamentului datelor 1
Figură 3 grafice de dispersie
Interpretare:
-vârsta nu pare sa aibă un efect asupra creșterii PSA însă vedem o creștere cantitativă în special
între 60 si 70 de ani
- Hiperplazia benignă are un efect mare asupra nivelului PSA.
-gradul de penetrare capsulară(capspen) tinde să aibă si el o relevanță majoră
Corelarea datelor:
> cor(cancerdata):
importanta factorului PSA o regasim sub forma:
O corelație mai mare întâlnim între cancervol și capsen (0.692896688) și vesubv cu gleason (0.4
28573479)
O corelație scăzută ne poate indica ca variabilele nu sunt factori decizionali
A. Corelatie cancervol-psa
Formula de apel:
C. Corelatie cu varsta:
Pe grafic nu se observa un trend de crestere, testul t indica ca parametrul este
insignigicant:
Analiza prin corelatie cu Variabilele calitative (categorical data)
Corelatie psa- Vesinv:
#Since the significance is high valuer, the factor is important. fitml3_cvves is imp
3c) Adaugare gleason + fitml3_cvves
indicates gleason with value 7 may not be signifcant, but other value 8 is significant.
The F-test is rejected, so the factor is important.
Atunci când corelăm toți parametrii valoarea P rezultata este ridicată fapt ce indică ca modelul nostru
este potrivit în analiza variabilelor.
par(mfrow=c(2,2))
plot(fitml5_Cv_ves_gle_benpros)
#residual plot
plot(fitted(fitml5_Cv_ves_gle_benpros),resid(fitml5_Cv_ves_gle_benpros),ylab =
"fittedvalue", xlab ="fitted model" )
abline(h=0)
#qqplot
qqnorm(resid(fitml5_Cv_ves_gle_benpros))
qqline(resid(fitml5_Cv_ves_gle_benpros))
The mean for the categorical variable is considered as max occurrence of a variable. So far Vesinv it is 0
and Gleason mean is 7.
For the mean values of the predictors, the Prediction values of the y i.e. logb(1+psa,2) comes out to be
3.789468.
#18.50617
For the mean values of the predictors, the psa value comes out to be 12.8275.
For a linear regression, the line will pass through y mean for the value of x mean. But for a multi
regression with factors considered as maximum frequency, this is not the case.
By this technique, it avoids the overfitting of the model.