You are on page 1of 8

ARTIGO ORIGINAL

Psicometria
PSYCHOMETRICS PSICOMETRA

Luiz Pasquali1

RESUMO A psicometria fundamenta-se na teoria da medida em cincias para explicar o sentido que tm as respostas dadas pelos sujeitos a uma srie de tarefas e propor tcnicas de medida dos processos mentais. Neste artigo so apresentados os conceitos e modelos da psicometria moderna e discutidos os parmetros de validade e preciso dos testes.

ABSTRACT Psychometrics has foundations on the theory of measurement in Sciences and is aimed at explaining the meaning of responses provided by subjects submitted to a series of tasks, and proposing techniques for the measurement of mental processes. This article presents concepts and models of modern psychometrics and discusses the validity and reliability parameters of the applied tests. KEY WORDS Psychometrics. Reproducibility of results. Validity of tests. Validation studies.

RESUMEN La Psicometra se fundamenta en la teora de la medida en las ciencias buscando explicar el sentido en las respuestas de los que fueron sujetos a una serie de tareas, adems de proponerse tcnicas de medida de sus procesos mentales. En este artculo son presentados los conceptos y modelos de psicometra moderna, as como son discutidos los parmetros de validez y precisin de los testes. DESCRIPTORES Psicometra. Reproducibilidad de resultados. Validez de las pruebas. Estudios de validacin.

DESCRITORES Psicometria. Reprodutibilidade dos testes. Validade dos testes. Estudos de validao.

Professor Pesquisador Associado do Departamento de Psicologia Social e do Trabalho do Instituto de Psicologia da Universidade de Braslia. Braslia, DF, Brasil. luiz.pasquali@pq.cnpq.br

992

Rev Esc Enferm USP 2009; 43(Esp):992-9 www.ee.usp.br/reeusp/

Recebido: 15/06/2008 Aprovado: 15/12/2008

PortugusPsicometria / Ingls Pasquali L www.scielo.br/reeusp

INTRODUO A medida em cincias psicossociais Etimologicamente, psicometria representa a teoria e a tcnica de medida dos processos mentais, especialmente aplicada na rea da Psicologia e da Educao. Ela se fundamenta na teoria da medida em cincias em geral, ou seja, do mtodo quantitativo que tem, como principal caracterstica e vantagem, o fato de representar o conhecimento da natureza com maior preciso do que a utilizao da linguagem comum para descrever a observao dos fenmenos naturais.

(TRI). A TCT foi axiomatizada por Gulliksen(3) e a TRI foi inicialmente elaborada por Lord(4) e por Rasch(5) e, finalmente, axiomatizada por Birnbaum(6) e por Lord(7).

De um modo geral, a psicometria procura explicar o sentido que tm as respostas dadas pelos sujeitos a uma srie de tarefas, tipicamente chamadas de itens. A TCT se preocupa em explicar o resultado final total, isto , a soma das respostas dadas a uma srie de itens, expressa no chamado escore total (T). Por exemplo, o T em um teste de 30 itens de aptido seria a soma dos itens corretamente acertados. Se for dado 1 para um item acertado e 0 para um errado, e o sujeito acertou 20 itens e errou 10, seu escore T seria de 20. A TCT, ento, se pergunta o que signiHistoricamente, a psicometria tem suas origens na fica este 20 para o sujeito? A TRI, por outro lado, no est psicofsica dos psiclogos alemes Ernst Heinrich Weber interessada no escore total em um teste; ela se interessa e Gustav Fechner. O ingls Francis Galton tambm contri- especificamente por cada um dos 30 itens e quer saber buiu para o desenvolvimento da psicometria, criando tes- qual a probabilidade e quais so os fatores que afetam tes para medir processos mentais; inclusive, ele consi- esta probabibilidade de cada item individualmente ser derado o criador da psicometria. Foi, contudo, Leon Louis acertado ou errado (em testes de aptido) ou de ser aceito Thurstone, o criador da anlise fatorial mltipla, que deu ou rejeitado (em testes de preferncia: personalidade, ino tom psicometria, diferenciando-a da psicofsica. Esta teresses, atitudes). Dessa forma, a TCT tem interesse em foi definida como a medida de processos diretamente produzir testes de qualidade, enquanto a TRI se interessa observveis, ou seja, o estmulo e a resposta do organispor produzir tarefas (itens) de qualidade. No mo, enquanto a psicometria consistia na final, ento, temos ou testes vlidos (TCT) ou medida do comportamento do organismo itens vlidos (TRI), itens com os quais se por meio de processos mentais (lei do julga- A psicometria procura podero construir tantos testes vlidos explicar o sentido mento comparativo). quantos se quiser ou o nmero de itens perA medida em cincias tem provocado que tm as respostas mitir. Assim, a riqueza na avaliao psicodiatribes entre os pesquisadores, particu- dadas pelos sujeitos lgica ou educacional, dentro do enfoque da a uma srie de larmente na rea das cincias sociais. ConTRI, consiste em se conseguir construir artudo, a definio mais aceita de medida foi tarefas, tipicamente mazns de itens vlidos para avaliar os tradada por Stanley Smith Stevens em 1946, chamadas de itens. os latentes, armazns estes chamados de quando dizia que: medir consiste em assinabancos de itens para a elaborao de um lar nmeros a objetos e eventos de acordo com nmero sem fim de testes. alguma regra(1). As regras de assinalar tais nmeros so O modelo da TCT foi elaborado por Spearman e detadefinidas na proposta do mesmo autor sobre os quatro lhado por Gulliksen(3), o modelo o seguinte: nveis de medida ou escalas de medida: nominal, ordinal, intervalar e de razo. A medida nominal sendo aquela que T=V+E aplica os nmeros aos fenmenos da natureza, salvando somente os axiomas de identidade do nmero, ou seja, o Onde, nmero utilizado somente como numeral ou smbolo T = escore bruto ou emprico do sujeito, que a soma grfico. Ao utilizar o nmero, a escala ordinal j salva os axiomas de ordem, ou seja, a caracterstica mais marcante dos pontos obtidos no teste; do nmero, isto , a magnitude - um nmero por definiV = escore verdadeiro, que seria a magnitude real dao maior ou menor que outro, no somente diferente, ou quilo que o teste quer medir no sujeito e que seria o prmelhor, um nmero diferente do outro precisamente porque maior ou menor que outro. As outras escalas sal- prio T se no houvesse o erro de medida; vam tambm axiomas de aditividade. Essa histria dos E = o erro cometido nesta medida. axiomas foi detalhada por Whitehead e Russell em 1910 a 1913 e 1965, no livro Principia Mathematica, onde desDessa forma, o escore emprico a soma do escore vercrevem os famosos 27 axiomas do nmero matemtico(2) . dadeiro e do erro e, conseqentemente, E = T - V, bem como, V = T - E. PSICOMETRIA: A Figura 1 mostra a relao entre estes vrios elemenCONCEITUAO E MODELOS tos do escore emprico, onde se v que este a unio do A psicometria moderna tem duas vertentes: a teoria clssica dos testes (TCT) e a teoria de resposta ao item
Psicometria
Pasquali L

escore verdadeiro (V) e do erro (E), ou seja, o escore emprico ou bruto do sujeito (T resultado no teste, conhecido como o escore tau ) constitudo de dois comRev Esc Enferm USP 2009; 43(Esp):992-9 www.ee.usp.br/reeusp/

993

ponentes: o escore real ou verdadeiro (V) do sujeito naquilo que o teste pretende medir e o erro (E) de medida, este sempre presente em qualquer operao emprica. Em outras palavras, estamos aqui assumindo que, diante do fato de que o escore bruto do sujeito difere do seu escore verdadeiro, esta diferena devida ao erro ou, melhor, esta diferena o prprio conceito de erro.

1,00 0,90 0,80 0,70 0,60 Pi q 0,50 0,40 0,30 0,20 0,10 0 1 2 3 4 5 6 7 8

Aptido q

Figura 2 A curva caracterstica do item

Concretamente, a TRI est dizendo o seguinte: voc apresenta ao sujeito um estmulo ou uma srie de estmulos (tais como, itens de um teste) e ele responde aos mesmos. A partir das respostas dadas pelo sujeito, isto , analisando as suas respostas aos itens especificados, pode-se inferir sobre o trao latente do sujeito, hipotetizando relaes entre as respostas observadas deste sujeito com o nvel do seu trao latente. Estas relaes podem ser expressas por meio de uma equao matemtica que descreve a forma de funo que estas relaes assumem. De fato, pode-se imaginar um nmero ilimitado de modelos matemticos que podem expressar esta relao, dependendo do tipo de funo matemtica utilizada e/ou do nmero de parmetros que se quer descobrir para o item. Uma preciosa vantagem sobre a teoria clssica que a TRI tem quanto aos modelos que usa consiste em que os modelos utilizados pela TRI permitem desconfirmao. Na verdade, a demonstrao da adequao do modelo aos dados (model-data goodness-of-fit) um passo necessrio nos procedimentos desta teoria. Para trabalhar com a TRI so necessrios pacotes estatsticos especializados, que j existem em abundncia no mercado(a). OS PARMETROS DOS TESTES: VALIDADE E PRECISO Tanto na TCT quanto na TRI, os dois parmetros mais importantes de legitimidade de uma medida ou teste so a validade e a preciso. A validade dos testes A validade constitui um parmetro da medida tipicamente discutido no contexto das cincias psicossociais. Ela no corrente em cincias fsicas, por exemplo, embora haja nessas cincias ocasies em que tal parmetro se
(a) Dois muito utilizados so o BILOG para testes de aptido e o PARSCALE para testes de personalidade.

Figura 1 Os componentes do escore T

Assim, a grande tarefa da TCT consiste em elaborar estratgias (estatsticas) para controlar ou avaliar a magnitude do E. Os erros so devidos a toda uma gama de fatores estranhos, detalhados por Campbell e Stanley(8), tais como defeitos do prprio teste, esteretipos e vieses do sujeito, fatores histricos e ambientais aleatrios. Por outro lado, o modelo da TRI trabalha com traos latentes e adota dois axiomas fundamentais: 1) O desempenho do sujeito numa tarefa (item do teste) se explica em funo de um conjunto de fatores ou traos latentes (aptides, habilidades etc.). O desempenho o efeito e os traos latentes so a causa; 2) A relao entre o desempenho na tarefa e o conjunto dos traos latentes pode ser descrita por uma equao monotnica crescente, chamada de CCI (Funo Caracterstica do Item ou Curva Caracterstica do Item) e exemplificada na Figura 2, onde se observa que sujeitos com aptido maior tero maior probabilidade de responder corretamente ao item e vice-versa (i a aptido e Pi() a probabilidade de resposta correta dada ao item).

994

Rev Esc Enferm USP 2009; 43(Esp):992-9 www.ee.usp.br/reeusp/

Psicometria
Pasquali L

aplicaria. Nestas ltimas cincias, a preocupao principal na medida se centra na questo da preciso, a dita calibrao dos instrumentos. Esta importante tambm na medida em cincias psicossociais, mas ela no tem nada a ver, conceitualmente, com a questo da validade. A razo disto est no fato de que a validade diz respeito ao aspecto da medida ser congruente com a propriedade medida dos objetos e no com a exatido com que a mensurao, que descreve esta propriedade do objeto, feita. Em Fsica, o instrumento um objeto fsico que mede propriedades fsicas; ento parece fcil se ver que a propriedade do objeto mensurante ou no congruente com a propriedade do objeto medido. Tome, por exemplo, o caso da propriedade comprimento do objeto. O instrumento que mede esta propriedade (comprimento), isto , o metro, usa a sua propriedade de comprimento para medir a comprimento de outro objeto; ento estamos medindo comprimento com comprimento, tomados estes termos univocamente. No h necessidade de provar que a propriedade comprimento do metro seja congruente com a mesma propriedade no objeto medido; os termos so unvocos, eles so conceitualmente equivalentes, alis, idnticos.

o fsica (o comportamento). No causa estranheza, portanto, que o problema de validade tenha tido, na histria da Psicologia, uma posio central na teoria da medida, constituindo-se, na verdade, no seu parmetro fundamental e indispensvel.

O caso j se torna menos claro quando, por exemplo, o astrnomo mede a propriedade velocidade galctica de aproximao ou afastamento via efeito Doppler, onde a aproximao/afastamento das linhas espectrais da luz da galxia seria o instrumento da medida. Aqui j temos, na verdade, que a mensurao, Alis, a Psicometria clssica entende um problema de validade do instrumento de por aquilo que supostamente deve medir que descreve esta medida, a saber, verdade ou no que as como sendo o critrio, este representado por distncias das linhas espectrais tm a ver propriedade do teste paralelo. Assim, este aquilo que o com a velocidade das galxias? Pode-se faobjeto, feita. trao latente na concepo cognitivista da zer tal suposio, mas ela tem que ser dePsicometria e o critrio (escore no teste monstrada empiricamente, de alguma maparalelo) na viso comportamentalista. neira, isto , pelo menos em suas conseqncias, em hipteses dela derivadas ou derivveis e verificveis. Neste caso especfico, o problema da preciso da medida diz O processo de validao de um teste respeito quo exata pode ser feita a mensurao das inicia com a formulao de definies detalhadas do trao distncias entre as linhas espectrais no osciloscpio, ao ou construto, derivadas da teoria psicolgica, pesquisa passo que o de validade diz respeito a se esta medida das anterior, ou observao sistemtica e anlises do domnio distncias das linhas espectrais, por mais exata e perfeirelevante do comportamento. Os itens do teste so ento ta que ela possa ser, tem algo a ver ou no com a velocidapreparados para se adequarem s definies do construto. de de afastamento da galxia. Em outras palavras, a valiAnlises empricas dos itens seguem, selecionando-se dade em tal caso diz respeito demonstrao da adequafinalmente os itens mais eficazes (i.., vlidos) da amostra o (legitimidade) da representao ou da modelagem da inicial de itens(9). velocidade galctica via distncias das linhas espectrais. A validao da representao comportamental do traEste caso da astronomia ilustra o que tipicamente acon- o, isto , do teste, embora constitua o ponto nevrlgico tece com a medida em cincias psicossociais e, conse- da Psicometria, apresenta dificuldades importantes que qentemente, torna a prova da validade dos instrumentos se situam em trs nveis ou momentos do processo de nestas cincias algo fundamental e crucial, ou seja, uma elaborao do instrumento, a saber, ao nvel da teoria, da condio sine qua non demonstrar a validade dos instru- coleta emprica da informao e da prpria anlise estamentos nestas cincias. Isto particularmente o caso nos tstica da informao. enfoques que, em Psicologia, trabalham com o conceito No nvel da teoria se concentram talvez as maiores de trao latente, onde se deve demonstrar a correspondncia (congruncia) entre trao latente e sua representa- dificuldades. Na verdade, a teoria psicolgica se enconPsicometria
Pasquali L

Nos manuais de Psicometria, costuma-se definir a validade de um teste dizendo que ele vlido se de fato mede o que supostamente deve medir. Embora esta definio parea uma tautologia, na verdade ela no , considerada a teoria psicomtrica que admite o trao latente. O que se quer dizer com esta definio que, ao se medirem os comportamentos (itens), que so a representao fsica do trao latente, est-se medindo o prprio trao latente. Tal suposio justificada se a representao comportamental for legtima. Esta legitimao somente possvel se existir uma teoria prvia do trao que fundamente que a tal representao comportamental constitui uma hiptese dedutvel desta teoria. A validade do teste (este constituindo a hiptese), ento, ser estabelecida pela testagem emprica da verificao da hiptese. Pelo menos, esta a metodologia cientfica. Assim, fica muito estranha a prtica corrente na Psicometria de se agrupar intuitivamente uma srie de itens e, a posteriori, verificar estaA validade diz respeito tisticamente o que eles esto medindo. A nao aspecto da medida fase na formulao da teoria sobre os traos ser congruente com foi muito fraca no passado; com a influncia a propriedade medida da Psicologia Cognitiva esta nfase felizmente est voltando ou dever voltar ao seu devidos objetos e no com a exatido com do lugar na Psicometria.

Rev Esc Enferm USP 2009; 43(Esp):992-9 www.ee.usp.br/reeusp/

995

tra ainda em estado embrionrio, destituda quase que totalmente de qualquer nvel de axiomatizao, resultando disto uma pletora de teorias, muitas vezes at contraditrias. Basta lembrar de teorias como behaviorismo, psicanlise, psicologia existencialista, psicologia dialtica e outras, que, existindo simultaneamente, postulam princpios irredutveis entre as vrias teorias e pouco concatenados dentro de uma mesma teoria ou, ento, em nmero insuficiente para se poder deduzir hipteses teis para o conhecimento psicolgico. Havendo esta confuso no campo terico dos construtos, torna-se extremamente difcil para o psicometrista operacionalizar estes mesmos construtos, isto , formular hipteses claras e precisas para testar ou, ento, formular hipteses psicologicamente teis. Ainda quando a operacionalizao for um sucesso, a coleta da informao emprica no ser isenta de dificuldades, como, por exemplo, a definio inequvoca de grupos critrios onde estes construtos possam ser idealmente estudados. Mesmo ao nvel das anlises estatsticas encontramos problemas. Pela lgica da elaborao do instrumento, a verificao da hiptese da legitimidade da representao dos construtos se faz por anlises do tipo da anlise fatorial (confirmatria), que procura identificar, nos dados empricos, os construtos previamente operacionalizados no instrumento. Mas, acontece que a anlise fatorial faz algumas postulaes fortes que nem sempre se coadunam com a realidade dos fatos. Por exemplo, a anlise fatorial assume que as respostas dos sujeitos aos itens do instrumento so determinadas por uma relao linear destes com os traos latentes. H, ainda, o grave problema da rotao dos eixos, a qual permite a demonstrao de um nmero sem fim de fatores para o mesmo instrumento(10). Diante destas dificuldades, os psicometristas recorrem a uma srie de tcnicas para viabilizar a demonstrao da validade dos seus instrumentos. Fundamentalmente, estas tcnicas podem ser reduzidas a trs grandes classes (o modelo trinitrio): tcnicas que visam a validade de construto, validade de contedo e validade de critrio(11-12). A validade de construto ou de conceito considerada a forma mais fundamental de validade dos instrumentos psicolgicos e com toda a razo, dado que ela constitui a maneira direta de verificar a hiptese da legitimidade da representao comportamental dos traos latentes e, portanto, se coaduna exatamente com a teoria psicomtrica aqui defendida. Historicamente, o conceito de construto entrou na Psicometria por meio da American Psychological Association Committee on Psychological Tests que trabalhou entre 1950 e 1954 e cujos resultados se tornaram as recomendaes tcnicas para os testes psicolgicos(12). O conceito de validade de construto foi elaborado com o j clssico artigo de Cronbach e Meehl(13) Construct validity in psychological tests, embora o conceito j tivesse uma histria sob outros nomes, tais como validade intrnseca, validade fatorial e at validade aparente (face

validity). Estas vrias terminologias demonstram a confusa noo que construto possua. Embora tenham tentado clarear o conceito de validade de construto, Cronbach e Meehl ainda o definem como a caracterstica de um teste enquanto mensurao de um atributo ou qualidade, o qual no tenha sido definido operacionalmente(13). Reconhecem, entretanto, que a validade de construto reclamava por um novo enfoque cientfico. De fato, definir esta validade do modo que eles a definiram parece um pouco estranho em cincia, dado que conceitos no definidos operacionalmente no so suscetveis de conhecimento cientfico. Conceitos ou construtos so cientificamente pesquisveis somente se forem, pelo menos, passveis de representao comportamental adequada. Do contrrio, sero conceitos metafsicos e no cientficos. O problema est em que, sintetizando a atitude geral dos psicometristas da poca, para definir validade de construto, os autores partiram do teste, isto , da representao comportamental, em vez de partir da teoria psicomtrica que se fundamenta na elaborao da teoria do construto (dos traos latentes). O problema no descobrir o construto a partir de uma representao existente (teste), mas sim descobrir se a representao (teste) constitui uma representao legtima, adequada, do construto. Este enfoque exige uma colaborao, bem mais estreita do que existe, entre psicometristas e Psicologia Cognitiva(14). A validade de construto de um teste pode ser trabalhada sob vrios ngulos: a anlise da representao comportamental do construto, a anlise por hiptese, a curva de informao da TRI(15-16). A validade de critrio de um teste consiste no grau de eficcia que ele tem em predizer um desempenho especfico de um sujeito. O desempenho do sujeito torna-se, assim, o critrio contra o qual a medida obtida pelo teste avaliada. Evidentemente, o desempenho do sujeito deve ser medido/avaliado por meio de tcnicas que so independentes do prprio teste que se quer validar. Costuma-se distinguir dois tipos de validade de critrio: (1) validade preditiva e (2) validade concorrente. A diferena fundamental entre os dois tipos basicamente uma questo do tempo que ocorre entre a coleta da informao pelo teste a ser validado e a coleta da informao sobre o critrio. Se estas coletas forem (mais ou menos) simultneas, a validao ser do tipo concorrente; caso os dados sobre o critrio sejam coletados aps a coleta da informao sobre o teste, fala-se em validade preditiva. O fato de a informao ser obtida simultaneamente ou posteriormente do prprio teste no um fator tecnicamente relevante validade do teste. Relevante, sim, a determinao de um critrio vlido. Aqui se situa precisamente a natureza central deste tipo de validao dos testes, a saber: (1) definir um critrio adequado e (2) medir, vlida e independentemente do prprio teste, este critrio. Quanto adequao dos critrios, pode-se afirmar que h uma srie destes que so normalmente utilizados quais sejam:
Psicometria
Pasquali L

996

Rev Esc Enferm USP 2009; 43(Esp):992-9 www.ee.usp.br/reeusp/

1) Desempenho acadmico. Talvez seja ou foi o critrio mais utilizado na validao de testes de inteligncia. Consiste na obteno do nvel de desempenho escolar dos alunos, seja atravs das notas dadas pelos professores, seja pela mdia acadmica geral do aluno, seja pelas honrarias acadmicas que o aluno recebeu ou seja, mesmo, pela avaliao puramente subjetiva dos alunos em termos de inteligente por parte dos professores ou colegas. Embora seja amplamente utilizado, este critrio tem igualmente sido muito criticado, no em si mesmo mas pela deficincia que ocorre na sua avaliao. sobejamente sabida a tendenciosidade por parte dos professores em atribuir as notas aos alunos, tendenciosidade nem sempre consciente, mas decorrente de suas atitudes e simpatias em relao a este ou aquele aluno. Esta dificuldade poderia ser sanada at com certa facilidade, se os professores tivessem o costume de aplicar testes de rendimento que possussem validade de contedo, por exemplo. Como esta tarefa dispendiosa, o professor tipicamente no se d ao trabalho de validar (validade de contedo) suas provas acadmicas. Neste contexto, tambm utilizado como critrio de desempenho acadmico o nvel escolar do sujeito: sujeitos mais avanados, repetentes e evadidos. A suposio sendo de que quem continua regularmente ou est avanado academicamente em relao sua idade possui mais habilidade. Evidentemente, nesta histria no entra somente a questo da habilidade, mas muitos outros fatores sociais, de personalidade, etc., tornando este critrio bastante ambguo e esprio. 2) Desempenho em treinamento especializado. Trata-se do desempenho obtido em cursos de treinamento em situaes especficas, como no caso de msicos, pilotos, atividades mecnicas ou eletrnicas especializadas, etc. No final deste treinamento h tipicamente uma avaliao, a qual produz dados teis para servirem de critrio de desempenho do aluno. As observaes crticas feitas ao ponto 1) valem tambm neste pargrafo. 3) Desempenho profissional. Trata-se, neste caso, de comparar os resultados do teste com o sucesso/fracasso ou o nvel de qualidade do sucesso dos sujeitos na prpria situao de trabalho. Assim, um teste de habilidade mecnica pode ser testado contra a qualidade de desempenho mecnico dos sujeitos na oficina de trabalho. Evidentemente continua a dificuldade de levantar adequadamente a qualidade deste desempenho dos sujeitos em servio. 4) Diagnstico psiquitrico. Muito utilizado para validar testes de personalidade/psiquitricos. Os grupos-critrio so aqui formados em termos da avaliao psiquitrica que estabelece grupos clnicos: normais vs. neurticos, psicopatas vs. depressivos, etc. Novamente, a dificuldade continua sendo a adequao das avaliaes psiquitricas feitas pelos psiquiatras. 5) Diagnstico subjetivo. Avaliaes feitas por colegas e amigos podem servir de base para estabelecer gruposPsicometria
Pasquali L

critrio. utilizada esta tcnica, sobretudo, em testes de personalidade, onde difcil encontrar avaliaes mais objetivas. Assim, os sujeitos avaliam seus colegas em categorias ou do escores em traos de personalidade (agressividade, cooperao, etc.), baseados na convivncia que eles tm com os colegas. Nem precisa mencionar as dificuldades enormes que tais avaliaes apresentam em termos de objetividade; contudo, a utilizao de um grande nmero de juizes poder diminuir os vieses subjetivos nestas avaliaes. 6) Outros testes disponveis. Os resultados obtidos por meio de outro teste vlido, que prediga o mesmo desempenho que o teste a ser validado, servem de critrio para determinar a validade do novo teste. Aqui fica a pergunta bvia: para que criar outro teste se j existe um que mede validamente o que se quer medir? A resposta se baseia numa questo de economia, isto , utilizar um teste que demanda muito tempo para ser respondido ou apurado como critrio para validar um teste que gaste menos tempo. No caso deste tipo de validade, preciso atender a duas situaes bastante distintas. Primeiramente, quando existem testes comprovadamente validados para a medida de algum trao, eles certamente constituem um critrio contra o qual se pode com segurana validar um novo teste. Entretanto, quando no existem testes aceitos como definitivamente validados para avaliar algum trao latente, a utilizao desta validao concorrente extremamente precria. Esta situao infelizmente a mais comum. De fato, ns temos testes para medir praticamente no importa o qu, como atestam os Buros Mental Measurement Yearbooks, que so publicados periodicamente com centenas e milhares de testes psicolgicos existentes no mercado. Neste caso, pode-se utilizar estes testes como critrios de validao, mas o risco demasiadamente grande, porque se est utilizando como critrio testes cuja validade pelo menos duvidosa. Pode-se concluir que a validade concorrente s faz sentido se existirem testes comprovadamente vlidos que possam servir de critrio contra o qual se quer validar um novo teste e que este novo teste tenha algumas vantagens sobre o antigo (como, por exemplo, economia de tempo etc.). Uma pergunta frustrante fica ao final desta exposio sobre validade de critrio. Se o pesquisador empregou toda a sua habilidade para construir um teste sob as condies de maior controle possvel, por que iria ele validar esta tarefa-teste contra medidas inferiores, representadas pela medida dos vrios critrios aqui apresentados. Justifica-se validar medidas supostamente superiores por medidas inferiores? (17). Com as crticas de Thurstone em 1952 e sobretudo de Cronbach e Meehl em 1955(13,18), a validade de critrio deixou de ser a tcnica panacia de validao dos testes psicolgicos em favor da validade de construto. Contudo, estes critrios podem ser considerados bons e teis para fins de validao de critrio. A grande dificuldade em quase todos eles se situa na demonstrao da adequao da medida deles; isto
Rev Esc Enferm USP 2009; 43(Esp):992-9 www.ee.usp.br/reeusp/

997

, em geral, a medida dos mesmos precria, deixando, por isso, muita dvida quanto ao processo de validao do teste. Entretanto, h exemplos famosos de testes validados atravs deste mtodo, como o caso do MMPI. A validade de contedo de um teste consiste em verificar se o teste constitui uma amostra representativa de um universo finito de comportamentos (domnio). aplicvel quando se pode delimitar a priori e com clareza um universo de comportamentos, como o caso em testes de desempenho, que pretendem cobrir um contedo delimitado por um curso programtico especfico(11) . A preciso dos testes O parmetro da preciso ou da fidedignidade dos testes vem referenciado sob uma srie elevada e heterognea de nomes. Alguns destes nomes resultam do prprio conceito deste parmetro, isto , eles procuram expressar o que ele de fato representa para o teste. Estes nomes so, principalmente, preciso, fidedignidade e confiabilidade. Outros nomes deste parmetro resultam mais diretamente do tipo de tcnica utilizada na coleta emprica da informao ou da tcnica estatstica utilizada para a anlise dos dados empricos coletados. Entre estes nomes, podemos relacionar os seguintes: estabilidade, constncia, equivalncia, consistncia interna. A fidedignidade ou a preciso de um teste diz respeito caracterstica que ele deve possuir, a saber, a de medir sem erros, donde os nomes preciso, confiabilidade ou fidedignidade. Medir sem erros significa que o mesmo teste, medindo os mesmos sujeitos em ocasies diferentes, ou testes equivalentes, medindo os mesmos sujeitos na mesma ocasio, produzem resultados idnticos, isto , a correlao entre estas duas medidas deve ser de 1. Entretanto, como o erro est sempre presente em qualquer medida, esta correlao se afasta tanto do 1 quanto maior for o erro cometido na medida. A anlise da preciso de um instrumento psicolgico quer mostrar precisamente o quanto ele se afasta do ideal da correlao 1, determinando um coeficiente que, quanto mais prximo de 1, menos erro o teste comete ao ser utilizado. O problema da fidedignidade dos testes era tema preferido da psicometria clssica, onde a parafernlia estatstica de estimao deste parmetro mais se desenvolveu, mas ele perdeu muito em importncia dentro da psicometria moderna em favor do parmetro de validade. REFERENCES
1. Stevens SS. On the Theory of Scales of Measurement. Science. 1946;103(2684):677-80. 2. Whitehead AN, Russell B. Principia mathematica. Cambridge: Cambridge University Press; 1910-1913, 1965. 3 v.

De qualquer forma, dentro da TCT o coeficiente de fidedignidade, rtt, definido estatisticamente como a correlao entre os escores dos mesmos sujeitos em duas formas paralelas de um teste, T1 e T2. Assim o coeficiente de fidedignidade se define como funo da covarincia [Cov(T1,T2)] entre as formas do teste pelas varincias ( ST e ST ) das mesmas, isto , rtt =
1
2

2 SV 2 ST

onde, rtt : coeficiente de fidedignidade


SV :
2

Varincia verdadeira do teste Varincia total do teste.

ST :

Praticamente, existem duas grandes tcnicas estatsticas para decidir a preciso de um teste, ou seja, a correlao e a anlise da consistncia interna. A tcnica da correlao utilizada no caso do teste reteste e das formas paralelas de um teste. Nestes casos temos os resultados dos mesmos sujeitos submetidos ao mesmo teste em duas ocasies diferentes ou respondendo a duas formas paralelas do mesmo teste. O ndice de preciso, neste caso, consiste simplesmente na correlao bivariada entre os dois escores dos mesmos sujeitos. Para o caso da anlise da consistncia interna existe uma parafernlia complexa de tcnicas estatsticas, que finalmente se reduzem a duas situaes: a diviso do teste em parcelas - mais comumente em duas metades - com a subseqente correo pela frmula de predio de Spearman-Brown, e as vrias tcnicas do coeficiente alfa, sendo o mais conhecido o alfa de Cronbach. Nesses casos, existe a aplicao de somente um teste numa nica ocasio; as anlises consistem em verificar a consistncia interna dos itens que compem o teste. Trata-se, portanto, de uma estimativa da preciso, cuja lgica a seguinte: se os itens se entendem, isto , covariam, numa dada ocasio, ento iro se entender em qualquer ocasio de uso do teste. CONCLUSO Para assegurar que os testes apresentem os parmetros de qualidade cientificamente exigidos, a American Psychological Association (APA) estabeleceu os Standards for Educational and Psychological Testing, tendo vrias edies a partir de 1985.

3. Gulliksen H. Theory of mental tests. New York: Wiley; 1950. 4. Lord FM. A theory of test scores. Iowa (IA): Psychometric Society; 1952. (Psychometric Monograph, n. 7).

998

Rev Esc Enferm USP 2009; 43(Esp):992-9 www.ee.usp.br/reeusp/

Psicometria
Pasquali L

5. Rasch G. Probabilistic models for some intelligence and attainment tests. Copenhagen: Danish Institute for Educational Research and St. Paul; 1960. 6. Birnbaum A. Some latent trait models and their use in inferring and examinees ability. In: Loed FM, Lord MR. Novick, statistical theories of mental test scores. Reading: Addison Wesley; 1968. p.17-20. 7. Lord FM. Applications of item response theory to practical testing problems. Hillsdale: Erlbaum; 1980. 8. Campbell DT, Stanley J. Experimental and quasi-experimental designs for research. Skokie: Rand McNally; 1973. 9. Anastasi A. Evolving concepts of test validation. Ann Rev Psychol. 1986;37(1):1-15. 10. Pasquali L, organizador. Instrumentos psicolgicos: manual prtico de elaborao. Braslia: LabPAM/IBAPP; 1999. 11. Pasquali L. Anlise fatorial para pesquisadores. Porto Alegre: Artmed; 2005.

12. American Psychological Association (APA).Technical recommendations for psychological tests and diagnostic techniques. Washington; 1954. 13. Cronbach LJ, Meehl PE. Construct validity in psychological tests. Psychol Bull. 1955;52(4):281-302. 14. Pasquali L.Validade dos testes psicolgicos: ser possvel reencontrar o caminho? Psicol Teor Pesq. 2007; 23 (n.esp):99-107. 15. Pasquali L. Psicometria: teoria dos testes na psicologia e na educao. Petrpolis: Vozes; 2004. 16. Pasquali L. TRI - Teoria de Resposta ao Item: teoria, procedimentos e aplicaes. Braslia: LabPAM/UnB; 2007. 17. Ebel RL. Must all tests be valid? Am Psychol. 1961;16 (10):640-7. 18. Thurstone LL.The criterion problem in personality research. Chicago: University of ChicagoPress; 1952.

Psicometria Correspondncia: Luiz Pasquali


Pasquali L Campus

Darci Ribeiro, ICC Sul LabPAM, sala AI-096 Plano Piloto - Asa Norte CEP 70910-900- Braslia, DF, Brasil

Rev Esc Enferm USP 2009; 43(Esp):992-9 www.ee.usp.br/reeusp/

999

You might also like