Psicología

Psicometría

Compartir 1 Me sirvió 0 No me sirvió

resumen psicometría

TEMA 1: EL PROBLEMA DE LA MEDICIÓN EN PSICOLOGÍA

1. INTRODUCCIÓN:

La psicometría se ocupa de la medición por lo que esta relacionada con el psicodiagnóstico y la evaluación psicológica.

Nos permite construir test estandarizados

Se ocupa de establecer las reglas de medición de características psicológicas

Para poder medir hay que observar.

MEDIR: asignar números a las cantidades e las propiedades de una persona de acuerdo con reglas preestablecidas y que se puede comparar; Es decir, cuantificamos cualidades.

En psicología las características las inferimos por lo que es importante que los instrumentos de medida constaten que esas inferencias son reales.

Los instrumentos son los test psicométricos que pretenden ser una medida objetiva y tipificada de pequeñas muestras de conducta significativas del sujeto.

Para que un test tenga valor debe servir para:

diagnosticar y describir el estado actual del sujeto
predecir el comportamiento futuro

La medida en psicología es algo concreto: Se miden características psicológicas en personas, por lo que son aspectos individuales y concretos.

2. ELEMENTOS ESENCIALES EN LA MEDICIÓN

En psicología medimos para tener datos más precisos y además ahorra tiempo, esfuerzo y dinero. Cuanto más complejo es lo que se pretende analizar la medida simplifica la realidad compleja.

Cada ítem de un test es una pequeña muestra de conducta.

Los elementos esenciales para medir en psicología son:

señalar o definir la cualidad o atributo que queremos medir
operativizar el atributo en base a las manifestaciones del mismo
ver la relación entre cualidades y cantidades.
Traducir e interpretar los datos cuantitativos para darles una cualidad. Es decir, interpretar los datos cuantitativos en base a unas normas de interpretación.

3. EL PROBLEMA DE LA MEDICION EN PSICOLOGÍA:

Definir claramente la característica a medir. Esto es un problema ya que en psicología no encontramos una única definición de un atributo.

Saber cual es la definición mas útil y cuales son los atributos que representan mejor as la persona evaluada. Los datos obtenidos son relativos y son solo una parte de la persona evaluada.

Las medidas pretenden llegar a atributos muy complejos e intangibles, por lo que hay una gran diversidad de manifestaciones. Es necesario que los ítems estén basados en muestras muy amplias para que los datos sean significativos.

4. CRÍTICAS A LA MEDICIÓN EN PSICOLOGÍA Y A SUS INSTRUMENTOS. VENTAJAS E INCONVENIENTES.

VENTAJAS:

Ahorro
Objetividad
Ayuda a pronosticar aunque con una posibilidad de error

Ayuda a la comunicación entre profesionales de forma más precisa y más significativa.

INCONVENIENTES:

No hay consenso, cada uno mide una cosa diferente dependiendo de su modelo de partida.
El problema de sí los ítems son representativos o no
Critica social
Muchos test tienen una gran carga cultural y verbal
Hay que tener en cuanta las condiciones de los sujetos de la muestra para saber la representatividad de los porcentajes
Critica ética: hasta que punto se entromete en la vida privada
Los test favorecen clasificar y etiquetar y esto en psicología es un error.

5. MÉTODOS DE MEDICIÓN:

Método de prueba:

Analizar y controlar de forma estricta la situación; Hay estandarización y la tarea es predeterminada. Ej. Prueba objetiva

Método observacional:

Trata de medir la conducta en situaciones naturales por lo que no hay estandarización.

Método mixto:

Observación planificada: se estandariza la observación y el modo de medición pero hay libertad en cuando a que se realiza en el medio natural. Permite cuantificar de forma natural.

En base a los métodos se derivan las escalas de medición que son los modos de usar los números. Las escalas de medición que más se usan son:

rótulos: poner un numero a un objeto

categorías: representan grupos de objetos

Escalas ordinales: conllevan un mínimo nivel cuantitativo. Permite ordenar objetos. Sirve para analizar la realidad de forma simple.

Escalas de intervalo: los números dan información de las diferencias entre un intervalo y otro, del orden.

Escalas de razón o proporción: son un tipo de escalas de intervalo que permite ver las diferencias entre cada persona. Se conoce un punto cero que no es arbitrario y por tanto se puede saber cual es la diferencia. Permite porcentaje.

NORMAS DE MEDIDA Y ESCALAS NORMATIVAS:

Son necesarias porque lo que medimos no es obvio, medimos de forma indirecta los atributos a través de sus manifestaciones.

Las normas permiten saber como asignar los números a las características con el propósito de que representen el grado en que se manifiesta el atributo en cada sujeto. La medición concierne a un atributo particular. Debemos saber que lo que medimos son manifestaciones de atributos y no personas.

Generalmente medimos para comparar y hay dos modos de comparar:

normas: para comparar grupos
criterios: para comparar individuos consigo mismos

Las normas deben estar especificadas de antemano y son de diferentes tipos

A través de las reglas hacemos medidas significativas.

Las reglas son convenios que pueden ser cambiados si son incorrectos. Las normas básicas en psicología son:

Normas de edad: se extraen eligiendo una muestra normativa a partir de la que extraemos el promedio de actuación típico en las diferentes edades.

Normas de grado: se extraen de un grupo normativo, y en base al grado o nivel se extrae un promedio de actuación.

Normas de porcentaje: partimos de un grupo normativo en el que no se realizan comparaciones externas sino solo internas, dentro del mismo grupo. Se extraen los percentiles.

Normas estándar o tipificadas: siempre tienen el mismo significado. Permiten comparar diferentes grupos y diferentes características.

Hay diferentes escalas normativas:

Coeficiente intelectual: pretenda dar idea de la inteligencia en función de la comparación entre la edad mental y la edad cronológica.

Problemas: se extrae de un grupo normativo y si el sujeto no es del mismo grupo no se hará una comparación adecuada.

Ventajas: se ha usado para seleccionar porque es fácil de calcular.

Centiles: son escalas ordinales. Se refiere al porcentaje de sujetos que queda por debajo de una puntuación determinada.

Ventaja: fácil de calcular y de interpretar.

Típicas transformadas: transforman la puntuación bruta en indirectas.
Típicas normalizadas: puntuaciones típicas no lineales, no hay una transformación lineal. Suponemos que se aproxima a la normal.
Típicas normalizadas y transformadas:

eneatipos: van de 1 a 9. Se basan en la z normalizada. Se parte de una media de 5 y una desviación típica de 2. Muy fácil de interpretar, no hay puntuaciones negativas, son equivalentes permitiendo todo tipo de comparaciones.
Decatipo: de 1 a 10. Media 6 y desviación típica de 3.
Coeficientes intelectuales típicos: siempre se redondea. No hay limite superior. Se puede aplicar a cualquier edad.

tipos de comparaciones:

intrasujeto: comparar a un sujeto consigo mismo en diferentes momentos.
Intersujeto: comparar a un sujeto con otro de su mismo grupo.
Intragrupo: comparar a un grupo consigo mismo en diferentes situaciones.
Intergrupo: comparar a un grupo con otro grupo; Diferencia de medias de dos muestras.

CARACTERÍSTICAS DE LOS TESTS PSICOMÉTRICOS COMO INSTRUMENTOS DE MEDIDA

Sirven para conocer mejor el comportamiento recogiendo datos. Pretenden ser medidas tipificadas y objetivas de muestras de conducta de un sujeto.

Se empezaron a desarrollar para evaluar diferencias individuales y en la actualidad se aplican a diferentes ambitos para medir diferentes personas y diferentes características.

Hay que ver si es realmente significativo.

Ventaja: precisión, son voluntarios, no enmascarados y estandarizados

También pretenden servir para predecir por lo que están elaborados en base a procedimientos estadísticos y tienen que haber demostrado su fiabilidad, validez y precisión. Pretenden medir características no manifiestas en muchas ocasiones. Muchos de ellos aplican análisis factoriales.

Resumen psicometría

TEMA 2: INTRODUCCIÓN AL PROCEDIMIENTO DE ELABORACION Y ANALISIS DE UN INSTRUMENTO PSICOMETRICO

INTRODUCCIÓN:

El instrumento psicométrico tiene que estar validado lo que conlleva saber en primer lugar que evaluar, lo que nos lleva a una definición lógica del atributo a medir. También hay que definir operativamente como se manifiesta el atributo, luego hay que saber como dar grado al mismo. Un instrumento psicométrico consta de tres elementos:

Manual, pautas de manejo
Protocolo de la prueba(ítems y posible hoja de respuestas a parte)
Plantilla de corrección

Estos tres elementos varían en su forma de presentación dependiendo de la finalidad del test, de su aplicación, de su corrección, etc. ... Cuando queremos elaborar un test hay que saber a quien queremos evaluar; la longitud del test también será diferente. Hay que saber el tiempo del que disponemos para: 1. Elaborar el test

aplicarlo

corregirlo

Dependiendo del tiempo haremos un tipo de test u otro. Hay cuatro criterios según los que diferenciar los tests.

1. Forma de presentar los ítems: Estos pueden ser verbales (16PF), gráficos (Raven) o manipulativos (un puzzle)

Hay instrumentos que combinan diferentes tipos de ítems por ejemplo escalas Wechsler de inteligencia que combina los tres tipos de ítems.

Contenido del test:

ómnibus: las preguntas miden diferentes operaciones mentales que se combinan en una sola puntuación final(escalas evolutivas de Binet)

Homogéneos o de tarea única: mide solo una habilidad o tarea (Raven)

Batería de test: grupo de subtest tipificados y normalizados en una población que dan diferentes características (test de aptitudes de Thurstone), que forman parte de una misma evaluación o contexto.

Tipo de respuesta que exigiremos al sujeto:

Construcción de respuesta: se le presenta un estímulo y el sujeto elabora su propia respuesta de forma libre.

Elección de respuesta: se le presenta el estimulo y se le dan alternativas de respuesta cerradas de las que el sujeto elige una.

Tipo de aplicación:

Colectivos: las cuestiones se presentan en un protocolo impreso. El contacto personal con el evaluador es mínimo. Las tareas a realizar se proponen a todos los sujetos a la vez, hay un tiempo para realizarlo y la tarea suele ser de elección de respuesta. Las habilidades lectoras del sujeto pueden influir a la hora de responder. No exigen demasiada preparación del examinador. Resultan económicos en tiempo.

Individuales: la aplicación se hace persona a persona. El examinador normalmente presenta oralmente las preguntas. No hay límite de tiempo. El examinador necesita mas experiencia; permiten también que el sujeto responda libremente (construcción de respuesta). El sujeto puede pedir explicaciones sobre la tarea por lo que las influencias de las habilidades lectoras no se dan. El problema es que llevan mucho tiempo.

2. PLANIFICACIÓN DE LA PRUEBA:

La elaboración completa de un instrumento dura alrededor de dos años.

lo primero que se planifica es el diseño de la prueba
asignación de las personas que redactan los ítems, donde entraría el tipo de ítems
Elegir los expertos(psicólogos, educadores, médicos...) que analizaran los ítems, criticando el contenido, el impacto estimular, etc. ... para que los ítems sean representativos del contenido que se pretende evaluar.
Hacer un cuaderno de ensayo
Ir construyendo las instrucciones de manejo de la prueba.
Primer estudio empírico: pequeña muestra a la que se le aplica el borrador, se aplican los análisis estadísticos pertinentes.
Seleccionar los ítems más representativos, desechar los que no lo sean y los que pueden servir pero tienen algún problema se rehacen.
Desarrollar todos los materiales auxiliares y entregar todo a la imprenta.
Aplicar de nuevo el instrumento, pero a una muestra representativa de la población; Es el segundo ensayo normativo. Se barema el test, aquí se hacen las tablas de baremación y se valida el test.
Poner a disposición de la editorial todo el material.

3.PREPARACIÓN DEL EJERCICIO:

1ª etapa: Enmarcar el instrumento (fundamentación teórica)

¿Qué pretendo medir? Hay que saber que contenido tiene el atributo y como está construido teóricamente. Hay que definir el atributo y decir su contenido: definición lógica y operativa. Estas definiciones hay que posicionarlas teóricamente.

¿Qué inferencias quiero hacer a través del atributo? ¿Qué utilidad le voy a dar al instrumento? Objetivos y utilidad del test.

¿A que población va a dirigirse el instrumento? Decidir a quien voy a evaluar, a que sujetos se destina el test.

2ª etapa: Planificación y delimitación de la prueba:

Objetivos concretos de la prueba delimitar operativamente la prueba, cuantas áreas o contenidos concretos va a tener la prueba.

Hay que operativizar las áreas de contenido, a las que se les pueden dar diferentes pesos, bien de forma empírica o bien por consenso de expertos. De momento se dan los pesos a priori, pero se está trabajando en darlos a posteriori. Se puede dar mas ítems a un área que a otra o se puede hacer una corrección con el mismo número de ítems en todas las áreas.

3ª etapa: elaboración de preguntas, protocolos y normas de aplicación

Darles un contenido real a las áreas: Preguntas para cada área. Hay que ver la proporción de ítems, su número y el objetivo de cada área.

Número de ítems total de la prueba, en función del tiempo, del tipo de ítems, de la velocidad lectora de los sujetos... hay que pensar en toda la prueba, en quién va a recibir los ítems y en que atributo quiero medir: si es muy general muchos ítems y si es concreto pocos ítems. El que elige l número de ítems es el autor del test. Los ítems se distribuyen en las áreas de contenido según su peso y en cada objetivo.

Seleccionar el tipo o tipos de ítems más convenientes: verbales, manipulativos, gráficos...

Formato del instrumento, presentación.

Se selecciona el tipo de ítems según dos criterios: preguntar a expertos o hacer un banco de ítems de los que se elige al azar.

Hay que tener en cuenta unas condiciones:

el tiempo para construir, aplicar y corregir el test
el proceso mental que se exige
La aplicación individual; se adecua el tiempo al sujeto y el número de ítems es mayor.
Condiciones del evaluador que delimita el tipo y número de los ítems.
Dificultades del material.
Las personas a las que se va a evaluar.

Estas condiciones llevan a unas estrategias y a un protocolo determinado. Hay que conocer nuestra capacidad para redactar los ítems.

Elaborar el protocolo y elaborar las instrucciones y las normas de aplicación y de corrección del instrumento. Elaborar el material para aplicar, corregir la prueba para que otro profesional pueda aplicarla.

Todo esto es un borrador, un ensayo en el que se tienen mas ítems de los que se necesitaran.

4ª etapa: Primer estudio empírico:

Finalidad: saber si el instrumento sirve realmente.
Identificar y seleccionar una muestra de sujetos a la que aplicar el borrador.
Aplicar el instrumento.
Corregir el instrumento: Hay que tener normas de corrección. Esto nos permite obtener unos resultados.
Análisis estadístico descriptivo de todos los resultados. Así conoceremos la tendencia de las puntuaciones.
Análisis de ítems: se analiza ítem a ítem a nivel lógico y a nivel cuantitativo.
Reestructuración de la prueba: se rechazan los ítems, se reestructuran o se dejan como están.

5ª etapa: segundo estudio empírico

objetivo: determinar las características técnicas de la prueba.
Demostrar la representatividad cualitativa y cuantitativa de la muestra.
Aplicar a la muestra el instrumento y corregirlo igual que en la anterior etapa.
Análisis de ítems
Estudio de fiabilidad de la prueba
Estudio de validez
Interpretar las puntuaciones

ELABORACIÓN Y SELECCIÓN DE LOS ÍTEMS

Según como seleccionamos los ítems el test tendrá un contenido. Las preguntas y alternativas de respuesta son el protocolo del test. Los ítems son verbales, gráficos o manipulativos. El tipo de ítems tiene que ver con sí el sujeto responde de forma libre, estructurada o de forma mixta.

Items de respuesta libre: La tarea es organizar sus propias respuestas y responder con sus propias palabras desde su propio punto de referencia ante el estímulo presentado. Hay dos tipos de ítems de respuesta libre:

ensayo: lo importante es poder evaluar el desarrollo conceptual o global del sujeto. Permite conocer aspectos muy personales como originalidad o la forma de estructuración. Problema. subjetividad
Respuesta restringida: se da un problema especifico a responder que delimita la libertad de respuesta.

Items de respuesta estructurada: la tarea es elegir sobre respuestas dadas por el evaluador. Es más fácil de cuantificar. Limita la libertad del sujeto. Hay diferentes tipos:

- Item objetivo de respuesta alterna: se ofrecen dos opciones y se elige una. Influye mucho el azar. Se necesita un gran numero de ítems para que represente bien lo que se quiere evaluar.

- Item objetivo de elección de respuesta: tres o más alternativas de respuesta. Permite mayor flexibilidad y más información. Permite analizar algunas habilidades del sujeto.

- Items objetivos de emparejamiento: son más complejos pero siguen siendo objetivos. Hay un encabezado, dos columnas de respuestas, que hay que emparejar. No vale para cualquier edad ni para cualquier nivel socio cultural.

Items de completamiento: son semiobjetivos o mixtos: mezclan los ítems de respuesta libre y los estructurados. Hay mayor flexibilidad y hay varias respuestas correctas.

APLICACIÓN, CORRECIÓN Y PROCEDIMIENTOS ESTADÍSTICOS PERTINENTES:

Una vez que hemos llegado aquí hay que aplicar el test y para ello hay que:

Delimitar unas normas claras de aplicación.
Tener elegida de forma clara la muestra representativa.
Aplicar el test: Recoger datos significativos.

Ahora hay que hacer un análisis de los ítems a dos niveles:

cualitativo: análisis lógico- racional.
Cuantitativo: análisis empírico de las propiedades estadísticas de cada uno de los ítems.

TEMA 3: CONFIABILIDAD DEL INSTRUMENTO

INTRODUCCIÓN:

La confiabilidad es el hecho de que una medida se mantenga en el test. Para medir la estabilidad es necesario medir y conocer las fluctuaciones (estadísticos de posición)

La estabilidad es relativa al momento. La confiabilidad se mide en dos núcleos: la media y el instrumento.

Los instrumentos deben aportar algo significativo del sujeto que estamos evaluando y esta ha de ser lo mas precisa posible.

La confiabilidad es la exactitud de la medida en diferentes ocasiones, en un lapso de tiempo.

Esto se halla estadísticamente mediante la correlación.

La inconfiabilidad es la no-estabilidad o el no acuerdo en la misma medida del mismo sujeto y en las mismas circunstancias.

Esto nos lleva a deshacer esta medida por no ser significativa.

Empíricamente la confiabilidad o la inconfiabilidad se miden por los estadísticos de relación.

Si una medida y otra varían mucho entre sí y están hechos en el mismo sujeto, esas medidas no son significativas. Inconfiabilidad de la medida, lo podemos obtener empíricamente a través de estadísticos de relación.

POSTULADOS BÁSICOS:

Fiabilidad supone consistencia y por lo tanto información estable. Si una medida es fiable nos da información consistente y estable.

razones de tipo externo al instrumento que pertenecen al sujeto (el sujeto madura o cambia de opinión)

Razones que se deben al propio instrumento: - el tipo de tareas es demasiado fácil o demasiado difícil.

los ítems no son representativos
Influencia del propio evaluador.
El propio azar influye en la inconsistencia de la medida.

2º . La confiabilidad debe ir investigada empíricamente para cada instrumento y para cada situación de aplicación.

¿Cómo comprobar la confiabilidad del instrumento?

El grado de variación de un conjunto de medidas sucesivas si es bajo medida consistente e instrumento confiable.
Contrastar la posición de un sujeto con respecto al grupo.

3º. Hay que demostrar empíricamente el grado de estabilidad de las puntuaciones a través de los estadísticos de relaciones. Estadísticamente la fiabilidad es una correlación.

“Toda media esta compuesta por dos elementos básicos”:

la puntuación total conlleva una puntuación verdadera mas la puntuación del error ( PT=PV2+PE)

El modelo lineal de Sperman (teoría clásica de la puntuación verdadera) si a un sujeto le aplicamos un numero infinito de veces un mismo test y suponiendo que las aplicaciones sean independientes entre sí, la media de las infinitas puntuaciones sería la puntuación verdadera del sujeto. Con respecto a esa característica y para puntuaciones arbitrarias al error se anulan entre sí.

Siguiendo esta premisa: PV = PT - PE

Elementos fundamentales:

(1) El error es independiente a la puntuación verdadera e incluso a la variable que estoy midiendo. PT = PV + PE

(2) No existe correlación entre las puntuaciones verdaderas y el error.

(3) Los errores afectan a las puntuaciones totales pero afectan de forma distinta cada vez que medimos.

Un conjunto de errores de un grupo influye en la PT de ese grupo pero no en las puntuaciones verdaderas (PV) de ese grupo.

Podemos hallar el error en la puntuación: cuantos más errores cometamos y mayor sea el error menos estabilidad tenemos en la puntuación y viceversa.

¿ Qué es el error típico de medida?

Pe = Pt - Pv

Xi - XT= e Xe Se error típico de medida

.....1- “” = e1

.....2 - “” = e2

.....3 - “” = e3

Cuanto mayor sea el error típico de medida menos posibilidades tengo de que mi medida sea significativa.

El error de medida se utiliza para ver si las variables son muy amplias(significativas). El error típico de medida es la desviación típica de errores (Se)

El error típico es responsable de que haya variables en la medida. La estabilidad de la medida se define como la proporción de la r2 verdadera que se explica por la r2 total.

S2 observada = Sv2 + Se2

El coeficiente de confiabilidad: S2v

S2 observada

FORMAS DE ESTIMAR LA CONFIABILIDAD:

El coeficiente de confiabilidad se halla para cada instrumento y para cada situación por lo tanto no es absoluto. Si cambiamos de circunstancias, de población, debemos hallar otro coef. De confiabilidad.

CUATRO FORMAS DE HALLAR EMPÍRICAMENTE LA CONFIABILIDAD

TEST- RETEST

TEST PARALELOS O EQUIVALENTES

TEST SUBDIVIDIDOS O TEST DE LAS DOS MITADES

ESTADISTICOS DE ITEMS.

TEST- RETEST: Tenemos que tener un test el cual aplicaremos al menos en 2 situaciones diferentes. Pueden ser momentos simultáneos (sin intervalo) o en un largo periodo (con intervalo). Podemos saber la consistencia interna del test si la puntuación es la misma en situaciones diferentes. Ya no controlamos la r al ser la misma tarea la que pretendemos valorar.

Si controlamos la maduración y los cambios del sujeto en las dos aplicaciones correlacionamos las dos medidas obtenidas. Si el test está bien hecho y mide lo que he pretendido medir las medias son muy similares. Medimos pues la consistencia interna del test haciendo este test- retest, pero si no es suficiente utilizamos otros test.

TEST PARALELOS: También con dos momentos de aplicación: dos medidas de cada individuo pero elegimos el test y otro equivalente que mide las mismas características pero desde otro modelo teórico.

Son dos medidas de la misma característica pero con tareas diferentes. Podemos comparar nuestra medida con la de otros test. Estos test tiene que tener medias y varianzas iguales

No sabemos la consistencia interna del instrumento porque no son dos medidas del mismo instrumento pero si nos da información de la consistencia externa.

Podemos aplicar estos dos test sin intervalo de tiempo o con él si lo que queremos es valorar los cambios madurativos.

El único método que nos permite conocer la consistencia externa del test, el que más controles realiza en relación a las varianzas debidas al error.

Incluye también la varianza de error debida a la diferencia entre las tareas.

TEST SUBDIVIDIDO: Es económicamente muy útil respecto al tiempo y al dinero. Solo necesita una aplicación del test; Solo una medida si es consistente o no de forma interna. Una vez aplicado y corregido el test se divide en dos partes iguales: ítems pares (a)

Items impares (b)

También se puede hacer al azar, repartir en dos todos los ítems. Correlacionamos una mitad del test con la otra pero esa correlación no es igual a la correlación total del test (coef. De correlación)

Por eso para hallar la confiabilidad hay varios métodos, en este test aplicamos la formula de Spearman- Brown.

Cuando aplicamos el test lo dividimos suponiendo que a y b tienen varianzas iguales:

formulas

Si las varianzas fueran diferentes entre las dos mitades utilizaríamos la formula de Rulon y Guttman.

formulas

Este método permite solo una parte de la consistencia interna. Permite aplicar la confiabilidad en test de velocidad(en intervalo de tiempo corto)

ESTADÍSTICA DE ÍTEMS: es tan económica como la anterior. Una sola medida. Valora la consistencia interna con criterios internos. Comparamos las puntuaciones de cada ítem con la puntuación obtenida en el test completo.

Se considera a cada ítem como un test individual. Comparación de cada ítem con la puntuación total del test.

Se supone que todos los ítems tienen la misma varianza y la misma media utilizamos la formula de Kuder- Richardson.

Si las varianzas y medias son distintas:

Los distintos métodos nos dan diferentes medidas de confiabilidad, varían en cuanto al grado y en cuanto al contenido

5. ¿ CÓMO SE INTERPRETAN LOS DATOS DE CONFIABILIDAD?

No hay confiabilidad mínima, la máxima es 1. A pesar de no haber un nivel satisfactorio único si se ha llegado a un acuerdo; que no baje de 0,6 la confiabilidad de un instrumento.

A veces la prueba que presenta mayor nivel de confiabilidad no es accesible para nosotros bien económicamente o porque no la podemos aplicar y tenemos que escoger otra.

Hay que intentar equilibrar el nivel de confiabilidad con este 2º nivel (sí es accesible para nosotros, lo sabemos aplicar)

Hay que fijarse en tres niveles cuantitativos: (estos 3 niveles cuantitativos dependen de un 4º nivel que es el método utilizado):

nivel de confiabilidad (0-1)
error típico de medida
el índice de confiabilidad

Alto nivel de confiabilidad implica un bajo error típico de medida y alto índice de confiabilidad sería lo ideal.

Cada método nos da errores típicos de medida distintos y niveles de confiabilidad distintos.

Estos tres niveles cuantitativos están en función del método utilizado.

Además de esto influyen otros aspectos cualitativos en el nivel de confiabilidad:

Como es el grupo, la dispersión del mismo (si es homogéneo o heterogéneo). Sabemos si un grupo es homogéneo o no por los estadísticos de dispersión (desviación típica).

Si un grupo es muy heterogéneo (variable) es mas fácil que el instrumento sea fiable.

En un grupo homogéneo un error influye mucho en la confiabilidad del instrumento. En un grupo heterogéneo el mismo error no sería tan grave.

Nivel de capacidad del grupo => tiene que decir en el test el nivel de capacidad que tiene el grupo al que se aplicó el test. Hay que tener en cuenta esta capacidad del grupo, las distintas variables que influyen en él.

Extensión del test => cuantos más ítems más posibilidades de representar bien lo que queremos medir, pero si son demasiados el sujeto evaluado puede perder la concentración.

La propia tarea => hasta que punto el sujeto puedo o no realizarla. Si es demasiado difícil para su edad o demasiado fácil. Hay que leer la prueba antes de aplicarla.

La forma de corrección => si las normas de corrección no están bien estructuradas o bien aplicadas se `produce una interpretación subjetiva.

La propia situación de aplicación => comprobar si la situación es normal, habitual, cotidiana. para que no se produzcan sesgos.

Falta de acuerdo entre las distintas medidas => viene de la falta de acuerdo teórico lo que provoca que las medidas no sean fiables. La fiabilidad es la condición necesaria para que un instrumento sea valido, pero no es condición suficiente.

No puede ser valido si no es fiable. Que el método no sea el adecuado para las personas que estamos evaluando es la cualidad más negativa.

6. CONFIABILIDAD Y LONGITUD DEL TEST

Al aumentar el número de ítems hay más probabilidades de que el instrumento sea más confiable.

Hay métodos que puede que sean poco confiables porque son poco extensos

Si cambiamos la longitud variamos también la confiabilidad.

Hacer una prueba excesivamente larga puede resultar malo y puede bajar la confiabilidad. Hay que tener cuidado.

Hay una formula matemática que nos dice hasta que punto se puede aumentar él numero de ítems para aumentar su confiabilidad.

En cuanto aumento el test numero de veces que aumento el test. Quiero que la confiabilidad llegue a 0,80:

Hay una relación entre la confiabilidad y la homogeneidad de la muestra. Cuando aplicamos medidas en muestras diferentes obtenemos medidas que varían la muestra

Las puntuaciones verdaderas de una muestra no tienen porque coincidir con las puntuaciones verdaderas de otra.

La varianza de error puede depender de la incapacidad del test para medir puntuaciones verdaderas.

Homogénea varianza pequeña

Heterogénea varianza grande => mayor nivel de confiabilidad.

En muchas ocasiones nos puede interesar mucho en psicologia comparar medidas entre sí y ver la diferencia entre ellas a través de las puntuaciones.

Existen una serie de peculiaridades:

Los errores que yo cometo en dos medidas diferentes influyen conjuntamente en la puntuación de diferencias.
Lo que tienen en común ambas medidas lo anulamos porque buscamos la diferencia.

Siempre es más pequeña la confiabilidad de las puntuaciones diferenciales que la confiabilidad por separado.

Confiabilidad de la diferencia de puntuación:

TEMA 4: VALIDEZ DEL INSTRUMENTO

INTRODUCCIÓN:

El valor de un instrumento reside en que debe demostrar su utilidad. Esto lo consigue mediante la validación. La utilidad debe ser permanente. VALIDAR es en que medida un instrumento da datos significativos, predice acontecimientos.

Un instrumento no tiene un coeficiente de validez fijo, varía y puede tener caducidad. Hay tipos de validez y tipos de coeficientes de validez, según la utilidad que le damos al instrumento.

Todos los coeficientes de validez están basados en correlaciones.

Hay dos cuestiones en la validación: para quien y para qué es útil ese instrumento. La validez está relacionada con la muestra y si ésta cambia la validez también.

Dependiendo de la finalidad del test habrá diferentes tipos de validez. Según lo que se quiere medir, se elige un instrumento u otro. Analizando el contenido (ítems) se elige el instrumento más representativo, el mejor para lo que queremos medir: esto es la validez. Hay que elegir el test que mide realmente lo que queremos medir.

CONCEPTO Y DEFINICÓN:

La validez de un instrumento es la exactitud con la que podemos hacer medidas significativas y adecuadas a través de el. Para esto lo primero es saber de antemano qué es lo que quiero medir. La validez puede ser estimada tanto a nivel cuantitativo como cualitativo. El coeficiente de validez es un coeficiente de correlación del nivel cuantitativo. Se correlacionan los datos obtenidos en el test con los datos de comparación, del criterio de validación, que son datos significativos de lo que queremos evaluar.

La validez no es fija, por lo que hay que revisarla cada cinco o seis años. El aspecto cualitativo del test lo da la representatividad del mismo con respecto al sujeto.

EL PROBLEMA DEL CRITERIO DE VALIDACIÓN

Una forma de demostrar que el instrumento es válido es tener un punto de comparación externa. Para ello necesitamos un criterio, es decir, algo mensurable y no medible porque se miden cosas que no se ven(inteligencia, sociabilidad). Por esto en psicología no se pueden medir criterios verdaderos, pero deben ser lo mas verdaderos posible.

Hay que elegir los criterios que sean unánimemente estables y confiables. Debe ser el más adecuado posible e independiente del test y de su autor, por lo que debe ser valorado por personas ajenas al test y su autor: Jueces de validación. El criterio debe estar exento de prejuicios; a priori todas las personas deben de poder estar evaluadas. Debe estar disponible y debe haber demostrado su validez.

A pesar de todo el criterio conlleva un sesgo que hay que controlar. Por eso hay que saber quién evaluó el criterio para poder analizar los coeficientes de validez.

Sobre la base del tipo de criterio elegido hay que evaluar la validez.

DIFERENTES TIPOS DE VALIDEZ

VALIDEZ DE APARIENCIA lógica y racional. No tiene datos cualitativos. Es el grado en que un instrumento parece que mide lo que queremos medir. Lo dan los usuarios de la prueba: hasta que punto la prueba es aceptada por quienes la usan. Concierne a juicios del instrumento una vez ya construido. La validez de apariencia no suele tener relación con la validez real. La imagen suele sesgar la validez predictiva.

VALIDEZ DE CONTENIDO: (circular- intrínseca) también es lógica y racional, no tiene ningún dato cuantitativo. Se analiza ítem a ítem hasta que puntos estos son muestras de comportamiento representativas de lo que pretendemos medir y de a quien pretendemos medir. Es un análisis ítem a ítem en cuanto a su estructura gramatical y su presentación. Es necesario tener descrito de forma lógica y operativa lo que quiere medir el instrumento. Hay que detallar el procedimiento de los datos obtenidos en esa prueba. Es un análisis cualitativo. El juez analiza, critica y reestructura los ítems. Los ítems pasan por los filtros, que son el resto del equipo y un juez externo, para luego ordenarse en base a criterios de ordenación y se devuelven de nuevo al constructor.

VALIDEZ CONCURRENTE (estadístico- empírica) el coeficiente se halla teniendo en cuenta un criterio de validación que se da al mismo tiempo que los datos del instrumento. Se emplea esta validez para saber el estado de una persona en el momento actual, por ello es necesario que el criterio externo se dé en el momento presente. Relacionamos los datos del test con los datos externos que se están dando al mismo tiempo. Sirve para clasificar al sujeto en base a esa medida; Conlleva diagnóstico, clasificación y descripción. Incluye el error típico de medida del test como el error de criterio. Si el criterio no es objetivo o significativo el test no es confiable, la validez concurrente no da datos significativos. Si mide lo que se quiere medir este coeficiente de validez se acercará a 1 y significa que el test es válido para hacer clasificaciones.

VALIDEZ PREDITIVA se halla a través de un coeficiente de validación por lo que necesitamos un criterio externo. El uso del test es predecir la conducta del sujeto en el futuro por lo que el criterio externo no se va a dar en el presente. Hay que esperar un tiempo para que el criterio se dé. Está influido por el error de medida y por el error de criterio. Cuanto más cerca esté del 1 mejor predecirá la conducta. Test inferencial: Orientación vocacional, selección de personal, consejo psicológico... el criterio y el juez deben ser independientes del test. Si tiene buena capacidad predictiva suele tener capacidad diagnóstica pero no viceversa.

VALIDEZ DE CONSTRUCTO conlleva dos niveles de validez: empírica y racional- lógica. Es un proceso continuo. Queremos validar el instrumento y verificar hasta que punto se verifica la teoría que está en la base. Nos interesa saber en que grado ese instrumento nos da una medida adecuada del constructo que queremos medir. Hay varios métodos para hallar la validez de constructo, ya que es el tipo de validez más complejo al tener dos niveles (cualitativo y cuantitativo): - Campbell y Fiske

Cronback y Meehl
Messick
Bentler

¿Cómo se halla la validez de constructo? Para evaluar una teoría:

1º) definir cual es el atributo a medir.

2º) describir con que otros constructos de interés se puede relacionar.

También hay que saber cuales son las manifestaciones de ese atributo. Campbell y Fiske emplean un multimétodo- multivariable: se aplican 3 métodos para estudiar las 3 variables y después se compara cada método con cada variable hallando una matriz de correlación. El objetivo es demostrar que mi método es el que mejor correlaciona con la variable que pretendo medir; también ese método debe mantener una correlación con las otras dos variables.

Cronback y Meehl: hay varios métodos y varios grupos de personas. La prueba debe demostrar la correlación mas alta entre el método, la variable y el grupo de personas a las que se le aplica el método. Al trabajar con grupos diferentes de personas el instrumento debe discriminar entre los diferentes grupos. La información recogida debe permitir valorar cambios en el sujeto o en el grupo de personas. Otra forma de hallar la validez es mediante la hipótesis alternativa: pensar que el instrumento mide mejor otra variable y demostrar que no es así.

Algunos autores hablan de la VALIDEZ FACTORIAL: tipo de validez de constructo que se establece a partir de análisis factoriales. El análisis factorial trata de explicar las interrelaciones de un conjunto mediante las variables de ese conjunto que se dan en la realidad y constituyen factores.

No hay acuerdo sobre si dentro de los tipos de validez de constructo están la validez discriminante (permite discriminar; Mide el nivel de discriminación que posee un instrumento como por ejemplo determinar quienes son los mejores de cada clase; se trata de discriminar entre las variables que mide un instrumento y que el test correlaciona mejor con la variable que quiere medir) y la validez convergente (aquella que se compara con otras medidas hechas al mismo atributo).

Un instrumento nunca puede ser más valido que fiable. La fiabilidad siempre es mejor que la validez.

INTERPRETACIÓN DEL COEFICIENTE DE VALIDEZ:

Adquiere valores entre 0 y 1. Es un coeficiente de correlación que nos permite saber la validez estadística del test. Se correlacionan los datos del test con un criterio externo. No se explica solo a partir de los resultados sino que hay mas factores:

si está cerca de 1 es muy valido
el error típico de medida debe ser bajo para ser mas valido
Se interpreta según un criterio externo que debe aparecer claramente definido. Cuanto más estricto sea el criterio mayor será la validez.

Si el criterio es inconfiable disminuye la validez. Depende quien sea el juez el criterio será confiable o no. La confiabilidad bajará ante un juez novato. El criterio no debe tener sesgo, es decir, no debe favorecer a unos sujetos y desfavorecer a otros.

Si la fiabilidad es alta y la validez baja, puede que el modo de hallar la fiabilidad sea erróneo. No hay un único coeficiente de validez, es relativo al contexto en el que se va a aplicar el test.

Si el instrumento no es confiable, la validez disminuye. El juez debe ser objetivo, experto y estar entrenado. Los datos obtenidos tienen que ser significativos y suficientes para que exista validez. Al valorar cosas insignificantes la validez será baja.

Es útil cuando da información significativa y novedosa; cuando permite discriminar; cuando nos permite hacer predicciones serias, con cierta seguridad; cuando permite tomar decisiones correctas.

TEMA 5: PREDICCIÓN

INTRODUCCIÓN:

Hay que hallar la validez predictiva y todos los demás coeficientes para predecir bien. Predecir es adelantarse. Es una forma de pronóstico, a partir de una variable que correlaciona con otra desconocida determinamos esa variable desconocida a través de una determinada fórmula.

Cuanto mejor es la correlación más posibilidades hay de que esa predicción sea exacta. La correlación igual a 1 determina una predicción exacta.

La predicción es relativa y conlleva un cierto riesgo. Al predecir siempre se comete un error de estimación que se junta al error cometido en la medición.

La predicción depende de la correlación entre las variables, del error típico de medida, del error típico de estimación, del coeficiente de fiabilidad y del coeficiente de validez.

La predicción es más fácil hacerla en grandes grupos que en pequeños grupos, porque los errores interfieren menos y porque un error en un grupo grande se nota menos.

La predicción es más fácil en un grupo heterogéneo que en un grupo homogéneo, porque la variedad de sujetos favorece esa predicción.

Es importante conocer la dispersión y la variabilidad ya que en una gran dispersión no es significativa la media.

A nivel cuantitativo hay una serie de coeficientes que determinan el nivel de precisión del instrumento: Coeficiente de alienación, de valor predictivo y de determinación.

COEFICIENTE DE ALIENACIÓN (C.A)

Viene expresado por la proporción del error típico de estimación que hay en la descripción del criterio.

Es un error relativo que cometemos al hacer predicciones teniendo en cuenta la dispersión de los datos. Tratamos de ver como el error de estimación influye en la predicción. Nos impide hacer buenas predicciones cuanto mayor es su valor.

Si el CA lo multiplicamos por 100 nos da el % de error que se puede cometer en la predicción, es decir, hasta que punto está influida la dispersión por el error. Cuanto menos influya en la dispersión mayor será la precisión de la predicción.

CA = 1 La predicción es igual que si se realiza al azar. Tenemos muchas probabilidades de que no se dé la predicción.

CA = 0 La predicción tiene grandes probabilidades de éxito, la predicción es más exacta.

El CA nos muestra hasta que punto tenemos incertidumbre en la predicción. CA = K.

COEFICIENTE DE VALOR PREDICTIVO (CVP)

Es hasta que punto un instrumento nos permite una seguridad en nuestros pronósticos.

Si lo multiplicamos por 100 nos da el valor de seguridad de pronostico.

CVP = E = 1 - K

COEFICIENTE DE DETERMINACIÓN:

Es el cuadrado del coeficiente de correlación. Expresa la proporción de la varianza del criterio que es pronosticada a partir del test.

Se representa rxy2 = d =. . .

Si la puntuación pronosticada se da en la realidad, entonces las variaciones de la variable criterio pronosticada pueden explicar la varianza total de la variable.

VARIANZA RESIDUAL O PARCIAL: es la parte de la varianza que no hemos podido pronosticar. Cuanto más grande sea mayor será la incertidumbre en nuestros pronósticos. Si dejamos mucha parte de la varianza al azar, tendremos mayor incertidumbre.

El coeficiente de determinación nos da hasta que punto la varianza pronosticada explica la varianza total del criterio.

Si es muy cercana será 1 => éxito

Si es mucho más pequeña tendremos menos éxito.

Cuanto más grande es el coeficiente de determinación más pequeña es la variable residual. Su valor máximo es de 1 con lo que el % de acierto será del 100% con un error y una variable residual nulos.

Toda la predicción en psicología se basa en la regresión. Con el fin de mejorar nuestras predicciones se utilizan muestras más heterogéneas y se aumenta la longitud del test. Para esto se utilizan baterías de test, se valoran las mismas variables. Hay que saber elegir los tests viendo los que correlacionan mejor. Hay formas matemáticas para saber que tests correlacionan mejor para medir una variable.

Cuando una variable se valora a partir de un test ( x predice a y) regresión lineal simple.

Cuando utilizamos varios tests para predecir una única variable hiperplano de regresión. Si introduzco todos los datos obtenidos en unos tests pido un hiperplano de regresión y me correlacionan los tests que mejor van a medir la variable.

FACTORES QUE INFLUYEN EN LA PREDICCIÓN:

Que haya una correlación entre el test y la variable que queremos medir. Cuanto más alta sea la correlación mas probabilidades de éxito.

Errores cometidos: standard o típicos

error típico de medida que cometemos en el test
Error típico de estimación cometido en la predicción.

Cuanto más alto sea el error mayor incertidumbre habrá.

Que el test sea confiable (coeficiente de confiabilidad del test). El método nos va a dar datos sobre la confiabilidad.

Indice de fiabilidad: hasta que punto muestra limitación teórica, hasta que punto nuestro instrumento es valido.

La validez predictiva del instrumento

Variabilidad de las medidas: cuanto mayor es la variabilidad de la distribución de las medidas del grupo, mayor es la probabilidad de éxito en nuestra predicción.

Cuanto más bajo es el coeficiente de alienación y más alto el coeficiente de predicción mayores serán las probabilidades de éxito.

Con una varianza residual baja y un coeficiente de determinación alto será mayor el nivel de predicción

Longitud del test: Mayor probabilidad de predecir bien cuanto más largo sea ya que tenemos mas muestras de conducta.

Factor de corrección: corrección por inconfiabilidad o por atenuación. Se intenta corregir teóricamente los errores en la medida. Nos permite saber hasta que punto si yo corrigiera la inexactitud del test y del criterio se mejoraría nuestra predicción.

corrección del test y del criterio:

corrección del criterio:

corrección del test

Se realiza para saber si merece la pena hacer correcciones en el test que tenemos o hacer otro test.

UTILIDAD DE LA PREDICCIÓN:

Hacer una predicción es muy arriesgado porque hay muchos factores que pueden cambiar las circunstancias internas y externas.

Las predicciones son siempre relativas, están basadas en la ley de la probabilidad. Son imprecisas ya que cometemos errores y podemos caer en el error de etiquetar a una persona. También corremos el riesgo de que sé de la profecía autocumplida.

Predecimos en situaciones de orientación, a nivel de orientación vocacional o laboral, en selección de personal, al dar un consejo psicológico, al dar información para la roma de decisiones, al intervenir terapéuticamente, al realizar programas de entrenamiento, al investigar...

Apoyamos las predicciones en técnicas evaluativas (test psicométricos), es decir, en los datos obtenidos. Cada test por separado es un indicador parcial, la predicción será más fiable si está buscada en más de un test.

Tal vez te pueda interesar:

Descargar

Enviado por:	Ana
Idioma:	castellano
País:	España

Palabras clave:

Ramas psicológicas Medir Tests psicométricos Traducir Interpretar Instrumentos Problemas Métodos Normas Ítems Confiabilidad Validez

Te va a interesar