Biología
Fundamentos de Biología Aplicada
PRÁCTICA DE ESTADÍSTICA
FUNDAMENTOS DE BIOLOGÍA APLICADA I
PUNTUACIÓN: 2,6 DE 3
El Departamento de Ecología de la Universidad de Granada ha proporcionado un conjunto de datos en los cuales se recoge información sobre ciertas variables medidas en hojas de encina en distintas zonas de la provincia de Granada.
Del conjunto de datos total se ha seleccionado una muestra de 90 hojas de encina, tomadas en 5 zonas diferentes. Estas zonas son:
Cortijuela
Molinillo
Fardes
Ladihonda
Fazares
Se sabe que las zonas 1, 2 y 3 son zonas húmedas (denominado 1) frente a las zonas 4 y 5 que son muy secas (denominado2). (Las dos primeras columnas del archivo de datos adjunto hacen referencia a estas dos variables: LOCALIZACIÓN y CLIMA).
En cada localización se han tomado 18 hojas de encina y en ellas se ha medido la longitud y la anchura total. Además, con esta información se ha calculado un índice de asimetría. (Esta información viene en la tabla de datos adjunto, columnas 3 a 5: LONGITUD, ANCHURA TOTAL, ASIMETRÍA).
El primer objetivo es comprobar si la asimetría de las hojas de encina se ven afectadas por la localización de los árboles.
Para ello, se considera un diseño de un experimento en el que la localización de los árboles es el factor, (las distintas localizaciones son los niveles del factor), y la asimetría es la variable respuesta. Es un modelo equilibrado de efectos fijos y se plantea el siguiente contraste:
H0: µ1=µ2=µ3=µ4=µ5
H1: µi"µj al menos para un par (i,j) i"j
Los datos obtenidos son:
ANOVA de un factor
ANOVA
Asimetria
| Suma de cuadrados | gl | Media cuadrática | F | Sig. |
Inter-grupos | ,027 | 4 | ,007 | 2,906 | ,026 |
Intra-grupos | ,198 | 85 | ,002 |
|
|
Total | ,225 | 89 |
|
|
|
El valor del estadístico F para el contraste es 2,906
El p-valor asociado al contraste es 0,026, por lo que a un nivel de significación del 5%, se rechaza la hipótesis nula, por lo que al menos alguna de las localizaciones afecta a la asimetría de las hojas.
Para precisar qué zonas difieren estadísticamente entre sí, se usan los contrastes de Tukey, (nivel de significación 1%):
H0: µ1=µ2
H1: µ1"µ2
Comparaciones múltiples
Comparaciones múltiples
Variable dependiente: Asimetria
HSD de Tukey
(I) Zona | (J) Zona | Diferencia de medias (I-J) | Error típico | Sig. | Intervalo de confianza al 90% | |
|
|
|
|
| Límite inferior | Límite superior |
1 | 2 | -,000556 | ,016085 | 1,000 | -,04078 | ,03967 |
| 3 | -,002611 | ,016085 | 1,000 | -,04284 | ,03762 |
| 4 | ,033333 | ,016085 | ,242 | -,00690 | ,07356 |
| 5 | ,035222 | ,016085 | ,194 | -,00501 | ,07545 |
2 | 1 | ,000556 | ,016085 | 1,000 | -,03967 | ,04078 |
| 3 | -,002056 | ,016085 | 1,000 | -,04228 | ,03817 |
| 4 | ,033889 | ,016085 | ,227 | -,00634 | ,07412 |
| 5 | ,035778 | ,016085 | ,181 | -,00445 | ,07601 |
3 | 1 | ,002611 | ,016085 | 1,000 | -,03762 | ,04284 |
| 2 | ,002056 | ,016085 | 1,000 | -,03817 | ,04228 |
| 4 | ,035944 | ,016085 | ,177 | -,00428 | ,07617 |
| 5 | ,037833 | ,016085 | ,139 | -,00240 | ,07806 |
4 | 1 | -,033333 | ,016085 | ,242 | -,07356 | ,00690 |
| 2 | -,033889 | ,016085 | ,227 | -,07412 | ,00634 |
| 3 | -,035944 | ,016085 | ,177 | -,07617 | ,00428 |
| 5 | ,001889 | ,016085 | 1,000 | -,03834 | ,04212 |
5 | 1 | -,035222 | ,016085 | ,194 | -,07545 | ,00501 |
| 2 | -,035778 | ,016085 | ,181 | -,07601 | ,00445 |
| 3 | -,037833 | ,016085 | ,139 | -,07806 | ,00240 |
| 4 | -,001889 | ,016085 | 1,000 | -,04212 | ,03834 |
A un nivel de significación del 1%, se puede decir que las zonas no difieren estadísticamente entre sí.
El segundo objetivo es comprobar si la longitud de las hojas sirve para predecir la asimetría.
Vemos el diagrama de dispersión de la variable independiente (longitud), con respecto a la dependiente (asimetría).
En la gráfica no se observa que se cumplan todas las hipótesis básicas de regresión (linealidad, homocedasticidad, normalidad e independencia). Lo interesante sería proceder a la transformación de los datos mediante logaritmos, cuadrados, etc. Incluso tras la transformación de los mismos se puede comprobar que sigue existiendo un diagrama de dispersión sin estructura alguna.
A pesar de no observarse una tendencia lineal y homocedastica en la distribución de los puntos, se estiman los parámetros de cada uno de los modelos siguientes (en que “y” siempre será la asimetría, y “x” será longitud):
yi= 0 + 1x1+i, i=1, ….,n
Variables introducidas/eliminadas(b)
Modelo | Variables introducidas | Variables eliminadas | Método |
1 | Longitud(a) | . | Introducir |
a Todas las variables solicitadas introducidas
b Variable dependiente: Asimetría
Resumen del modelo
Modelo | R | R cuadrado | R cuadrado corregida | Error típ. de la estimación |
1 | ,061(a) | ,004 | -,008 | ,050469 |
a Variables predictoras: (Constante), Longitud
Coeficientes(a)
Modelo |
| Coeficientes no estandarizados | Coeficientes estandarizados | t | Sig. | |
|
| B | Error típ. | Beta |
|
|
1 | (Constante) | ,077 | ,023 |
| 3,307 | ,001 |
| Longitud | -,001 | ,001 | -,061 | -,576 | ,566 |
a Variable dependiente: Asimetria
La recta de regresión sería:
Y = 0,077 - 0,001 X
El valor del coeficiente de determinación R2 = 0,004 indica que sólo el 0,4% de la variabilidad de la asimetría es explicada por su relación lineal con la longitud de las hojas.
El valor del coeficiente de correlación r = 0,061 no denota una buena asociación lineal positiva entre ambas variables.
Si planteamos el siguiente contraste para testar la significatividad de la variable independiente:
H0 : 1 = 0
H1 : 1 " 0
Los datos obtenidos son:
ANOVA(b)
Modelo |
| Suma de cuadrados | gl | Media cuadrática | F | Sig. |
1 | Regresión | ,001 | 1 | ,001 | ,332 | ,566(a) |
| Residual | ,224 | 88 | ,003 |
|
|
| Total | ,225 | 89 |
|
|
|
a Variables predictoras: (Constante), Longitud
b Variable dependiente: Asimetria
El p-valor = 0,566 es mayor que 0,05, por lo que no se rechaza la hipótesis nula de no linealidad del modelo, es decir, las variables no tienen relación lineal.
El tercer objetivo es pronosticar a qué clima es más probable que pertenezca una hoja de encina a la cual se le midió la longitud y resultó ser 25,62 y su asimetría 0,072. Cuantificar la probabilidad de que la hoja sea de uno y otro clima. ¿Es una predicción fiable?
Realizamos un análisis discriminante y obtenemos los siguientes datos:
Resumen de las funciones canónicas discrimimantes
Autovalores
Función | Autovalor | % de varianza | % acumulado | Correlación canónica |
1 | ,154(a) | 100,0 | 100,0 | ,365 |
a Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.
Si contrastamos H0: los centros son iguales
H1 : los centros son distintos
Lambda de Wilks
Contraste de las funciones | Lambda de Wilks | Chi-cuadrado | gl | Sig. |
1 | ,867 | 12,463 | 2 | ,002 |
A un nivel de significación de 0,05, el p-valor asociado al contraste = 0,002 es menor, por lo que se rechaza la hipótesis nula. Los centros no son iguales.
Coeficientes estandarizados de las funciones discriminantes canónicas
| Función |
| 1 |
Longitud | ,342 |
Asimetria | ,975 |
La función discriminante canónica es:
D = 0,342 · longitud + 0,975 · asimetría
Matriz de estructura
| Función |
| 1 |
Asimetria | ,940 |
Longitud | ,244 |
Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.
El valor 0,940 indica una relación positiva fuerte entre la asimetría y pertenecer a un grupo u otro.
Coeficientes de las funciones canónicas discriminantes
| Función |
| 1 |
Longitud | ,061 |
Asimetria | 20,550 |
(Constante) | -2,764 |
Coeficientes no tipificados
Las variables longitud y asimetría presentan una correlación positiva con la función. Hay que tener en cuenta la constante, por lo que la función será por tanto:
D = 0,342 · longitud + 0,975 · asimetría - 2,764
El que se clasifiquen en un grupo u otro dependerá de si se obtiene un valor menor o mayor que el punto de corte cuando se calcule la puntuación discriminante.
Funciones en los centroides de los grupos
Clima | Función |
| 1 |
1 | ,317 |
2 | -,475 |
Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos
Estos son los valores discriminantes en el centro de cada grupo, lo que sirve para determinar el punto de corte de ambos grupos.
0,317 - 0,475 = - 0,079
2
Estadísticos de clasificación
Resumen del proceso de clasificación
Procesados | 91 | |
Excluidos | Código de grupo perdido o fuera de rango | 0 |
| Perdida al menos una variable discriminante | 0 |
Usados en los resultados | 91 |
En la tabla anterior se muestra para cada hoja, a qué grupo pertenece realmente, seguido del grupo pronosticado para el individuo. Los casos clasificados de forma incorrecta se señalan con **.
Se han clasificado correctamente el 65,6 % de los casos.
De las 54 hojas de clima húmedo, 34 han sido clasificadas correctamente, y 20 de ellas las clasifica en el grupo 2 (clima seco).
De las 36 hojas de clima seco, 25 han sido clasificadas correctamente, y 11 han sido clasificadas en clima húmedo.
La clasificación de la última hoja es en el grupo 1 (clima húmedo) con una probabilidad del 57,17 %. La puntuación discriminante es 0,28525.
La probabilidad de esta hoja de pertenecer al grupo 2 es de 42,83 %.
A continuación se adjunta el archivo de datos, en el que se han agregado las siguientes columnas:
dis_1: indica, para cada caso, el grupo pronosticado.
dis1_1: indica la puntuación discriminante de cada caso según la función discriminante.
dis1_2: indica la probabilidad de pertenencia al grupo 1.
dis2_2: indica la probabilidad de pertenencia al grupo 2.
Descargar
Enviado por: | El remitente no desea revelar su nombre |
Idioma: | castellano |
País: | España |