Fundamentos de Biología Aplicada

Estadística. Ecología. Dispersión. Determinación. Correlación. Contraste. Variables. Asimetría

  • Enviado por: El remitente no desea revelar su nombre
  • Idioma: castellano
  • País: España España
  • 8 páginas
publicidad

PRÁCTICA DE ESTADÍSTICA

FUNDAMENTOS DE BIOLOGÍA APLICADA I

PUNTUACIÓN: 2,6 DE 3

El Departamento de Ecología de la Universidad de Granada ha proporcionado un conjunto de datos en los cuales se recoge información sobre ciertas variables medidas en hojas de encina en distintas zonas de la provincia de Granada.

Del conjunto de datos total se ha seleccionado una muestra de 90 hojas de encina, tomadas en 5 zonas diferentes. Estas zonas son:

  • Cortijuela

  • Molinillo

  • Fardes

  • Ladihonda

  • Fazares

  • Se sabe que las zonas 1, 2 y 3 son zonas húmedas (denominado 1) frente a las zonas 4 y 5 que son muy secas (denominado2). (Las dos primeras columnas del archivo de datos adjunto hacen referencia a estas dos variables: LOCALIZACIÓN y CLIMA).

    En cada localización se han tomado 18 hojas de encina y en ellas se ha medido la longitud y la anchura total. Además, con esta información se ha calculado un índice de asimetría. (Esta información viene en la tabla de datos adjunto, columnas 3 a 5: LONGITUD, ANCHURA TOTAL, ASIMETRÍA).

    El primer objetivo es comprobar si la asimetría de las hojas de encina se ven afectadas por la localización de los árboles.

    Para ello, se considera un diseño de un experimento en el que la localización de los árboles es el factor, (las distintas localizaciones son los niveles del factor), y la asimetría es la variable respuesta. Es un modelo equilibrado de efectos fijos y se plantea el siguiente contraste:

    H0: µ1=µ2=µ3=µ4=µ5

    H1: µi"µj al menos para un par (i,j) i"j

    Los datos obtenidos son:

    ANOVA de un factor

    ANOVA

    Asimetria

    Suma de cuadrados

    gl

    Media cuadrática

    F

    Sig.

    Inter-grupos

    ,027

    4

    ,007

    2,906

    ,026

    Intra-grupos

    ,198

    85

    ,002

    Total

    ,225

    89

    El valor del estadístico F para el contraste es 2,906

    El p-valor asociado al contraste es 0,026, por lo que a un nivel de significación del 5%, se rechaza la hipótesis nula, por lo que al menos alguna de las localizaciones afecta a la asimetría de las hojas.

    Para precisar qué zonas difieren estadísticamente entre sí, se usan los contrastes de Tukey, (nivel de significación 1%):

    H0: µ1=µ2

    H1: µ1"µ2

    Comparaciones múltiples

    Comparaciones múltiples

    Variable dependiente: Asimetria

    HSD de Tukey

    (I) Zona

    (J) Zona

    Diferencia de medias (I-J)

    Error típico

    Sig.

    Intervalo de confianza al 90%

    Límite inferior

    Límite superior

    1

    2

    -,000556

    ,016085

    1,000

    -,04078

    ,03967

    3

    -,002611

    ,016085

    1,000

    -,04284

    ,03762

    4

    ,033333

    ,016085

    ,242

    -,00690

    ,07356

    5

    ,035222

    ,016085

    ,194

    -,00501

    ,07545

    2

    1

    ,000556

    ,016085

    1,000

    -,03967

    ,04078

    3

    -,002056

    ,016085

    1,000

    -,04228

    ,03817

    4

    ,033889

    ,016085

    ,227

    -,00634

    ,07412

    5

    ,035778

    ,016085

    ,181

    -,00445

    ,07601

    3

    1

    ,002611

    ,016085

    1,000

    -,03762

    ,04284

    2

    ,002056

    ,016085

    1,000

    -,03817

    ,04228

    4

    ,035944

    ,016085

    ,177

    -,00428

    ,07617

    5

    ,037833

    ,016085

    ,139

    -,00240

    ,07806

    4

    1

    -,033333

    ,016085

    ,242

    -,07356

    ,00690

    2

    -,033889

    ,016085

    ,227

    -,07412

    ,00634

    3

    -,035944

    ,016085

    ,177

    -,07617

    ,00428

    5

    ,001889

    ,016085

    1,000

    -,03834

    ,04212

    5

    1

    -,035222

    ,016085

    ,194

    -,07545

    ,00501

    2

    -,035778

    ,016085

    ,181

    -,07601

    ,00445

    3

    -,037833

    ,016085

    ,139

    -,07806

    ,00240

    4

    -,001889

    ,016085

    1,000

    -,04212

    ,03834

    A un nivel de significación del 1%, se puede decir que las zonas no difieren estadísticamente entre sí.

    El segundo objetivo es comprobar si la longitud de las hojas sirve para predecir la asimetría.

    Vemos el diagrama de dispersión de la variable independiente (longitud), con respecto a la dependiente (asimetría).

    En la gráfica no se observa que se cumplan todas las hipótesis básicas de regresión (linealidad, homocedasticidad, normalidad e independencia). Lo interesante sería proceder a la transformación de los datos mediante logaritmos, cuadrados, etc. Incluso tras la transformación de los mismos se puede comprobar que sigue existiendo un diagrama de dispersión sin estructura alguna.

    A pesar de no observarse una tendencia lineal y homocedastica en la distribución de los puntos, se estiman los parámetros de cada uno de los modelos siguientes (en que “y” siempre será la asimetría, y “x” será longitud):

    yi= 0 + 1x1+i, i=1, ….,n

    Variables introducidas/eliminadas(b)

    Modelo

    Variables introducidas

    Variables eliminadas

    Método

    1

    Longitud(a)

    .

    Introducir

    a Todas las variables solicitadas introducidas

    b Variable dependiente: Asimetría

    Resumen del modelo

    Modelo

    R

    R cuadrado

    R cuadrado corregida

    Error típ. de la estimación

    1

    ,061(a)

    ,004

    -,008

    ,050469

    a Variables predictoras: (Constante), Longitud

    Coeficientes(a)

    Modelo

    Coeficientes no estandarizados

    Coeficientes estandarizados

    t

    Sig.

    B

    Error típ.

    Beta

    1

    (Constante)

    ,077

    ,023

    3,307

    ,001

    Longitud

    -,001

    ,001

    -,061

    -,576

    ,566

    a Variable dependiente: Asimetria

    La recta de regresión sería:

    Y = 0,077 - 0,001 X

    El valor del coeficiente de determinación R2 = 0,004 indica que sólo el 0,4% de la variabilidad de la asimetría es explicada por su relación lineal con la longitud de las hojas.

    El valor del coeficiente de correlación r = 0,061 no denota una buena asociación lineal positiva entre ambas variables.

    Si planteamos el siguiente contraste para testar la significatividad de la variable independiente:

    H0 : 1 = 0

    H1 : 1 " 0

    Los datos obtenidos son:

    ANOVA(b)

    Modelo

    Suma de cuadrados

    gl

    Media cuadrática

    F

    Sig.

    1

    Regresión

    ,001

    1

    ,001

    ,332

    ,566(a)

    Residual

    ,224

    88

    ,003

    Total

    ,225

    89

    a Variables predictoras: (Constante), Longitud

    b Variable dependiente: Asimetria

    El p-valor = 0,566 es mayor que 0,05, por lo que no se rechaza la hipótesis nula de no linealidad del modelo, es decir, las variables no tienen relación lineal.

    El tercer objetivo es pronosticar a qué clima es más probable que pertenezca una hoja de encina a la cual se le midió la longitud y resultó ser 25,62 y su asimetría 0,072. Cuantificar la probabilidad de que la hoja sea de uno y otro clima. ¿Es una predicción fiable?

    Realizamos un análisis discriminante y obtenemos los siguientes datos:

    Resumen de las funciones canónicas discrimimantes

    Autovalores

    Función

    Autovalor

    % de varianza

    % acumulado

    Correlación canónica

    1

    ,154(a)

    100,0

    100,0

    ,365

    a Se han empleado las 1 primeras funciones discriminantes canónicas en el análisis.

    Si contrastamos H0: los centros son iguales

    H1 : los centros son distintos

    Lambda de Wilks

    Contraste de las funciones

    Lambda de Wilks

    Chi-cuadrado

    gl

    Sig.

    1

    ,867

    12,463

    2

    ,002

    A un nivel de significación de 0,05, el p-valor asociado al contraste = 0,002 es menor, por lo que se rechaza la hipótesis nula. Los centros no son iguales.

    Coeficientes estandarizados de las funciones discriminantes canónicas

    Función

    1

    Longitud

    ,342

    Asimetria

    ,975

    La función discriminante canónica es:

    D = 0,342 · longitud + 0,975 · asimetría

    Matriz de estructura

    Función

    1

    Asimetria

    ,940

    Longitud

    ,244

    Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes canónicas tipificadas Variables ordenadas por el tamaño de la correlación con la función.

    El valor 0,940 indica una relación positiva fuerte entre la asimetría y pertenecer a un grupo u otro.

    Coeficientes de las funciones canónicas discriminantes

    Función

    1

    Longitud

    ,061

    Asimetria

    20,550

    (Constante)

    -2,764

    Coeficientes no tipificados

    Las variables longitud y asimetría presentan una correlación positiva con la función. Hay que tener en cuenta la constante, por lo que la función será por tanto:

    D = 0,342 · longitud + 0,975 · asimetría - 2,764

    El que se clasifiquen en un grupo u otro dependerá de si se obtiene un valor menor o mayor que el punto de corte cuando se calcule la puntuación discriminante.

    Funciones en los centroides de los grupos

    Clima

    Función

    1

    1

    ,317

    2

    -,475

    Funciones discriminantes canónicas no tipificadas evaluadas en las medias de los grupos

    Estos son los valores discriminantes en el centro de cada grupo, lo que sirve para determinar el punto de corte de ambos grupos.

    0,317 - 0,475 = - 0,079

    2

    Estadísticos de clasificación

    Resumen del proceso de clasificación

    Procesados

    91

    Excluidos

    Código de grupo perdido o fuera de rango

    0

    Perdida al menos una variable discriminante

    0

    Usados en los resultados

    91

    'Fundamentos de Biología Aplicada'

    'Fundamentos de Biología Aplicada'

    En la tabla anterior se muestra para cada hoja, a qué grupo pertenece realmente, seguido del grupo pronosticado para el individuo. Los casos clasificados de forma incorrecta se señalan con **.

    'Fundamentos de Biología Aplicada'

    Se han clasificado correctamente el 65,6 % de los casos.

    De las 54 hojas de clima húmedo, 34 han sido clasificadas correctamente, y 20 de ellas las clasifica en el grupo 2 (clima seco).

    De las 36 hojas de clima seco, 25 han sido clasificadas correctamente, y 11 han sido clasificadas en clima húmedo.

    La clasificación de la última hoja es en el grupo 1 (clima húmedo) con una probabilidad del 57,17 %. La puntuación discriminante es 0,28525.

    La probabilidad de esta hoja de pertenecer al grupo 2 es de 42,83 %.

    A continuación se adjunta el archivo de datos, en el que se han agregado las siguientes columnas:

    dis_1: indica, para cada caso, el grupo pronosticado.

    dis1_1: indica la puntuación discriminante de cada caso según la función discriminante.

    dis1_2: indica la probabilidad de pertenencia al grupo 1.

    dis2_2: indica la probabilidad de pertenencia al grupo 2.