Evaluación cuantitativa de la estanqueidad de la conexión según datos empíricos: coeficiente de determinación empírico, relación de correlación empírica. El coeficiente de determinación lo que mide - la fórmula

Varias métricas se utilizan para medir la fuerza de una relación. Con una conexión de par, la estanqueidad de la conexión está determinada, en primer lugar, por la relación de correlación, ĸᴏᴛᴏᴩᴏᴇ se denota por η. El cuadrado de la razón de correlación es ϶ᴛᴏ la razón de la varianza intergrupal del rasgo resultante, que expresa el efecto de las diferencias en el rasgo del factor de agrupación sobre el valor promedio del rasgo resultante, a la varianza total del rasgo resultante, que expresa el impacto de todas las causas y condiciones en él. El cuadrado de la relación de correlación se denomina comúnmente coeficiente de determinación.

ny fenómenos y sus signos: ________________ o rígidamente determinista

donde k es el número de grupos

N es el numero de observaciones

y i - valores iniciales de la característica efectiva

y j - valores promedio del atributo efectivo para este grupo

y es el valor promedio de la característica

f j es el tamaño del grupo

La fórmula anterior se utiliza al calcular el indicador de cercanía de la conexión para una agrupación analítica. Al calcular la relación de correlación por el nivel de comunicación, se utiliza la siguiente fórmula:

La suma de cuadrados en el numerador es ϶ᴛᴏ, explicada por la relación con el factor x (factores), la varianza de la característica resultante y. Se calcula a partir de los datos individuales obtenidos para cada unidad de la población en base a la ecuación de regresión.

Si la ecuación se elige incorrectamente o se comete un error al calcular sus parámetros, entonces la suma de cuadrados en el numerador puede ser mayor que en el denominador, y la razón perderá el significado que debería tener. Para evitar un resultado erróneo, es mejor calcular la razón de correlación usando la siguiente fórmula:

En la raíz de esta fórmula se encuentra la conocida regla para expandir las sumas de las desviaciones al cuadrado al agrupar la población:

D común= re intergr+D intragr

De acuerdo con esta regla, en lugar de la varianza intergrupal (factorial), puede usar la diferencia:

D común-D intragr

lo que da:

Cuando calculamos η no por agrupación, sino por la ecuación de correlación (ecuación de regresión), usamos la fórmula. En este caso, la regla de descomposición para la suma de las desviaciones al cuadrado de la característica resultante se escribe como

D total \u003d D núcleo + D resto

El punto más importante, ĸᴏᴛᴏᴩᴏᴇ ahora debe ser aprendido por cualquiera que quiera aplicar correctamente el método de análisis de correlación-regresión, es la interpretación de las fórmulas (1.2) y (1.3). Esta disposición dice:

La ecuación de correlación mide la relación entre la variación de la característica resultante y la variación de la(s) característica(s) del factor. Las medidas de estanqueidad de la conexión miden la proporción de la variación de la característica resultante, que está asociada con la variación del factor característica (características).

Relación de correlación empírica - concepto y tipos. Clasificación y características de la categoría "Relación de correlación empírica" ​​2017, 2018.

El análisis de correlación implica medir la cercanía de la conexión utilizando el coeficiente de correlación y la relación de correlación. Con una forma lineal de dependencia, la fuerza de la conexión se estima por Coeficiente de correlación de Pearson :

El coeficiente de correlación varía de (- 1) a (+ 1), (– 1 r 1).

Un signo negativo del indicador indica una retroalimentación, un signo positivo indica una conexión directa. Cuanto más cerca esté el valor del indicador a uno, en valor absoluto, más fuerte será la conexión, cuanto más cerca de cero, más débil será la conexión.

Para medir la fuerza de la conexión con cualquier forma de dependencia, tanto lineal como no lineal, así como para evaluar la conexión múltiple, aplicar correlación teórica (índice de correlación). Su cálculo se basa en la regla de la suma de varianzas:

dónde varianza total - refleja la variación de la característica efectiva debida a todos los factores que actúan sobre ella;

o

varianza de factores , refleja la variación de la característica efectiva debida al factor (X).

dispersión residual , refleja la variación de la característica efectiva debido a todos los factores excepto al factor (X);

Relación de correlación teórica es la raíz cuadrada de la razón de la varianza factorial a la varianza total:

expresión raíz - coeficiente de determinación :

muestra la proporción de la variación del rasgo resultante, debido a la influencia del factor rasgo, en la variación total. Cuanto mayor sea esta proporción, más fuerte será la relación entre las características.

Relación de correlación teórica cambia de 0 a 1 (0 R 1) .El valor del indicador es más cercano a uno, cuanto más fuerte es la relación.

Para evaluar la fuerza de la relación, puede utilizar escala H eddoka:

La principal tendencia de desarrollo y métodos para su detección.

Cada fila de dinámica tiene su propia tendencia de desarrollo, es decir la dirección general hacia un aumento, disminución o estabilización del nivel del fenómeno a lo largo del tiempo. La severidad de esta tendencia depende de la influencia de factores constantes, periódicos (estacionales) y aleatorios sobre los niveles de la serie dinámica. Por lo tanto, uno debe hablar no solo sobre la tendencia de desarrollo, sino sobre la tendencia principal.

La principal tendencia de desarrollo (tendencia) se llama un cambio suave y estable en el nivel del fenómeno en el tiempo, libre de fluctuaciones periódicas y aleatorias.

Para identificar una tendencia, las series de dinámicas son procesadas por los métodos de ampliación de intervalos, promedio móvil y alineación analítica.

Método de engrosamiento por intervalos se basa en la consolidación de periodos de tiempo, que incluyen los niveles de una serie de dinámicas. Para hacer esto, los datos originales se combinan, es decir. resumidos o promediados durante intervalos de tiempo más largos hasta que la tendencia de desarrollo general se vuelve suficientemente clara. Por ejemplo, los datos diarios sobre la producción se combinan en datos de diez días, los datos mensuales en datos trimestrales, los datos anuales en datos de varios años. La ventaja del método es su simplicidad. La desventaja es que la serie suavizada es mucho más corta que la original.

método de promedio móvil consiste en que, a partir de los datos iniciales, se calculan medias móviles a partir de un determinado número de primeros niveles de la serie, primero seguidos, luego a partir del mismo número de niveles, a partir del segundo, del tercero , etc. El valor promedio, por así decirlo, se desliza a lo largo de la serie dinámica, moviéndose en un intervalo. Los promedios móviles suavizan las fluctuaciones aleatorias.

Esquema para calcular el promedio móvil de 3 niveles

Intervalo de tiempo

(número en orden)

Niveles reales de series dinámicas

a i

medias móviles

a sk

a 1

a 2

a 3

a 4

a sc3

a 5

a sc4

a 6

La serie suavizada de dinámica es más corta que la original por el valor (l - 1), si la ampliación se realiza sobre un número impar de niveles, donde yo es la duración del período de ampliación. Por ejemplo, si yo = 3, entonces la fila alineada es 2 niveles más corta. Así, la serie suavizada no es mucho más corta que la original.

Método de alineación analítica consiste en sustituir los niveles reales de la serie temporal por sus valores teóricos calculados en base a la ecuación de tendencia:

Los parámetros de la ecuación se calculan método de mínimos cuadrados:

dónde a– niveles reales; a ti son los niveles alineados (calculados) que les corresponden en el tiempo.

Si el desarrollo se lleva a cabo en una progresión aritmética (con incrementos absolutos de igual cadena), entonces función lineal:

Si hay una dinámica en la progresión geométrica (con tasas de crecimiento de cadena iguales), entonces es necesario usar funcion exponencial:

a t = un 0 a 1 t .

Si el desarrollo ocurre con tasas de crecimiento iguales, se usa con función de potencia, por ejemplo de segundo orden (parábola):

a t = un 0 + un 1 t+ un 2 t 2 .

El criterio para la elección correcta de la ecuación de tendencia es error de aproximación . Representa la desviación estándar de los niveles reales de la serie dinámica de los teóricos:

La ecuación con el menor error de aproximación se considera óptima.

Considere la “técnica” para nivelar la serie de tiempo de acuerdo con función lineal:


dónde a 0 , a 1 son los parámetros de la ecuación de la línea recta; t- indicadores de tiempo (por regla general, el número de serie del período o punto en el tiempo).

Parámetros de línea a 0 y a 1 , que satisfacen el método de los mínimos cuadrados, se encuentran resolviendo el siguiente sistema de ecuaciones normales:

dónde norte es el número de niveles de la serie dinámica; parámetro a 1 corresponde al incremento absoluto promedio.

Para simplificar el cálculo de los indicadores de tiempo.
se le pueden dar valores tales que
, después

Para ello, en filas con un número impar de niveles, se toma como inicio de la referencia temporal el intervalo central, donde t igualar a cero. En ambos lados del cero, hay respectivamente filas de números naturales negativos y positivos, por ejemplo:

Intervalo de tiempo

(número en orden)

t i

Para un número par de niveles, el conteo se realiza a partir de dos intervalos centrales, en los que t igualado a (-1) y (+1) respectivamente, y en ambos lados hay filas de números impares negativos y positivos, por ejemplo:

Intervalo de tiempo

(número en orden)

t i

Esquema para calcular los parámetros de una ecuación lineal.

Intervalos de tiempo

Niveles de series dinámicas

a i

t i

i t 2

a i t i

a ti

Con base en la ecuación de tendencia calculada, es posible producir extrapolación – encontrar niveles probabilísticos (proyectados) fuera de la serie inicial de dinámicas.

Relación de correlación empírica

La cercanía o la fuerza de una relación entre dos características se puede medir mediante un indicador llamado relación de correlación empírica. Este indicador se denomina empírico, ya que puede calcularse sobre la base de la agrupación habitual por factor y atributo resultante, es decir, sobre la base de una tabla de correlación. La correlación empírica se obtiene de la regla de suma de varianzas, según la cual , donde
- varianza total;
- dispersión intergrupal;
- dispersión intragrupo (promedio de privados). La varianza intergrupal es una medida de la fluctuación debida a un rasgo de factor. El promedio de las varianzas parciales es una medida de la fluctuación debida a todas las demás características (excepto factoriales). Entonces, la relación expresa la parte de la fluctuación que surge debido al signo del factor en la fluctuación total. La raíz cuadrada de esta relación se denomina relación de correlación empírica:
.

Esto implica la regla de que cuanto mayor es la varianza intergrupal, más fuerte es el rasgo del factor que afecta la variación del rasgo resultante. Las proporciones de los componentes de las varianzas se calculan a partir de los datos de la tabla de correlación utilizando las siguientes fórmulas:

;
,

donde están los promedios privados; - promedio general; - totales por característica ; - totales por característica ;
- número de observaciones. La misma relación se mantiene para los valores condicionales
, obtenido por transformación numérica .

La relación de varianza en sí (expresión radical) se denomina coeficiente de determinación (también es igual al cuadrado de la relación de correlación empírica). La relación de correlación empírica varía en un amplio rango (de 0 a 1). Si es igual a cero, entonces el signo del factor no afecta el signo de la correlación. si un =1, lo que significa que el signo resultante depende completamente del factor uno. Si la relación de correlación empírica es una fracción cercana a uno, entonces hablan de una estrecha relación entre las características factorial y efectiva. Si esta fracción es pequeña (cerca de cero), entonces se habla de una conexión débil entre ellos.

Coeficiente de correlación lineal e índice de correlación

Una medida de la cercanía de la relación entre dos características relacionadas estadísticamente es el coeficiente de correlación lineal o simplemente el coeficiente de correlación. Tiene el mismo significado que la relación de correlación empírica, pero puede tomar valores tanto positivos como negativos. El coeficiente de correlación tiene una expresión matemática estricta para una relación lineal. Un valor positivo indicará una relación directa entre las características, un valor negativo indicará lo contrario.

El coeficiente de correlación de pares en el caso de una forma lineal de comunicación se calcula mediante la fórmula

,

y su valor de muestra - según la fórmula

Con un número pequeño de observaciones, es conveniente calcular el coeficiente de correlación de la muestra mediante la siguiente fórmula:

El valor del coeficiente de correlación cambia en el intervalo
.

A
existe una relación funcional entre las dos variables, cuando
- Conexión funcional directa. si un
, entonces los valores de X e Y en la muestra no están correlacionados; si el sistema de variables aleatorias
tiene una distribución normal bidimensional, entonces las cantidades X e Y también serán independientes.

Si el coeficiente de correlación está en el intervalo
, entonces existe una correlación inversa entre X e Y. Esto también se confirma mediante el análisis visual de la información inicial. En este caso, la desviación de Y del valor medio se toma con el signo contrario.

Si cada par de valores X e Y suele estar simultáneamente por encima (por debajo) de los valores medios correspondientes, entonces existe una correlación directa entre los valores y el coeficiente de correlación está en el intervalo
.

Si, por otro lado, la desviación del valor de X del valor medio provoca con la misma frecuencia desviaciones del valor de Y hacia abajo del valor medio, y las desviaciones son todo el tiempo diferentes, entonces podemos suponer que el valor de el coeficiente de correlación tiende a cero.

Cabe señalar que el valor del coeficiente de correlación no depende de las unidades de medida y la elección del punto de referencia. Esto significa que si las variables X e Y se reducen (aumentan) K veces o por el mismo número C, entonces el coeficiente de correlación no cambiará.

Para simplificar el cálculo de la medida de estrechez de correlación, a menudo se utiliza el índice de correlación, que se determina mediante las siguientes fórmulas:

,
,

dónde
- varianza residual, que caracteriza la variación del atributo resultante bajo la influencia de otros factores no contabilizados.

Correlación Múltiple

Correlación múltiple: la dependencia de la resultante y dos o más características de los factores incluidos en el estudio. Un indicador de la cercanía de la relación entre la resultante y dos o más características del factor se denomina coeficiente de correlación múltiple o acumulativo y se denota por R. El coeficiente acumulativo implica la presencia de una relación lineal entre cada par de características, que puede ser expresado mediante coeficientes de correlación apareados. Si existe una medida acumulativa de la estrechez de la relación entre la característica efectiva () y las características de dos factores (y ), entonces el cálculo del coeficiente de correlación acumulado se realiza de acuerdo con la fórmula:

,

Donde los subíndices indican entre qué características se está estudiando la relación de pareja.

En las fórmulas para calcular los coeficientes de correlación apareados, solo cambian los símbolos que indican uno u otro factor. Entonces, si el coeficiente de correlación entre y se calcula mediante la fórmula , entonces el coeficiente de correlación entre y se calcula: ; entre y - entonces:

parte de liquidación

Tarea 31

    Los siguientes datos están disponibles para diez empresas para el período del informe:

Tabla 2

Empresas

Coste medio anual de los activos fijos de producción, millones de rublos.

Salida, millones de rublos

Para estudiar la relación entre el tamaño del costo anual promedio de los activos fijos y la producción, calcule la ecuación de relación lineal.

2. Con base en los datos proporcionados: a) calcular: coeficiente de correlación lineal; b) verificar la corrección de la elección de la forma de comunicación mediante el cálculo del índice de correlación.

    Usando el procesador de hojas de cálculo Microsoft Excel, construiremos una hoja de trabajo:

Tabla 3

Cálculo de sumas para calcular los parámetros de la ecuación de una línea recta.

239.74 *1236 = 539.1 distribuciones de probabilidad... económico análisis, resuelto sobre la base de regresión económico modelos Consideremos y - un signo efectivo, y x - signos de factores. Métodos correlativamente-regresión análisis ...

  • El programa de la disciplina "Métodos informáticos para el análisis de datos sociológicos" (Introducción a la estadística matemática y el análisis de datos) Para la dirección 040200. 68 "Sociología"

    programa de disciplina

    Aplicaciones. 11 3 2 6 Dispersivo análisis 9 2 2 5 Doble y múltiplo regresivo análisis 9 2 2 5 Propiedades de los coeficientes... por usuario de SPSS 11.0 Siskov V.I. correlación análisis en económico investigar. M. 1975. Eddous M., Stansfield...

  • G. L. Savitskaya análisis de la actividad económica de la empresa.

    Documento

    Excelencia, Últimas Técnicas económico investigar. Análisis debe ser complejo. La complejidad de la investigación... en el nivel de rendimiento medio por hora correlativamente-regresivo análisis. en un multifactorial correlación modelo de producción horaria media...

  • La relación de correlación empírica mide cuánto de la fluctuación total del atributo resultante es causado por el factor estudiado. La media de correlación empírica oscila entre 0 y 1.

    Una correlación empírica generalmente se encuentra en los siguientes tipos de problemas:

    • 1) cuando es necesario producir una agrupación analítica para dos series de datos X e Y
    • 2) ya se hizo la agrupación, es necesario verificar la regla para agregar varianzas
    • 3) para dos series de datos X e Y, es necesario encontrar la ecuación de regresión y evaluar su significado

    Fórmula de varianza de función alternativa

    Con base en lo anterior, podemos derivar una fórmula para encontrar la varianza de una característica alternativa si conocemos el porcentaje de dicha característica en la muestra total.

    Inicialmente, asumimos que la función toma solo dos valores.

    Así, la suma de la proporción de elementos en la que los elementos de la serie estadística tienen el valor de atributo "no" y los elementos de la serie que tienen el valor de atributo "sí" es igual a uno.

    Para encontrar el valor promedio de la serie, sustituimos los valores de características alternativas (0 y 1) en la fórmula para encontrar el valor promedio ponderado de la serie estadística. De donde, obviamente, habrá una unidad en el denominador, y el valor porcentual de los elementos "1" en el numerador. Es decir, exactamente el valor porcentual de los elementos con el atributo "1". (Fórmula 2)

    La fórmula de la varianza es el promedio ponderado de las desviaciones al cuadrado de cada valor en la serie de datos. (Fórmula 3)

    Dado que en nuestra serie los datos tienen solo dos tipos de valores: "0" y "1", la fórmula para encontrar la varianza de una serie con una característica alternativa se reduce a la Fórmula 4. Explicación. como acabamos de deducir que la media muestral es igual a p (Fórmula 2), entonces el valor del cuadrado de la diferencia entre el valor (0/1) y el valor medio, según la Fórmula 1, será (1- p)2 en el primer caso, y en el segundo caso (1-q)2, aplicando ahora el corolario de la primera fórmula: q = 1 - p, p = 1- q . Obtenemos p2 y q2. En consecuencia, la proporción de los valores "0" y "1" es igual a p y q, como resultado, en el numerador y resulta q2 p y p2 q. La suma de las cuotas de características de los valores "0" y "1" según la Fórmula 1 es igual a 1. Como resultado, la Fórmula 4 toma el valor pq, que será igual al valor de la varianza de la característica alternativa. Con base en el valor encontrado de la varianza de la característica alternativa, encontraremos la desviación estándar (Fórmula 5). Poniendo el valor de la fórmula 1 en la fórmula 5, obtenemos la fórmula de desviación estándar para la varianza de una serie con una característica alternativa.

    Relación de correlación empírica

    La cercanía o la fuerza de una relación entre dos características se puede medir mediante un indicador llamado relación de correlación empírica. Este indicador se denomina empírico, ya que puede calcularse sobre la base de la agrupación habitual por factor y atributo resultante, es decir, sobre la base de una tabla de correlación. La razón de correlación empírica se obtiene de la regla de suma de varianzas, según la cual , donde es la varianza total; - dispersión intergrupal; - dispersión intragrupo (promedio de privados). La varianza intergrupal es una medida de la fluctuación debida a un rasgo de factor. El promedio de las varianzas parciales es una medida de la fluctuación debida a todas las demás características (excepto factoriales). Entonces, la relación expresa la parte de la fluctuación que surge debido al signo del factor en la fluctuación total. La raíz cuadrada de esta razón se llama razón de correlación empírica: .

    Esto implica la regla de que cuanto mayor es la varianza intergrupal, más fuerte es el rasgo del factor que afecta la variación del rasgo resultante. Las proporciones de los componentes de las varianzas se calculan a partir de los datos de la tabla de correlación utilizando las siguientes fórmulas:

    ; ,

    donde están los promedios privados; - promedio general; - totales sobre la base de ; - totales sobre la base de ; - número de observaciones. La misma relación se mantiene también para los valores condicionales recibidos por transformación numérica.

    La relación de varianza en sí (expresión radical) se denomina coeficiente de determinación (también es igual al cuadrado de la relación de correlación empírica). La relación de correlación empírica varía en un amplio rango (de 0 a 1). Si es igual a cero, entonces el signo del factor no afecta el signo de la correlación. Si =1, entonces el signo resultante depende completamente del factor uno. Si la relación de correlación empírica es una fracción cercana a uno, entonces hablan de una estrecha relación entre las características factorial y efectiva. Si esta fracción es pequeña (cerca de cero), entonces se habla de una conexión débil entre ellos.



    ¿Te gustó el artículo? ¡Compartir con amigos!