Mínimos cuadraos ordinarios

De Wikipedia
Saltar a navegación Saltar a la gueta

En estadística, los mínimos cuadraos ordinarios (MCO) o mínimos cuadraos lliniales ye'l nome d'un métodu p'atopar los parámetros poblacionales nun modelu de regresión llinial. Esti métodu embrive la suma de les distancies verticales ente les respuestes reparaes na amuesa y les respuestes del modelu. El parámetru resultante puede espresase al traviés d'una fórmula senciella, especialmente nel casu d'un únicu regresionador.

El métodu MCO, siempres y cuando se cumplan los supuestos clave, va ser consistente cuando los regresionadores sían exóxenos y nun haya perfecta multicolinealidad, este va ser óptimo na clase de parámetros lliniales cuando los errores sían homocedásticos y amás nun haya autocorrelación. Nestes condiciones, el métodu de MCO apurre un estimador insesgado de varianza mínima siempres que los errores tengan varianzas finitas. Sol camientu adicional de que los errores distribúyense de normal, el estimador MCO ye'l de máxima verosimilitud. Los MCO utilizar n'economía (econometría) y na inxeniería llétrica (teoría de control y procesamientu de señales), ente munches árees d'aplicación.

Modelu Llinial[editar | editar la fonte]

Ver tamién: Regresión llinial

Supongamos que los datos componer de n observaciones { yPlantía:El so, xPlantía:El so }Plantía:El so. Cada observación inclúi una respuesta yi angular y un vector de regresores o predictores xi. Nun modelu de regresión llinial la variable de respuesta ye una función llinial de p variables esplicatives:

.


onde β ye un vector de parámetros desconocíos 1 ; εi ye un angular de variables ensin reparar aleatories (errores) que dan cuenta de la discrepancia ente la realidá reparada yi y los "resultancies previstes" x′iβ, y denota la matriz trespuesta, de cuenta que x′ β ye'l productu angular ente los vectores x y el β. Esti modelu tamién puede escribise en notación matricial como

.


onde y y ε son vectores , y X ye una matriz de regresores n×p , a lo que tamién se -y llama la matriz de diseñu. Como regla xeneral, el términu constante inclúyese siempres nel conxuntu de regresores X, por casu, por aciu l'adopción dexi1 = 1 pa tou i = 1, …, n. El coeficiente β1 correspondiente a esti regresor llámase-y l'intercepto. Puede haber dalguna rellación ente los regresores. Por casu, el regresor terceru pue ser el cuadráu del segundu regresor. Nesti casu (suponiendo que'l primera regresor ye constante) tenemos un modelu de segundu grau nel regresor segundu. Pero esto inda se considera un modelu llinial, yá que ye llinial nes βs.

Supuestos clave[editar | editar la fonte]

Esisten trés supuestos que tienen de cumplise pa llevar a cabu una regresión llinial, estos son:

  1. La varianza de los errores tien de ser homocedastica.
  2. Les variables esplicatives tienen de ser ortogonales a les borrafes, esto ye, nun comparten información.
  3. Los errores nun tienen de tar correlacionados ente sigo.

Hai dellos distintos marcos nos que'l modelu de regresión llinial pueden ser tratáu col fin de faer que la téunica de MCO sía aplicable. Caúna d'estes configuraciones produz les mesmes fórmules y les mesmes resultancies, la única diferencia ye la interpretación y los supuestos qu'han d'imponese con cuenta de que'l métodu pueda dar resultancies significatives. La eleición de la estructura aplicable depende principalmente de la naturaleza de los datos a la mano, y na xera de inferencia que se tien que realizar.

Una de les llinies de diferencia na interpretación ye si tratar los regresores como variables aleatories, o como constantes predefinidas. Nel primer casu ("diseñu aleatoriu) los regresores de xi son aleatorios y tómense amueses del conxuntu colos yi de dalguna población, como nun estudiu observacional. Esti enfoque dexa un estudiu más natural de les propiedaes asintóticas de los estimadores. Na otra interpretación (diseñu fixu), los regresores de X trátense como constantes conocíes establecíes por un diseñu, y y se muestrea condicionalmente nos valores de X como nun esperimentu. A efeutos prácticos, esta distinción de cutiu escarez d'importancia, una y bones la estimación y la inferencia llevar a cabu mientres se condiciona en X. Tolos resultaos conseñaes nesti artículu atópense dientro del marcu de diseñu aleatoriu.

Modelu clásicu de regresión llinial[editar | editar la fonte]

El modelu clásicu centrar nes "amueses finitas" estimación y la inferencia, lo que significa que'l númberu d'observaciones n ye fixu. Esto oldea con otros enfoques, qu'estudien el comportamientu asintótico de OLS, y nel que'l númberu d'observaciones faise tender hasta l'infinitu.

  • Especificación Correcta. La forma funcional llinial especificóse correchamente.
  • Exogeneidad estricta..Los errores na regresión tienen de tener media condicionada cero.[1]
    La consecuencia inmediata de la hipótesis de exogeneidad ye que los errores han significar cero: Y[ε] = 0, y que los regresores nun tán correlacionadas colos errores: Y[X′ε] = 0. El supuestu de exogeneidad ye fundamental pa la teoría de MCO. Si caltiense entós les variables regresoras llámense exóxenu. Si nun ye asina, entós los regresores que tán correlacionadas col términu d'error llámense endóxenes,[2] y depués les estimaciones MCO dexen de ser válides. En tal casu, el métodu de variables instrumentales pueden utilizase pa llevar a cabu la inferencia.
  • Nun hai dependencia llinial.. Los regresores en X toos tienen de ser linealmente independientes. Matemáticamente esto significa que la matriz X tendrá de tener rangu de columna completa práuticamente segura.
    Polo xeneral, suponse tamién que los regresores tienen momentos finitos d'hasta siquier segundu. En tal casu, la matriz Qxx = Y [X'X / n] va ser finita y positiva semi-definíu. Cuando esta camientu viólase los regresores llámase linealmente dependiente o multicollinear perfectamente. En tal casu, el valor del coeficiente de regresión nun puede aprendese, anque predicción de los valores de y ye posible que los nuevos valores de les variables independientes que s'atopen nel mesmu subespacio linealmente dependientes.
  • Errores esféricos[2]
    onde A ye un n × n matriz d'identidá, y σ2 ye un parámetru que determina la varianza de cada observación. Esta σ2 considérase un parámetru molestia nel modelu, anque polo xeneral, envalórase. Si esti camientu viólase entós los estimadores MCO siguen siendo válidos, pero yá nun ye eficaz. Ye costume d'estremar esti camientu en dos partes:
    • Homocedasticidad :Y [εi2 | X] = σ2, lo que significa que'l términu d'error tien la mesma varianza σ2 en cada observación. Cuando esti requisitu viólase esto llámase heterocedasticidad, en tal casu, un estimador más eficiente sería mínimos cuadraos ponderaos. Si los errores tienen varianza infinita entós les estimaciones MCO tamién va tener varianza infinita (anque pola llei de los grandes númberos que sicasí se tienden escontra los valores verdaderos, siempres que los errores tienen media cero). Nesti casu, téuniques robustes d'estimación encamiéntense.
    • Autocorrelación non:los errores nun tán correlacionados ente observaciones: Y [εiεj | X] = 0 pa i ≠ j. Esti supuestu puede ser violáu nel contestu de los datos de series de tiempu, datos de panel, amueses de recímanu, datos xerárquicos, datos de midíes repitíes, datos llonxitudinales, y otros datos con dependencies. En tales casos, mínimos cuadraos xeneralizaos ufierta una meyor alternativa qu'el OLS.
    • Normality: Dacuando suponse, amás, que los errores tienen distribución normal multivariante distribución normal condicional nos regresores:
    Esti supuestu nun ye necesariu pa la validez del métodu OLS, anque ciertes amuesa adicionales finita propiedaes pueden establecese nel casu cuando lu fai (especialmente na área de les pruebes d'hipótesis). Tamién cuando los errores son normales, el estimador MCO ye equivalente a MLE de máxima probabilidá, y polo tanto ye asintóticamente eficiente na clase de tolos estimadores regulares.

    Independiente y hermano distribuyíu[editar | editar la fonte]

    En delles aplicaciones, especialmente con datos de corte tresversal, un supuestu adicional ye impuestu - que toles observaciones son independientes y hermano distribuyíes (iid). Esto significa que toles observaciones tomar d'una amuesa aleatoria que fai que tolos supuestos mentaos enantes sían más simples y más fáciles d'interpretar. Amás, esti marcu dexa establecer resultancies asintóticos (como'l tamañu de l'amuesa n → ∞), que s'entiende como una posibilidá teórica de dir tener nueves observaciones independientes de los datos nun procesu de xeneración de datos. La llista de les hipótesis nesti casu ye:

    • Observaciones iid: (xi, yi) son independientes ente si, y tien la mesma distribución, xj, yj) pa tou i ≠ j;
    • Hai multicolinealidad perfecta: Qxx = Y[ xix′i ] ye una matriz indefinida positiva ;
    • Endogeneidad: Y[ εi | xi ] = 0;
    • Heterocedasticidad: Var[ εi | xi ] ≠ σ2.

    Modelu de series de tiempu[editar | editar la fonte]

    • El procesu estocástico {xi, yi} ye estacionariu y ergódica ;
    • Los regresores tán predeterminados: Y[xiεi] = 0 for all i = 1, …, n;
    • La p×p matriz Qxx ye de rangu completu, y polo tanto definida positiva ;
    • {xiεi} ye una secuencia de diferencia martingala , con una matriz finita de segundos momentos Qxxε² = Y[ εi2xix′i ].

    Estimación[editar | editar la fonte]

    Supongamos que b ye un valor de "candidatu" pal parámetru β. La cantidá yixib denominar residual pa la i-ésima observación, mide la distancia vertical ente'l puntu de datos (xi, yi) y el hiperplano y = x′b, y polo tanto determinar el grau d'axuste ente los datos reales y el modelu. La suma de cuadraos de les borrafes (SSR) (tamién llamada la suma de cuadraos del error (ESS) o suma residual de cuadraos (RSS))[3] ye una midida del axuste del modelu xeneral:

    .


    onde T denota la matriz de transposición . El valor de b qu'embrive esta suma llámase'l estimador MCO de β. La función S (b) ye cuadrática en b con definida positiva de Hesse , y polo tanto esta función tien un mínimu global únicu en , Que puede ser dada pola fórmula esplícita:[4]

    o de manera equivalente en forma de matriz,

    Dempués envaloremos β, los valores afechos (o valores previstos) de la regresión se

    .


    onde P = X (X T X) -1 X T ye la matriz de proyeición nel espaciu xeneráu poles columnes de X. Esta matriz P tamién dacuando llámase la matriz sombreru porque "pon un sombreru" a la variable y. Otra matriz, estrechamente rellacionáu con P ye'l aniquilador matriz M = I n - P, tratar d'una matriz de proyeición sobre l'espaciu ortogonal a X. Tanto les matrices P y M son simétriques y idempotente (lo que significa que P 2 = P), y refiérense a la matriz de datos X al traviés d'identidaes PX y MX = X = 0. [7] Matriz M crea les borrafes de la regresión:

    L'usu d'estes borrafes puede envalorase el valor de σ2:

    El numberador, np, son los graos de llibertá estadísticos . La primer cantidá, s 2, ye la estimación OLS pa σ 2, ente que'l segundu, \ Scriptstyle \ hat \ sigma ^ 2 , Ye la estimación MLE pa σ 2. Los dos estimadores son abondo similares n'amueses grandes, el primeru ye siempres imparcial , ente que'l segundu ta sesgado, pero amenorga al mínimu l'error cuadrático mediu del estimador. Na práutica s 2 utilizar con más frecuencia, yá que ye más conveniente pa la prueba d'hipótesis. El raigañu cuadráu de 2 s denominar l'error estándar de la regresión (SER), o l'error estándar de la ecuación (VER).[5]

    Ye común pa evaluar la bondá del axuste de la regresión por mínimos cuadraos por aciu la comparanza de la cantidá de la variación inicial na amuesa puede amenorgase por aciu la regresión en X. El coeficiente de determinación R 2 defínese como una proporción de "esplicáu" varianza de la varianza "total" de la variable dependiente y: [8]

    onde TSS ye la suma total de los cuadraos de la variable dependiente, L = I n - 11 '/ n, y 1 ye una n × 1 vector d'unos. (L ye un "matriz de centráu", que ye equivalente a la regresión nuna constante;. A cencielles resta la media d'una variable) Con cuenta de que R2 sía significativu, la matriz X de datos sobre regresores tien de contener un vector columna d'unos pa representar la constante que'l so coeficiente ye l'intercepto de regresión. Nesi casu, R2 siempres va ser un númberu ente 0 y 1, con valores cercanos a 1 qu'indica un bon grau d'axuste.

    Modelu de regresión simple[editar | editar la fonte]

    Si la matriz de datos X contién namái dos variables: una constante, y un regresor angular x i, entós esto llámase'l "modelu de regresión simple". [9] Esti casu considérase de cutiu nes clases d'estadístiques pa primerices, yá que ufierta muncho más simple fórmules inclusive afechos pal cálculu manual. Los vectores de parámetros de tal modelu ye de 2 dimensiones, y se denota comúnmente como (α, β):

    Les estimaciones de mínimos cuadraos nesti casu vienen daes por fórmules simples

    Derivaciones alternatives[editar | editar la fonte]

    Nel apartáu anterior los mínimos cuadraos estimador \ Scriptstyle \ hat \ beta llogróse como un valor qu'embrive la suma de les borrafes al cuadráu del modelu. Sicasí, tamién ye posible llograr el mesmu estimador d'otros enfoques. En tolos casos la fórmula pa estimador MCO sigue siendo'l mesmu: ^ β = (X'X) 1 X'y, la única diferencia ta en cómo interpretamos esta resultancia.

    Referencies[editar | editar la fonte]