În ultimele decenii, creșterea gradului de conștientizare a faptului că unele dintre procedurile statistice cele mai comune (inclusiv cele care sunt optime în ipoteza de normalitate) sunt extrem de sensibile la abateri relativ mici de la ipoteze. De aceea, în prezent, există alte proceduri - (. Din limba engleză robust - puternic, sănătos, voinic) „robust“.
Ne referim prin robustețea pe termen insensibil la mici abateri de la ipoteze. Procedura este robust dacă mici abateri de la modelul asumat ar trebui să afecteze procedura (de exemplu, dispersia sau nivelul asimptotic de importanță și criteriul de putere) ar trebui să fie aproape de valorile nominale calculate pentru modelul asumat.
Luați în considerare robustețea distribuției. și anume situații în care funcția de distribuție adevărată este ușor diferit de modelul propus (de obicei, o funcție de distribuție Gauss). Acesta nu este doar cel mai important caz, dar, de asemenea, cel mai bine studiat. Mult mai putin se stie despre ce se întâmplă în acele situații în care mai multe rupte alte ipoteze statistice standard, și ce măsuri de siguranță trebuie să fie furnizate în astfel de cazuri.
Principalele tipuri de evaluări
Introducem evaluarea a trei tipuri principale (), respectiv, litere corespund tipului de probabilitate maximă estimată, combinații liniare ale statisticilor de ordine și scorurile obținute în criteriile de rang.
De o importanță deosebită sunt evaluarea este evaluarea cea mai flexibilă - recunosc generalizare directă la cazul Multiparametru.
Estimările probabilității maxime de tip (M-valoare)
Orice evaluare, definită ca soluție a problemei extremale privind minimul de specii
sau ca o soluție a ecuației implicite
în cazul în care - funcție arbitrară, numită o estimare (sau estimarea probabilității maxime de tip); rețineți că dacă este selectată în funcție, obținem de obicei estimarea probabilității maxime.
În special, suntem interesați în evaluarea forfecarea
Această din urmă Ecuația poate fi rescrisă sub forma echivalentă
Apoi putem oferi o estimare sub forma unei medii ponderate
cu coeficienți de greutate în funcție de probă.
combinații liniare ale statisticilor de ordine (L valoare)
Luați în considerare statisticile, care este o combinație liniară a statisticilor de ordine, sau valori de setare mai generale pentru anumite caracteristici:
Să presupunem că factorii de ponderare sunt generate prin utilizarea (alternativ) măsoară intervalul (0,1):
(Această Coeficienți de selecție totalul rezervelor neschimbate în greutate, adică ^ n „/>, și oferă coeficienți simetrice, dacă măsura este simetrică în raport cu punctul.)
În cazul în care estimarea rassmatrivaevom este obținută cu ajutorul funcțional
Aici, sub funcția inversă a distribuției ffunktsii este funcția
- Cel mai simplu exemplu este mostra mediana.
- medie Vinzorizovannoe (Winsorized medie). Pentru a calcula valorile eșantionului inițial sunt aranjate într-o anumită ordine (de exemplu, în creștere), apoi fiecare parte se taie un anumit procentaj de date (în mod tipic, ia 10% sau 25% pe fiecare parte este identic) și recoltate mod special selectate sunt înlocuite cu valori numerele rămase, apoi vyislyaetsya înseamnă pentru întregul eșantion.
- Trunchiat medie (trunchiat medie). Pentru a calcula acest număr de variații sunt mediate mostră de date după îndepărtarea de pe ambele părți ale unei anumite proporții de obiecte (este în intervalul de la 5 la 25%).
- medie Decupată (Trimean). Valoarea se calculează cu următoarea formulă „/> unde - quartilele ordinul i-lea.
Nu toate statisticile de ordine sunt robuste. Maxim, minim, mediu și jumătate din suma maximă și minimă nu sunt robuste, caracteristicile lor, care arată modul în care puteți schimba observația că acest lucru nu a afectat rezultatul final este egal cu 0. robuste estimări ale acestei caracteristici este de 50% în cazul medianei, și în alte mai puțin și depinde de procentul utilizat pentru tăiere de date.
Estimările obținute în criterii de rang (R-valoare)
Să considerăm un test de rang doi eșantion pentru a determina parametrul de deplasare lasa si sunt cele două eșantioane independente cu distribuții și sootvetstvenno.Obedinim proba într-un volum al eșantionului este .Pust rang în observația combinată a probei. Greutate cere. Criteriul pentru testarea ipotezei împotriva alternativa 0 „alt =“ \ Delta> 0 „/> se bazează pe statistici
Ca regulă generală, credem că greutățile obținute prin intermediul unei funcții formula
De fapt, ei preferă să lucreze cu următoarele opțiuni de calcul
Pentru a simplifica cred că din acest punct. Scriem statistici sub forma funcțională
care prin substituție devine
În practică, lucra cu acesta din urmă. În plus, lucrează cu condiția ca
În aceste ipoteze, așteptarea statisticilor în ipoteza nulă este 0.
Estimările privind trecerea două eșantion în formularea și trecerea în cazul unui eșantion pot fi obținute folosind următoarele teste de rang.
- În cazul a două eșantioane obținute din ecuația aproximativă „/> obținute pentru probele și
- În cazul unui eșantion obținut din condiția „/> calculat pentru proba, și. În acest caz, nu există nici un al doilea eșantion este o imagine în oglindă a probei originale.
Cu alte cuvinte, a doua proba este deplasată, atâta timp cât criteriul nu este perstala simt diferența de forfecare. Rețineți că o valoare zero în precizia nu poate fi atins, deoarece „/> - funcția discontinuă.
Astfel, estimarea noastră de offset obținut folosind ecuația funcțională determinată implicit
testul Wilcoxon, ceea ce conduce la estimări Hodges-Lehmann, și anume estimările și. Rețineți că orientarea noastră în al doilea caz duce la mediana mulțimea tuturor perechilor; Numai acele perechi sunt utilizate în exemplele de realizare mai tradiționale, în care
Controale constante gradul de robustețe, este bine să selecteze valorile din intervalul de 1 la 2, de exemplu, de multe ori.
Apoi, de pseudo "/> calculate valori noi" /> se potrivesc (și noi). Etapele se repetă până la convergență.
În cazul în care toate observațiile sunt destul de exacte, dispersia evaluare clasică are forma unei observații separat \ sum „/> și eroarea standard a reziduului poate, în acest caz, pentru a evalua valoarea s“ />, unde este elementul diagonal i-lea al matricei.
Când utilizați în conjuncție = y_i ^ reziduuri de resturi modificate -. „/>, După cum este ușor de văzut, se transformă subestimarea Aparut deplasare scară pot fi eliminate prin setarea (la o primă aproximare)
în care: - numărul de cazuri nici un număr de parametri, - număr constant de observații (= y_i „/>).
Este evident că această procedură efectul negates observații periferice.
In acest fel este posibil să se obțină o variantă solidă orice procedeu. În primul rând, datele „editat“ - substituit evoluat valorile de observare obținute în fiting și apoi realizați secvențial până la overfitting până când este afișată o convergență. Apoi, pentru a aplica procedura corectă de pseudo.
literatură
- P. Huber statistici robuste. - Mir 1984.
A se vedea. De asemenea, orientări privind utilizarea resurselor MachineLearning.ru în procesul de învățare.