» Sadə xətti reqressiya. Parametr təxminləri. Reqressiyanın əhəmiyyətinin yoxlanılması. Nümunələr. "Xətti" reqressiya haqqında bir neçə söz Sadə nümunə xətti reqressiyanın xüsusiyyətləri

Sadə xətti reqressiya. Parametr təxminləri. Reqressiyanın əhəmiyyətinin yoxlanılması. Nümunələr. "Xətti" reqressiya haqqında bir neçə söz Sadə nümunə xətti reqressiyanın xüsusiyyətləri

Riyazi modelləşdirmənin əsas prosedurları

Təxminən

Təxminən, və ya yaxınlaşma - elmi metod, bəzi obyektlərin başqaları ilə əvəz edilməsindən ibarət olan, bu və ya digər mənada orijinala yaxın, lakin daha sadə.

Riyazi modelləşdirmədə yaxınlaşma iki versiyada istifadə olunur:

1) obyektiv reallığı ayrı-ayrı nöqtələr şəklində əks etdirən eksperimental məlumatlar mövcuddur və onları hamar funksiya kimi təqdim etmək tələb olunur ki, bu da bu obyektiv eksperimental məlumatları əks etdirən riyazi model olacaq;

2) artıq bəzi ilkin riyazi model mövcuddur, lakin elə bir riyazi model yaratmaq lazımdır ki, bir tərəfdən orijinaldan daha sadə, digər tərəfdən isə oxşar (müəyyən məhdudiyyətlər daxilində) olsun. o.

Ümumi halda, yaxınlaşma funksiyasının seçimi əsasən təsvir olunan prosesin fizikası ilə müəyyən edilir.

Tez-tez yaxınlaşma problemi ya xəttiləşdirməyə, ya da xətti reqressiyaya endirilir.

Riyaziyyat çoxşaxəlidir və onda siz həm riyazi modeli tapa bilərsiniz, onun daxilində bir yaxınlaşma bloku, həm də bütünün yaxınlaşması var. riyazi model. Birincisi başa düşüləndirsə və izahat tələb etmirsə, ikincinin nümunəsi, məsələn, nadir bir fəlakət hadisəsinin yaxınlaşmasıdır, burada fenomen özü mürəkkəb riyazi model ilə təsvir olunur.

Xəttiləşdirmə

Xəttiliyin faydaları o qədər böyükdür ki, qeyri-xətti əlaqələrin xətti olanlarla, qeyri-xətti modellərin xətti olanlarla təxmini əvəz edilməsi, yəni. xəttiləşdirmə münasibətlər, modellər və s. modelləşdirmədə çox yayılmışdır.

Əvvəlcə xəttiləşdirmənin ən çox istifadə olunan iki halını nəzərdən keçirin: ya təcrübə göstərirsə (məsələn, Hooke qanunu üçün) nəzərdən keçirilən diapazonda xəttilikdən kənarlaşma ab dəyişənlərin dəyişməsi kiçik və əhəmiyyətsizdir (şək. 1a), ya da nöqtənin yaxınlığında funksiyanı xəttiləşdirmək lazımdır. a(Şəkil 1b).

Birinci halda, istifadə olunur xətti interpolyasiya, və ikincidə Teylor seriyasından istifadə edərək xəttiləşdirmə.




Xətti interpolyasiya

Problem iki nöqtədən keçən düz xəttin tapılmasına qədər azaldılır:


Taylor seriyası ilə xəttiləşdirmə

Bu halda funksiya y(x) nöqtənin yaxınlığında bir Taylor seriyasına qədər genişlənir a(Şəkil 1b):

(2)-dəki ikinci termin funksiyanın diferensialıdır y(x) nöqtədə a.

Misal. Orijinal riyazi model kvadrat trinomialdır:

Nöqtə yaxınlığında bu modeli xəttiləşdirmək lazımdır x=2.

Həll. (3) ilə tapırıq: =4. törəmə

nöqtədə x=2 bərabərdir: =3, sonra xəttiləşdirilmiş model

Hesablamaların nəticələrini (3) və (4) düsturları ilə müqayisə edək:

Cədvəl 1

Gördüyünüz kimi, kiçik sapmalar üçün səhvlər əhəmiyyətsizdir.

Bundan əlavə, model (4) (3) daha sadədir, lakin bu yanaşmanın dezavantajı dəyərdə əhəmiyyətli dəyişikliklə əmsalların yenidən hesablanması (əslində başqa bir model qurmaq) ehtiyacıdır. x(məsələn, nə vaxt x=3).

Xətti reqressiya

Ümumi müddəalar

Gördüyümüz kimi, riyazi statistika hər hansı təcrübə nəticəsində alınan məlumatların emalı ilə məşğul olur. Xüsusilə, bu, kəmiyyətdən asılılıqdır Y dəyərdən X təyyarədəki nöqtələr toplusu kimi ( x i , y i), i= 1, …, n (şək. 3). Lakin bu asılılıq birmənalı olmayacaq (yəni. funksional ), Olacaq ehtimala əsaslanan( və ya stokastik ), çünki, ümumi halda, və YX- təsadüfi dəyişənlər.

Funksional əlaqələr abstraksiyalardır, real həyatda nadir hallarda rast gəlinir, lakin dəqiq elmlərdə və ilk növbədə riyaziyyatda geniş istifadə olunur. Məsələn: dairənin sahəsinin radiusdan asılılığı: S=π∙ r 2

Adətən, arasında stokastik bir əlaqə ilə XY bir dəyər müstəqil hesab olunur ( X), ikincisi ( Y) - birincidən asılı olaraq və asılı dəyişən təsadüfi dəyişən kimi davranır və bəzi ehtimal paylama qanunu ilə təsvir edilə bilər.

Terminologiya asılımüstəqil dəyişənlər səbəb-nəticə əlaqələrini deyil, yalnız dəyişənlərin riyazi asılılığını əks etdirir.

Ehtimal əlaqəsinin xüsusiyyətlərini nəzərə alaraq, bu kəmiyyətlər (daha doğrusu, işarələr) çox vaxt adlanır. faktorial ( başqalarında dəyişikliklərə səbəb olur ) , və ya sadəcə amillər, Və məhsuldar(amil xüsusiyyətlərinin təsiri altında dəyişən).


Stokastik asılılıq anlayışının yaranması kəmiyyətlərin idarə olunmayan və ya nəzərə alınmayan amillərin təsirinə məruz qalması, eləcə də dəyişənlərin qiymətlərinin ölçülməsinin qaçılmaz olaraq bəzi təsadüfi səhvlərlə müşayiət olunması ilə bağlıdır. Yəni tədqiq olunan sistem müəyyən bir vəziyyətə deyil, onun üçün mümkün vəziyyətlərdən birinə keçir. Stokastik əlaqə, bir təsadüfi dəyişənin digərinin dəyişməsinə öz paylanma qanununu dəyişdirərək reaksiya verməsidir.

Stokastik əlaqənin xüsusi bir vəziyyəti korrelyasiya , hansı dəyişiklik ortalama dəyər effektiv əlamətin səbəbi faktor əlamətlərinin dəyişməsi ilə əlaqədardır.

Buna görə də, eyni təcrübəni apararkən, bir az fərqli cütlər dəsti əldə edə bilərik ( x i , y i) (şəkil 4-də qırmızı nöqtələr) təcrübədə görünən kəmiyyətlərin təsadüfi olması ilə əlaqədardır.


Belə şərh edilə bilər ki, məsələn, 3-cü şəkil bir növ "foto"dur, amma əslində nöqtələr ( x i , y i), təsadüfi amillərə görə qrafikdə başqa bir yer tuta bilər.

Stokastik əlaqə modeli tənlik ilə ümumi formada təmsil oluna bilər: ŷ i = ƒ(x i) + e i , harada:

  • f(x i) - əlamətlə stoxastik əlaqədə olan, nəzərə alınan məlum faktor əlamətlərinin (bir və ya bir neçə) təsiri altında formalaşan təsirli əlamətin bir hissəsi;
  • ŷ i - effektiv xüsusiyyətin hesablanmış dəyəri;
  • e i - idarə olunmayan və ya uçota alınmayan amillərin təsiri, habelə xüsusiyyətlərin ölçülməsi nəticəsində əmələ gələn effektli əlamətin istər-istəməz bəzi təsadüfi xətalarla müşayiət olunan hissəsi.

Müqayisə edin: funksional əlaqə modeli:

Müxtəlif bölmələr riyazi statistika müxtəlif tapşırıqlara uyğun olaraq təsadüfi dəyişənlərin emalına həsr olunmuş, məsələn, seçmənin parametrlərinin hesablanması baxımından və ya - seçmə parametrləri ilə ümumi kütlənin parametrləri arasındakı fərq və s. Reqressiya təhlili (RA) həm də riyazi statistikanın bir bölməsidir və təsadüfi dəyişənlər öz mövqelərindən işlənir, yəni:

reqressiya təhlilibu X və Y qiymətləri arasında asılılıq formalarını müəyyən edir.Belə asılılıq bir neçə naməlum parametrləri ehtiva edən bəzi riyazi model (reqressiya tənliyi) ilə müəyyən edilir.(Şəkil 5-də qırmızı xətlər).



Ən çox ümumi vəzifə RA: bir-biri ilə stoxastik əlaqəsi olan eksperimental məlumatlar üçün seçin ən adekvat qrafik olaraq müəyyən bir xətt olan reqressiya tənliyi şəklində riyazi model.

Qeyd edək ki, stoxastik asılılıqların öyrənilməsində RA ilə yanaşı, korrelyasiya təhlilindən də istifadə olunur.

"Ən adekvat riyazi model" ifadəsi aşağıdakı müddəalara uyğun olaraq başa düşülməlidir.

Hər bir xüsusi dəyər üçün x i, sabit dəyər istisna olmaqla y i miqdarlar Y, kəmiyyətin bir neçə başqa dəyəri də var Y(təsadüfiliyinə görə): , buna görə orta dəyər haqqında danışa bilərik:

Əgər dəyər x təsadüfi deyil (kiçik hərflə qeyd olunan qeyri-təsadüfi kəmiyyətlərdir), onda Cədvəl 2-ə uyğun asılılıq birmənalı və arzu olunandır. Ən ciddi versiyada, dəyərlər arasında olan müəyyən bir ümumi əhalidən danışırıq Yx kəmiyyətin MO arasında bir asılılıq və konkret olaraq bir asılılıq var Y və böyüklük x, bu Cədvəl 2-də öz əksini tapmışdır. Amma fakt budur ki, biz bütün dəyərlər toplusunu bilmədiyimiz üçün bu asılılıq nəzəri əhəmiyyət kəsb edir y i 1 , y i 2 , y i 3 ,… y in, lakin ona ən yaxın reqressiya tənliyi ən adekvat olacaqdır.

Reqressiya - bu, orta qiymətdən asılılıqdır (daha doğrusu, riyazi gözlənti) təsadüfi dəyişən Y dəyərdən x.

RA-da seçim X-in dəyəri təsadüfi olduqda (təsadüfi qiymətlər böyük hərflərlə işarələnir) nəzərə alınır, sonra Y təsadüfi dəyişənin orta dəyərinin dəyərin orta dəyərindən asılılığı haqqında danışacağıq. X (mənim - çek).

RA bir neçə mərhələdən ibarətdir:

§ reqressiya tənliyinin seçimi (riyazi model);

§ bu modelin naməlum parametrlərinin qiymətləndirilməsi;

§ Statistik qiymətləndirmə xətaları və ya etimad intervallarının sərhədləri müəyyən edilir;

§ qəbul edilmiş riyazi modelin eksperimental məlumatlara uyğunluğu yoxlanılır.

Sadə xətti reqressiya

Sadə Xətti Reqressiya (SLR) asılı dəyişən olduqda baş verir Y bir qiymətlə müəyyən edilir x. Bu halda, PLR tənliklə ifadə edilir (Şəkil 6):

. (6)

Burada təsadüfi dəyişənin MO o deməkdir Y kəmiyyətin sabit dəyəri ilə müəyyən edilir x.


PLR-nin əsas fərziyyəsi:

Eksperimental məlumatların əldə edildiyi ümumi populyasiyada həqiqətən xətti reqressiya var, yəni. asılı təsadüfi dəyişən Y müstəqil kəmiyyətin istənilən dəyəri üçün x(6) formasının xətti funksiyasıdır.

Misal 1 PLR.(İvanovun dərsliyindən). Dirəklə tullanma üzrə dünya rekordları:


Şəkil 7

Qrafik olaraq:

Şəkil 8

Cazibədar: proqnoz verə bilərsiniz (yoxlayın!).

25.07.16 İrina Anichina

51850 0

Bu yazıda yüksək keyfiyyətli bir model qurduğumuzu necə başa düşməyimiz barədə danışacağıq. Axı bu, bizə yüksək keyfiyyətli proqnozlar verəcək yüksək keyfiyyətli modeldir.

Prognoz Platforması tikinti və təhlil üçün geniş modellər siyahısına malikdir. Hər bir modelin öz xüsusiyyətləri var və müxtəlif şərtlər altında istifadə olunur.

"Model" obyekti aşağıdakı reqressiya modellərini qurmağa imkan verir:

  • Xətti reqressiya (qiymətləndirmə ilə ən kiçik kvadratlar);
  • Xətti reqressiya (instrumental dəyişənlər üsulu ilə qiymətləndirmə);
  • İkili Seçim Modeli (Maksimum Ehtimal Qiymətləndirilməsi);
  • Qeyri-xətti reqressiya (təxmin qeyri-xətti üsulən kiçik kvadratlar).

Xətti reqressiya modelindən başlayaq. Deyilənlərin çoxu digər növlərə də aid olacaq.

Xətti reqressiya modeli (OLS qiymətləndiricisi)

harada y- izahlı seriyalar, x 1 , …, x k- izahlı sıralar, e model xətası vektorudur, b 0 , b 1 , …, b k modelin əmsallarıdır.

Bəs hara baxmaq lazımdır?

Model əmsalları

Müəyyən edilmiş tənlik panelindəki hər bir əmsal üçün bir sıra statistik məlumatlar hesablanır: standart səhv,t-statistika, əmsalı əhəmiyyətlilik ehtimalı. Sonuncu ən universaldır və müəyyən bir əmsala uyğun gələn amilin modeldən çıxarılmasının hansı ehtimalla əhəmiyyətli olmayacağını göstərir.

Paneli açırıq və sonuncu sütuna baxırıq, çünki əmsalların əhəmiyyəti barədə dərhal bizə məlumat verəcəkdir.

Əhəmiyyətsiz olma ehtimalı yüksək olan faktorlar modeldə olmamalıdır.

Gördüyünüz kimi, sonuncu amil çıxarıldıqda, modelin əmsalları praktiki olaraq dəyişmədi.

Mümkün problemlər:Əgər nəzəri modelinizə görə, əhəmiyyətsiz olma ehtimalı yüksək olan bir amil olmalıdırsa necə? Əmsalların əhəmiyyətini müəyyən etməyin başqa yolları da var. Məsələn, amil korrelyasiya matrisinə nəzər salın.

Korrelyasiya matrisi

Faktor Korrelyasiyası panelinə daxildir korrelyasiya matrisi bütün model dəyişənləri arasında, həmçinin seçilmiş dəyərlər cütü üçün müşahidə buludunu qurur.

Korrelyasiya əmsalı iki dəyişən arasındakı xətti əlaqənin gücünü göstərir. -1-dən 1-ə qədər dəyişir. -1-ə yaxınlıq mənfi xətti əlaqəni, 1-ə yaxınlıq müsbət əlaqəni göstərir.

Müşahidə buludları bir dəyişənin digərindən asılılığının xətti ilə oxşar olub olmadığını vizual olaraq müəyyən etməyə imkan verir.

Əgər amillər arasında bir-biri ilə güclü əlaqə varsa, onlardan birini istisna edin. İstəyirsinizsə, adi xətti reqressiya modeli əvəzinə, instrumental dəyişənlər siyahısında korrelyasiyaya görə xaric edilən amillər də daxil olmaqla, instrumental dəyişənlərlə model qura bilərsiniz.

Korrelyasiya matrisi qeyri-xətti reqressiya modeli üçün məna kəsb etmir, çünki o, yalnız gücü göstərir xətti asılılıqlar.

Keyfiyyət meyarları

Modelin hər bir əmsalını yoxlamaqdan əlavə, onun ümumilikdə nə qədər yaxşı olduğunu bilmək vacibdir. Bunu etmək üçün "Statistik xüsusiyyətlər" panelində yerləşən statistik məlumatları hesablayın.

təyin əmsalı (R 2 ) modelin keyfiyyətini qiymətləndirmək üçün ən ümumi statistikadır. R 2 aşağıdakı düsturla hesablanır:

harada n müşahidələrin sayıdır; y i— izah edilən dəyişənin dəyərləri; izah edilən dəyişənin orta qiymətidir; i— təxmin edilən parametrlərə görə qurulmuş model dəyərləri.

R 2 0-dan 1-ə qədər qiymət alır və izah edilən seriyanın izah edilmiş dispersiyasının payını göstərir. Daha yaxın R 2 1-ə, model nə qədər yaxşı olarsa, izah olunmayanların nisbəti bir o qədər az olar.

Mümkün problemlər:İstifadə problemləri R 2 amillər nə qədər pis olsa da, tənliyə əlavə olunduqda onun dəyəri azalmamasıdır. Modelə müşahidələrimizin sayı qədər amil əlavə etsək, 1-ə bərabər olacağına zəmanət verilir. Buna görə də, istifadə edərək, müxtəlif sayda amillərlə modelləri müqayisə etmək R 2 , mənası yoxdur.

Modelin daha adekvat qiymətləndirilməsi üçün istifadə edirik düzəliş edilmiş təyin əmsalı (Adj R 2 ) . Adından da göründüyü kimi, bu göstərici düzəliş edilmiş versiyasıdır R 2 , hər bir əlavə amil üçün "cərimə" tətbiq etmək:

harada k modelə daxil olan amillərin sayıdır.

Əmsal Adj R 2 həmçinin 0-dan 1-ə qədər dəyərlər alır, lakin heç vaxt dəyərdən böyük olmayacaq R 2 .

analoq t-statistik əmsalıdır Fisher statistikası (F -statistika). Lakin, əgər t-statistika bir əmsalın əhəmiyyətsizliyi fərziyyəsini yoxlayır, onda F-statistika bütün amillərin (sabitdən başqa) əhəmiyyətsiz olması fərziyyəsini yoxlayır. Məna F-statistika kritiklə də müqayisə edilir və bunun üçün əhəmiyyətsizlik ehtimalını da əldə edə bilərik. Bu testin bütün amillərin olduğu fərziyyəsini sınadığını başa düşmək lazımdır eyni vaxtdaəhəmiyyətsizdir. Buna görə də, əhəmiyyətsiz amillərin mövcudluğunda, bütövlükdə model əhəmiyyətli ola bilər.

Mümkün problemlər:Əksər statistik məlumatlar modelə sabitin daxil olduğu hal üçün qurulur. Bununla belə, Prognoz Platformasında sabiti təxmin edilən əmsallar siyahısından çıxarmaq imkanımız var. Anlamaq lazımdır ki, bu cür manipulyasiyalar bəzi xüsusiyyətlərin etibarsız dəyərlər ala biləcəyinə səbəb olur. Belə ki, R 2 Adj R 2 sabit olmadıqda, onlar mənfi qiymətlər qəbul edə bilərlər. Bu halda, onlar artıq 0-dan 1-ə qədər qiymət alan kəsr kimi şərh edilə bilməz.

Sabit olmayan modellər üçün Prognoz Platformu hesablayır mərkəzləşdirilməmiş təyin əmsalları(R 2 Adj R 2 ). Dəyişdirilmiş düstur, hətta sabit olmayan bir modeldə də dəyərlərini 0-dan 1-ə qədər gətirir.

Yuxarıdakı model üçün təsvir olunan meyarların dəyərlərinə baxaq:

Gördüyümüz kimi, təyinetmə əmsalı kifayət qədər böyükdür, lakin hələ də kifayət qədər izah olunmayan dispersiya mövcuddur. Fisher statistikası seçdiyimiz amillərin əhəmiyyətli olduğunu göstərir.

Müqayisəli meyarlar

Modelin özünün keyfiyyəti haqqında danışmağa imkan verən meyarlara əlavə olaraq, modelləri bir-biri ilə müqayisə etməyə imkan verən bir sıra xüsusiyyətlər var (eyni dövrə eyni seriyanı izah etmək şərti ilə).

Əksər reqressiya modelləri minimumlaşdırma probleminə endirilir qalıqların kvadratlarının cəmi (məbləğ of kvadrat qalıqlar , SSR ) . Beləliklə, modelləri bu göstərici ilə müqayisə edərək, modellərdən hansının öyrənilən seriyanı daha yaxşı izah etdiyini müəyyən etmək olar. Belə bir model qalıqların kvadratlarının cəminin ən kiçik dəyərinə uyğun olacaq.

Mümkün problemlər: Qeyd etmək lazımdır ki, amillərin sayının artması ilə bu göstərici, eləcə də R 2 , sərhəd dəyərinə meyl edəcək (SSR açıq şəkildə 0 sərhəd dəyərinə malikdir).

Bəzi modellər maksimuma qədər azalır maksimum ehtimal funksiyasının loqarifmi (LogL ) . Xətti reqressiya modeli üçün bu tapşırıqlar eyni həllə gətirib çıxarır. əsasında LogL Həm reqressiya modellərini, həm də hamarlaşdırıcı modelləri seçmək problemini həll etmək üçün tez-tez istifadə olunan məlumat meyarları qurulur:

  • məlumat meyarı Akaike (Akaike Məlumat meyarlar, AIC)
  • Schwartz meyarı (Schwarz Meyar, SC)
  • Hannan-Queen meyarı (Hannan- Quinn Meyar, HQ)

Bütün meyarlar müşahidələrin sayını və model parametrlərinin sayını nəzərə alır və bir-birindən parametrlərin sayına görə “cərimə funksiyası” şəklində fərqlənir. Məlumat meyarları üçün aşağıdakı qayda tətbiq olunur: ən yaxşı model ən kiçik meyar dəyərinə malikdir.

Modelimizi onun ilk versiyası ilə ("əlavə" əmsalı ilə) müqayisə edək:

Gördüyünüz kimi, bu model kvadrat qalıqların daha kiçik bir məbləğini versə də, məlumat meyarları və düzəliş edilmiş təyin əmsalı baxımından daha pis oldu.

Qalıq analizi

Modelin qalıqları bir-biri ilə korrelyasiya olmadıqda model keyfiyyətli sayılır. Əks halda, modeldə nəzərə alınmayan amillərin izah edilən dəyişkənliyinə daimi bir istiqamətli təsir var. Bu, model qiymətləndirmələrinin keyfiyyətinə təsir edərək onları səmərəsiz edir.

Birinci dərəcəli avtokorrelyasiya (cari dəyərin əvvəlkilərdən asılılığı) üçün qalıqları yoxlamaq üçün statistika istifadə olunur. Durbin-Watson (DW ) . Onun qiyməti 0-dan 4-ə qədər diapazondadır. Avtokorrelyasiya olmadıqda DW 2-yə yaxın. 0-a yaxınlıq müsbət avtokorrelyasiyanı, 4-ə isə mənfi bir əlaqəni göstərir.

Məlum oldu ki, modelimizdə qalıqların avtokorrelyasiyası var. Avtokorrelyasiya izah edilən dəyişənə Fərq çevrilməsini tətbiq etməklə və ya başqa bir modeldən, ARIMA modelindən və ya ARMAX modelindən istifadə etməklə aradan qaldırıla bilər.

Mümkün problemlər: Durbin-Watson statistikası sabiti olmayan modellərə, eləcə də faktor kimi izah edilən dəyişənin gecikmiş dəyərlərindən istifadə edən modellərə şamil edilmir. Bu hallarda, əgər varsa, statistika avtokorrelyasiyanın olmamasını göstərə bilər.

Xətti reqressiya modeli (instrumental dəyişənlər üsulu)

İnstrumental dəyişənləri olan xətti reqressiya modeli aşağıdakı formaya malikdir:

harada y- izahlı seriyalar, x 1 , …, x k- izahlı sıralar, xbir, …,x̃ k– instrumental dəyişənlərlə modelləşdirilmiş izahlı seriyalar, z 1 , …, zl- instrumental dəyişənlər, e, j model xəta vektorlarıdır, b 0 , b 1 , …, b k modelin əmsallarıdır, c 0 j, c 1 j, …, c lj – izahlı sıralar üçün model əmsalları.

Modelin keyfiyyətinin yoxlanılmalı olduğu sxem oxşardır, yalnız keyfiyyət meyarları əlavə olunur J -statistika- analoq F-instrumental dəyişənləri nəzərə alan statistika.

İkili seçim modeli

İkili seçim modelində izah edilən dəyişən yalnız iki dəyər qəbul edən dəyərdir - 0 və ya 1.

harada y- izahlı seriyalar, x 1 , …, x k- izahlı sıralar, e model xətası vektorudur, b 0 , b 1 , …, b k modelin əmsallarıdır, F 0-dan 1-ə qədər dəyərləri qaytaran azalmayan funksiyadır.

Model əmsalları maksimum ehtimal funksiyasının dəyərini maksimuma çatdıran üsulla hesablanır. Bu model üçün aşağıdakı keyfiyyət meyarları uyğun olacaq:

  • McFadden təyin əmsalı (Mcfadden R 2 ) - adi bir analoq R 2 ;
  • LR-statistika və onun ehtimalı analoqdur F-statistika;
  • Müqayisəli meyarlar: LogL , AIC, SC, H.Q.

Qeyri-xətti reqressiya

Xətti reqressiya modeli dedikdə, formanın modelini nəzərdə tuturuq:

harada y- izahlı seriyalar, x 1 , …, x k- izahlı sıralar, e model xətası vektorudur, b model əmsallarının vektorudur.

Modelin əmsalları qalıqların kvadratlarının cəminin dəyərini minimuma endirən üsulla hesablanır. Bu model üçün korrelyasiya matrisinin yoxlanılması istisna olmaqla, xətti reqressiya ilə eyni meyarlar uyğun olacaq. Onu da nəzərə alın ki, F-statistikası modelin modellə müqayisədə ümumi əhəmiyyətli olub-olmadığını yoxlayacaq y = b 0 + e, hətta orijinal modeldə funksiya varsa f (x 1 , …, x k, b) sabitə uyğun gələn termin yoxdur.

Nəticələr

Test edilmiş xüsusiyyətlərin siyahısını cədvəl şəklində ümumiləşdirək və təqdim edək:

Ümid edirəm ki, bu məqalə oxucular üçün faydalı oldu! Növbəti dəfə biz digər model növləri, yəni ARIMA, ARMAX haqqında danışacağıq.

Xətti reqressiya modeli ekonometriyada ən çox istifadə edilən və ən çox öyrənilən modeldir. Məhz, amillərin ehtimal xarakteristikaları və modelin təsadüfi səhvləri haqqında fərziyyələr əsasında müxtəlif üsullarla əldə edilən parametr qiymətləndirmələrinin xassələri öyrənilir. Qeyri-xətti modellərin təxminlərinin məhdudlaşdırıcı (asimptotik) xassələri də sonuncuların xətti modellərlə yaxınlaşması əsasında alınır. Qeyd etmək lazımdır ki, ekonometrik baxımdan daha çox əhəmiyyəti model amillərində xəttiliyə nisbətən parametrlərdə xəttiliyə malikdir.

Reqressiya modeli

model parametrləri haradadır, modelin təsadüfi səhvidir, əgər reqressiya funksiyası formaya malikdirsə, xətti reqressiya adlanır.

reqressiya parametrləri (əmsalları), reqressorlar (model faktorları) haradadır? k model amillərinin sayıdır.

Xətti reqressiya əmsalları müəyyən bir amil üçün asılı dəyişənin dəyişmə sürətini göstərir, digər amillər sabitdir (xətti modeldə bu nisbət sabitdir):

Heç bir faktorun olmadığı parametrə tez-tez deyilir Sabit. Formal olaraq bu, bütün amillərin sıfır qiymətində funksiyanın qiymətidir. Analitik məqsədlər üçün hesab etmək rahatdır ki, sabit 1-ə bərabər "amil" olan parametrdir (və ya başqa ixtiyari sabit, ona görə də bu "amil" sabit adlanır). Bu halda, bunu nəzərə alaraq orijinal modelin amillərini və parametrlərini yenidən nömrələsək (təyinatı tərk edərək) ümumi amillər - k), onda xətti reqressiya funksiyası formal olaraq sabiti olmayan aşağıdakı formada yazıla bilər:

burada reqressorların vektoru, parametrlərin (əmsalların) sütun vektorudur.

Xətti model həm sabitlə, həm də sabitsiz ola bilər. Onda bu təsvirdə birinci amil ya birinə bərabərdir, ya da müvafiq olaraq adi amildir

Reqressiya Əhəmiyyətlilik Testi

Reqressiya modeli üçün Fişerin testi modelin asılı dəyişənin ümumi dispersiyasını nə qədər yaxşı izah etdiyini əks etdirir. Kriteriya tənliyə uyğun olaraq hesablanır:

harada R- korrelyasiya əmsalı;
f 1 və f 2 - sərbəstlik dərəcələrinin sayı.
Tənlikdəki birinci kəsir izah edilən dispersiyanın izah olunmayan dispersiyaya nisbətinə bərabərdir. Bu dispersiyaların hər biri sərbəstlik dərəcəsinə görə bölünür (ifadədə ikinci fraksiya). İzah edilən dispersiyanın sərbəstlik dərəcələrinin sayı f 1 izahlı dəyişənlərin sayına bərabərdir (məsələn, formanın xətti modeli üçün Y=A*X+B alırıq f 1=1). İzah olunmayan variasiyanın sərbəstlik dərəcələrinin sayı f 2 = N-k-1, harada N- eksperimental nöqtələrin sayı, k-izahedici dəyişənlərin sayı (məsələn, model üçün Y=A*X+Bəvəz etmək k=1).
Daha bir misal:
formanın xətti modeli üçün Y=A 0 +A 1 *X 1 +A 2 *X 20 eksperimental nöqtədən qurulmuş 2, əldə edirik f 1 =2 (iki dəyişən X 1 və X 2), f 2 =20-2-1=17.
Reqressiya tənliyinin əhəmiyyətini yoxlamaq üçün Fisher meyarının hesablanmış qiyməti sərbəstlik dərəcələrinin sayı üçün götürülmüş cədvəllə müqayisə edilir. f 1 (daha yüksək dispersiya) və f 2 (daha kiçik dispersiya) seçilmiş əhəmiyyətlilik səviyyəsində (adətən 0,05). Əgər hesablanmış Fişer testi cədvəldəkindən yüksəkdirsə, o zaman izah edilən dispersiya izah olunmayandan əhəmiyyətli dərəcədə böyükdür və model əhəmiyyətlidir.

Korrelyasiya əmsalı və F-kriteriya, reqressiya modelinin parametrləri ilə yanaşı, bir qayda olaraq, həyata keçirən alqoritmlərdə hesablanır.

Əvvəlki qeydlərdə diqqət çox vaxt qarşılıqlı fond gəlirləri, Veb səhifənin yüklənmə müddəti və ya sərinləşdirici içki istehlakı kimi tək ədədi dəyişənə yönəldilmişdir. Bu və sonrakı qeydlərdə bir və ya bir neçə digər ədədi dəyişənin dəyərlərindən asılı olaraq ədədi dəyişənin dəyərlərinin proqnozlaşdırılması üsullarını nəzərdən keçirəcəyik.

Material bir nümunə ilə təsvir olunacaq. Geyim mağazasında satış həcminin proqnozlaşdırılması. Sunflowers endirimli geyim mağazalar şəbəkəsi 25 ildir ki, daim genişlənir. Bununla belə, şirkətdə hazırda yeni satış məntəqələrinin seçilməsinə sistemli yanaşma yoxdur. Şirkətin yeni mağaza açmaq niyyətində olduğu yer subyektiv mülahizələrə əsasən müəyyən edilir. Seçim meyarları əlverişli kirayə şərtləri və ya menecerin mağazanın ideal yeri barədə fikirləridir. Təsəvvür edin ki, siz Xüsusi Layihələr və Planlaşdırma Departamentinin rəhbərisiniz. Sizə yeni mağazalar açmaq üçün strateji plan hazırlamaq tapşırılıb. Bu planda yeni açılan mağazalarda illik satış proqnozu olmalıdır. Siz yer satmağın birbaşa gəlirlə əlaqəli olduğuna inanırsınız və bu faktı qərar qəbuletmə prosesinizə daxil etmək istəyirsiniz. Yeni mağaza ölçüsü əsasında illik satışları proqnozlaşdıran statistik modeli necə inkişaf etdirirsiniz?

Tipik olaraq, reqressiya təhlili dəyişənin dəyərlərini proqnozlaşdırmaq üçün istifadə olunur. Onun məqsədi asılı dəyişənin və ya cavabın dəyərlərini ən azı bir müstəqil və ya izahedici dəyişənin dəyərlərindən proqnozlaşdıran statistik model hazırlamaqdır. Bu qeyddə sadə xətti reqressiyanı nəzərdən keçirəcəyik - statistik üsul, asılı dəyişənin dəyərlərini proqnozlaşdırmağa imkan verir Y müstəqil dəyişənin qiymətləri ilə X. Aşağıdakı qeydlər müstəqil dəyişənin dəyərlərini proqnozlaşdırmaq üçün hazırlanmış çoxlu reqressiya modelini təsvir edəcəkdir Y bir neçə asılı dəyişənin qiymətləri ilə ( X 1 , X 2 , …, X k).

Qeydi və ya formatda yükləyin, nümunələri formatda

Reqressiya modellərinin növləri

harada ρ 1 avtokorrelyasiya əmsalıdır; əgər ρ 1 = 0 (avtokorrelyasiya yoxdur), D≈ 2; əgər ρ 1 ≈ 1 (müsbət avtokorrelyasiya), D≈ 0; əgər ρ 1 = -1 (mənfi avtokorrelyasiya), D ≈ 4.

Praktikada Durbin-Vatson kriteriyasının tətbiqi dəyərin müqayisəsinə əsaslanır D tənqidi nəzəri dəyərlərlə d Ld U müəyyən sayda müşahidələr üçün n, modelin müstəqil dəyişənlərinin sayı k(sadə xətti reqressiya üçün k= 1) və əhəmiyyət səviyyəsi α. Əgər D< d L , təsadüfi kənarlaşmaların müstəqilliyi fərziyyəsi rədd edilir (deməli, müsbət avtokorrelyasiya mövcuddur); əgər D > dU, hipotez rədd edilmir (yəni avtokorrelyasiya yoxdur); əgər d L< D < d U qərar vermək üçün kifayət qədər əsas yoxdur. Hesablanmış dəyər olduqda D onda 2-ni keçir d Ld U müqayisə olunan əmsalın özü deyil D, və ifadəsi (4 - D).

Excel-də Durbin-Watson statistikasını hesablamaq üçün Şəkil 1-də alt cədvələ müraciət edirik. on dörd Balansın çıxarılması. (10) ifadəsindəki pay = SUMMQDIFF(massiv1, massiv2), məxrəc isə = SUMMQ(massiv) funksiyasından istifadə etməklə hesablanır (şək. 16).

düyü. 16. Durbin-Vatson statistikasının hesablanması üçün düsturlar

Bizim nümunəmizdə D= 0,883. Əsas sual budur: Durbin-Vatson statistikasının hansı dəyəri müsbət avtokorrelyasiya olduğu qənaətinə gəlmək üçün kifayət qədər kiçik hesab edilməlidir? D dəyərini kritik dəyərlərlə əlaqələndirmək lazımdır ( d Ld U) müşahidələrin sayından asılı olaraq n və əhəmiyyət səviyyəsi α (şək. 17).

düyü. 17. Durbin-Watson statistikasının kritik dəyərləri (cədvəl fraqmenti)

Beləliklə, evinizə mal çatdıran bir mağazada satış həcmi problemində bir müstəqil dəyişən var ( k= 1), 15 müşahidə ( n= 15) və əhəmiyyətlilik səviyyəsi α = 0,05. Nəticədə, d L= 1.08 və dU= 1.36. kimi D = 0,883 < d L= 1.08, qalıqlar arasında müsbət avtokorrelyasiya var, ən kiçik kvadratlar metodu tətbiq edilə bilməz.

Yamac və korrelyasiya əmsalı haqqında fərziyyələrin yoxlanılması

Yuxarıdakı reqressiya yalnız proqnozlaşdırma üçün tətbiq edilmişdir. Reqressiya əmsallarını təyin etmək və dəyişənin qiymətini proqnozlaşdırmaq Y verilmiş dəyişən dəyər üçün Xən kiçik kvadratlar üsulundan istifadə edilmişdir. Bundan əlavə, qiymətləndirmənin standart səhvini və qarışıq korrelyasiya əmsalını nəzərdən keçirdik. Əgər qalıq analizi ən kiçik kvadratlar metodunun tətbiqi şərtlərinin pozulmadığını və sadə xətti reqressiya modelinin adekvat olduğunu təsdiq edərsə, seçmə məlumatlarına əsasən, populyasiyada dəyişənlər arasında xətti əlaqənin olduğunu iddia etmək olar.

Ərizət - yamac üçün meyarlar.Əhali yamacının β 1 sıfıra bərabər olub olmadığını yoxlayaraq, dəyişənlər arasında statistik əhəmiyyətli əlaqənin olub olmadığını müəyyən etmək olar. XY. Bu fərziyyə rədd edilərsə, dəyişənlər arasında olduğunu iddia etmək olar XY xətti əlaqə var. Sıfır və alternativ fərziyyələr aşağıdakı kimi tərtib edilmişdir: H 0: β 1 = 0 (xətti əlaqə yoxdur), H1: β 1 ≠ 0 (xətti əlaqə var). Tərifinə görə t-statistika nümunə yamacı ilə hipotetik populyasiya yamacı arasındakı fərqə bərabərdir və yamac qiymətləndirməsinin standart xətasına bölünür:

(11) t = (b 1 β 1 ) / Sb 1

harada b 1 nümunə məlumatlarına əsaslanan birbaşa reqressiyanın mailliyi, β1 birbaşa ümumi əhalinin hipotetik meylidir, , və test statistikası t Bu var t- ilə paylanması n - 2 sərbəstlik dərəcələri.

Mağaza ölçüsü ilə illik satışlar arasında α = 0.05-də statistik əhəmiyyətli əlaqənin olub olmadığını yoxlayaq. t-kriteriyalar istifadə edilərkən digər parametrlərlə birlikdə göstərilir Analiz paketi(seçim Reqressiya). Analiz Paketinin tam nəticələri Şəkildə göstərilmişdir. 4, t-statistika ilə əlaqəli bir fraqment - şək. on səkkiz.

düyü. 18. Müraciət nəticələri t

Çünki mağazaların sayı n= 14 (bax. Şəkil 3), kritik dəyər t- α = 0,05 əhəmiyyət səviyyəsində statistikanı aşağıdakı düsturla tapmaq olar: t L=STUDENT.INV(0.025;12) = -2.1788 burada 0.025 əhəmiyyət səviyyəsinin yarısıdır və 12 = n – 2; t U\u003d STUDENT.INV (0.975, 12) \u003d +2.1788.

kimi t-statistika = 10,64 > t U= 2.1788 (Şəkil 19), sıfır hipotezi H 0 rədd edilir. Digər tərəfdən, R- üçün dəyər X\u003d 1-STUDENT.DIST (D3, 12, TRUE) düsturu ilə hesablanan 10.6411, təxminən sıfıra bərabərdir, buna görə də fərziyyə H 0 yenidən rədd edilir. Bu faktdır ki R-dəyər demək olar ki, sıfırdır, yəni mağaza ölçüsü ilə illik satışlar arasında real xətti əlaqə olmasaydı, xətti reqressiyadan istifadə edərək onu aşkar etmək demək olar ki, qeyri-mümkün olardı. Buna görə də, orta illik mağaza satışları ilə mağaza ölçüsü arasında statistik əhəmiyyətli xətti əlaqə var.

düyü. 19. Ümumi əhalinin mailliyi haqqında fərziyyənin 0,05 və 12 sərbəstlik dərəcəsi əhəmiyyətlilik səviyyəsində sınaqdan keçirilməsi

ƏrizəF - yamac üçün meyarlar. Sadə xətti reqressiyanın mailliyi haqqında fərziyyələri yoxlamaq üçün alternativ yanaşma istifadə etməkdir F-meyarlar. Bunu xatırlayın F-kriteriya iki variasiya arasındakı əlaqəni yoxlamaq üçün istifadə olunur (ətraflı məlumatlara baxın). Yamac fərziyyəsini sınaqdan keçirərkən təsadüfi səhvlərin ölçüsü səhv dispersiyasıdır (sərbəstlik dərəcələrinin sayına bölünmüş kvadrat xətlərin cəmi), belə ki, F-test reqressiya ilə izah edilən variasiya nisbətindən istifadə edir (yəni, dəyərlər SSR müstəqil dəyişənlərin sayına bölünür k), səhv fərqinə ( MSE=SYX 2 ).

Tərifinə görə F-statistika reqressiya (MSR) səbəbindən orta kvadratik sapmaların səhv dispersiyasına (MSE) bölünməsinə bərabərdir: F = MSR/ MSE, harada MSR =SSR / k, MSE =SSE/(n– k – 1), k reqressiya modelində müstəqil dəyişənlərin sayıdır. Test statistikası F Bu var F- ilə paylanması kn– k – 1 sərbəstlik dərəcələri.

Verilmiş əhəmiyyət səviyyəsi α üçün qərar qaydası aşağıdakı kimi tərtib edilir: əgər F > FU, sıfır hipotezi rədd edilir; əks halda rədd edilmir. Dispersiya təhlilinin xülasə cədvəli şəklində təqdim olunan nəticələr Şəkildə göstərilmişdir. iyirmi.

düyü. 20. Reqressiya əmsalının statistik əhəmiyyəti fərziyyəsini yoxlamaq üçün dispersiya təhlili cədvəli

oxşar t-meyar F-istifadə edilərkən meyarlar cədvəldə göstərilir Analiz paketi(seçim Reqressiya). İşin tam nəticələri Analiz paketiŞəkildə göstərilmişdir. 4 ilə əlaqəli fraqment F-statistika - şək. 21.

düyü. 21. Müraciət nəticələri F- Excel Analiz Alət Paketindən istifadə etməklə əldə edilən meyarlar

F-statistik 113.23 və R-qiymət sıfıra yaxındır (xana ƏhəmiyyətiF). Əhəmiyyət səviyyəsi α 0,05 olarsa, kritik dəyəri təyin edin F-düsturdan bir və 12 sərbəstlik dərəcəsi olan paylamalar əldə edilə bilər F U\u003d F. OBR (1-0,05; 1; 12) \u003d 4,7472 (Şəkil 22). kimi F = 113,23 > F U= 4.7472 və R- 0-a yaxın dəyər< 0,05, нулевая гипотеза H 0 sapır, yəni. Mağazanın ölçüsü onun illik satış həcmi ilə sıx bağlıdır.

düyü. 22. Ümumi əhalinin mailliyi haqqında fərziyyənin 0,05 əhəmiyyət səviyyəsində, bir və 12 sərbəstlik dərəcəsi ilə sınaqdan keçirilməsi

Yamac β 1 olan etibarlılıq intervalı. Dəyişənlər arasında xətti əlaqənin olması haqqında fərziyyəni yoxlamaq üçün β 1 yamacını ehtiva edən inam intervalı qura və β 1 = 0 hipotetik dəyərinin bu intervala aid olduğuna əmin ola bilərsiniz. β 1 yamacını ehtiva edən inam intervalının mərkəzi nümunənin yamacıdır b 1 , və onun sərhədləri kəmiyyətlərdir b 1 ±t n –2 Sb 1

Şəkildə göstərildiyi kimi. on səkkiz, b 1 = +1,670, n = 14, Sb 1 = 0,157. t 12 \u003d TƏLƏBƏ.OBR (0.975, 12) \u003d 2.1788. Nəticədə, b 1 ±t n –2 Sb 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342 və ya + 1,328 ≤ β 1 ≤ +2,012. Beləliklə, 0,95 ehtimalı ilə əhalinin mailliyi +1,328-dən +2,012-ə qədər (yəni 1,328,000 dollardan 2,012,000 dollara qədər) diapazonda yerləşir. Bu dəyərlər sıfırdan böyük olduğundan, illik satış və mağaza sahəsi arasında statistik əhəmiyyətli xətti əlaqə var. Etibar intervalı sıfırdan ibarət olsaydı, dəyişənlər arasında heç bir əlaqə olmazdı. Bundan əlavə, etimad intervalı o deməkdir ki, hər 1000 kv. fut orta satışların 1.328.000 dollardan 2.012.000 dollara qədər artması ilə nəticələnir.

İstifadəsit -korrelyasiya əmsalı üçün meyarlar. korrelyasiya əmsalı tətbiq edilmişdir r, iki ədədi dəyişən arasındakı əlaqənin ölçüsüdür. İki dəyişən arasında statistik əhəmiyyətli əlaqənin olub olmadığını müəyyən etmək üçün istifadə edilə bilər. Hər iki dəyişənin populyasiyaları arasındakı korrelyasiya əmsalını ρ simvolu ilə işarə edək. Sıfır və alternativ fərziyyələr aşağıdakı kimi formalaşdırılır: H 0: ρ = 0 (korrelyasiya yoxdur), H 1: ρ ≠ 0 (korrelyasiya var). Əlaqənin mövcudluğunun yoxlanılması:

harada r = + , əgər b 1 > 0, r = – , əgər b 1 < 0. Тестовая статистика t Bu var t- ilə paylanması n - 2 sərbəstlik dərəcələri.

Günəbaxan mağazalar şəbəkəsinin problemində r2= 0,904 və b 1- +1.670 (bax. Şəkil 4). kimi b 1> 0, illik satış və mağaza ölçüsü arasında korrelyasiya əmsalı r= +√0,904 = +0,951. Bu dəyişənlər arasında korrelyasiya olmadığına dair sıfır fərziyyəni istifadə edərək yoxlayaq t- statistika:

α = 0.05 əhəmiyyətlilik səviyyəsində sıfır hipotezi rədd edilməlidir, çünki t= 10,64 > 2,1788. Beləliklə, illik satış və mağaza ölçüsü arasında statistik əhəmiyyətli əlaqənin olduğunu iddia etmək olar.

Əhalinin meylinin təsirlərini müzakirə edərkən, etimad intervalları və fərziyyələri yoxlamaq üçün meyarlar bir-birini əvəz edə bilən alətlərdir. Bununla belə, korrelyasiya əmsalını ehtiva edən etimad intervalının hesablanması daha çətin olur, çünki statistik göstəricilərin seçmə paylanması forması r həqiqi korrelyasiya əmsalından asılıdır.

Riyazi gözləntilərin qiymətləndirilməsi və fərdi dəyərlərin proqnozlaşdırılması

Bu bölmədə gözlənilən cavabın qiymətləndirilməsi üsulları müzakirə olunur Y və fərdi dəyərlərin proqnozları Y dəyişənin verilmiş dəyərləri üçün X.

Etibar intervalının qurulması. 2-ci misalda (yuxarıdakı bölməyə baxın Ən kiçik kvadrat üsulu) reqressiya tənliyi dəyişənin qiymətini proqnozlaşdırmağa imkan verdi Y X. Pərakəndə satış nöqtəsi üçün yer seçmək problemində, 4000 kv.m sahəsi olan bir mağazada orta illik satışlar. fut 7.644 milyon dollara bərabər idi.Ancaq bu ümumi əhalinin riyazi gözləməsi bir nöqtədir. ümumi əhalinin riyazi gözləntisini qiymətləndirmək üçün etimad intervalı konsepsiyası təklif edilmişdir. Eynilə, konsepsiyanı təqdim etmək olar cavabın riyazi gözləntisi üçün inam intervalı dəyişənin verilmiş dəyəri üçün X:

harada , = b 0 + b 1 X i– proqnozlaşdırılan dəyər dəyişəni Y saat X = X i, S YX orta kvadrat xətadır, n nümunə ölçüsüdür, Xi- dəyişənin verilmiş qiyməti X, µ Y|X = Xi– dəyişənin riyazi gözləntisi Y saat X = Х i,SSX=

Düsturun (13) təhlili göstərir ki, etimad intervalının eni bir neçə amildən asılıdır. Müəyyən bir əhəmiyyət səviyyəsində, orta kvadrat xətadan istifadə etməklə ölçülən reqressiya xətti ətrafında dalğalanmaların amplitüdünün artması intervalın eninin artmasına səbəb olur. Digər tərəfdən, gözlənildiyi kimi, nümunə ölçüsünün artması intervalın daralması ilə müşayiət olunur. Bundan əlavə, intervalın eni dəyərlərdən asılı olaraq dəyişir Xi. Əgər dəyişənin dəyəri Y miqdarlar üçün proqnozlaşdırılır X, orta qiymətə yaxındır , etimad intervalı ortadan uzaq olan dəyərlər üçün cavab proqnozlaşdırıldığından daha dar olur.

Deyək ki, mağaza üçün yer seçərkən, sahəsi 4000 kvadratmetr olan bütün mağazalarda orta illik satış üçün 95% etibarlılıq intervalı qurmaq istəyirik. ayaqları:

Buna görə, sahəsi 4000 kvadratmetr olan bütün mağazalarda orta illik satış həcmi. fut, 95% ehtimalı ilə 6,971 ilə 8,317 milyon dollar arasındadır.

Proqnozlaşdırılan dəyər üçün etibarlılıq intervalını hesablayın. Dəyişənin verilmiş dəyəri üçün cavabın riyazi gözləntiləri üçün inam intervalına əlavə olaraq X, tez-tez proqnozlaşdırılan dəyər üçün inam intervalını bilmək lazımdır. Belə bir güvən intervalının hesablanması düsturu (13) düsturu ilə çox oxşar olsa da, bu intervalda parametrin təxmini deyil, proqnozlaşdırılan dəyəri var. Proqnozlaşdırılan cavab üçün interval YX = Xi dəyişənin xüsusi dəyəri üçün Xi düsturla müəyyən edilir:

Fərz edək ki, pərakəndə satış məntəqəsi üçün yer seçərkən, 4000 kvadratmetr sahəsi olan bir mağazada proqnozlaşdırılan illik satış həcmi üçün 95% inam intervalı qurmaq istəyirik. ayaqları:

Beləliklə, 4000 kv.m üçün proqnozlaşdırılan illik satış həcmi. fut, 95% ehtimalı ilə 5,433 ilə 9,854 milyon dollar arasındadır.Gördüyünüz kimi, proqnozlaşdırılan cavab dəyəri üçün etimad intervalı onun riyazi gözləntisinin etibar intervalından çox genişdir. Bunun səbəbi, fərdi dəyərlərin proqnozlaşdırılmasındakı dəyişkənliyin gözlənilən dəyəri qiymətləndirməkdən daha çox olmasıdır.

Reqressiyanın istifadəsi ilə bağlı tələlər və etik problemlər

Reqressiya təhlili ilə bağlı çətinliklər:

  • Ən kiçik kvadratlar metodunun tətbiqi şərtlərinin nəzərə alınmaması.
  • Ən kiçik kvadratlar metodunun tətbiqi şərtlərinin səhv qiymətləndirilməsi.
  • Ən kiçik kvadratlar metodunun tətbiqi şərtlərini pozmaqla alternativ üsulların səhv seçilməsi.
  • Tədqiqat mövzusunu dərindən bilmədən reqressiya təhlilinin tətbiqi.
  • Reqressiyanın izahedici dəyişənin diapazonundan kənara çıxarılması.
  • Statistik və səbəb əlaqələri arasında qarışıqlıq.

Elektron cədvəllərin və statistik proqram təminatının geniş yayılması reqressiya analizinin istifadəsinə mane olan hesablama problemlərini aradan qaldırdı. Lakin bu, reqressiya analizinin kifayət qədər ixtisas və biliyə malik olmayan istifadəçilər tərəfindən istifadə olunmağa başlamasına gətirib çıxardı. Əgər onların bir çoxunun ən kiçik kvadratlar metodunun tətbiqi şərtləri haqqında heç bir təsəvvürü yoxdursa və onların həyata keçirilməsini necə yoxlamaq lazım olduğunu bilmirlərsə, istifadəçilər alternativ metodlar haqqında necə bilirlər?

Tədqiqatçı rəqəmləri üyütməklə - sürüşmə, yamac və qarışıq korrelyasiya əmsalının hesablanması ilə aparılmamalıdır. Onun daha dərin biliyə ehtiyacı var. Bunu dərsliklərdən götürülmüş klassik nümunə ilə izah edək. Anscombe göstərdi ki, Şəkil 1-də göstərilən bütün dörd məlumat dəsti. 23 eyni reqressiya parametrlərinə malikdir (şək. 24).

düyü. 23. Dörd süni verilənlər toplusu

düyü. 24. Dörd süni məlumat dəstinin reqressiya təhlili; ilə edilir Analiz paketi(Şəkili böyütmək üçün şəklin üzərinə klikləyin)

Beləliklə, reqressiya təhlili baxımından bütün bu məlumat dəstləri tamamilə eynidir. Təhlil orada bitsəydi, çox faydalı məlumatları itirərdik. Bunu bu məlumat dəstləri üçün qurulmuş səpələnmə qrafikləri (şək. 25) və qalıq qrafiklər (şək. 26) sübut edir.

düyü. 25. Dörd verilənlər dəsti üçün səpələnmə qrafikləri

Səpələnmə qrafikləri və qalıq qrafiklər bu məlumatların bir-birindən fərqli olduğunu göstərir. Düz xətt boyunca paylanmış yeganə çoxluq A çoxluğudur. A çoxluğundan hesablanan qalıqların qrafikində nümunə yoxdur. Eyni şeyi B, C və D çoxluqları üçün söyləmək olmaz. B çoxluğu üçün çəkilmiş səpilmə qrafası aydın kvadratik nümunəni göstərir. Bu nəticə parabolik formaya malik olan qalıqların süjeti ilə təsdiqlənir. Səpələnmə qrafiki və qalıq qrafiki göstərir ki, B verilənlər bazasında kənar göstərici var. Bu vəziyyətdə, məlumat dəstindən kənar göstəricini çıxarmaq və təhlili təkrarlamaq lazımdır. Müşahidələrdən kənar göstəriciləri aşkar etmək və aradan qaldırmaq texnikasına təsir təhlili deyilir. Həddindən artıq göstərici aradan qaldırıldıqdan sonra modelin yenidən qiymətləndirilməsinin nəticəsi tamamilə fərqli ola bilər. D verilənlər toplusundan tərtib edilmiş səpələnmə qrafiki empirik modelin tək cavabdan çox asılı olduğu qeyri-adi vəziyyəti təsvir edir ( X 8 = 19, Y 8 = 12.5). Belə reqressiya modellərini xüsusilə diqqətlə hesablamaq lazımdır. Beləliklə, səpələnmə və qalıq qrafiklər reqressiya təhlili üçün vacib vasitədir və onun ayrılmaz hissəsi olmalıdır. Bunlar olmadan reqressiya təhlili etibarlı deyil.

düyü. 26. Dörd verilənlər bazası üçün qalıqların planları

Reqressiya təhlilində tələlərdən necə qaçınmaq olar:

  • Dəyişənlər arasında mümkün əlaqənin təhlili XY həmişə səpələnmə qrafiki ilə başlayın.
  • Reqressiya təhlilinin nəticələrini şərh etməzdən əvvəl onun tətbiqi şərtlərini yoxlayın.
  • Müstəqil dəyişənə qarşı qalıqların qrafikini qurun. Bu, empirik modelin müşahidənin nəticələrinə necə uyğun olduğunu müəyyən etməyə və dispersiya sabitliyinin pozulmasını aşkar etməyə imkan verəcəkdir.
  • Səhvlərin normal paylanmasına dair fərziyyəni yoxlamaq üçün histoqramlardan, gövdə və yarpaq qrafiklərindən, qutu diaqramlarından və normal paylanma planlarından istifadə edin.
  • Ən kiçik kvadratlar metodunun tətbiqi şərtləri yerinə yetirilmirsə, alternativ üsullardan istifadə edin (məsələn, kvadrat və ya çoxlu reqressiya modelləri).
  • Ən kiçik kvadratlar metodunun tətbiqi şərtləri yerinə yetirilərsə, reqressiya əmsallarının statistik əhəmiyyəti haqqında fərziyyəni yoxlamaq və riyazi gözləntiləri və proqnozlaşdırılan cavab dəyərini ehtiva edən inam intervallarını qurmaq lazımdır.
  • Müstəqil dəyişənin diapazonundan kənarda asılı dəyişənin dəyərlərini proqnozlaşdırmaqdan çəkinin.
  • Nəzərə alın ki, statistik asılılıqlar həmişə səbəbli deyil. Unutmayın ki, dəyişənlər arasında korrelyasiya onlar arasında səbəb əlaqəsi olması demək deyil.

Xülasə. Blok-sxemdə göstərildiyi kimi (şək. 27) qeyddə sadə xətti reqressiya modeli, onun tətbiqi şərtləri və bu şərtlərin sınaqdan keçirilməsi yolları təsvir edilmişdir. Hesab olunur t-reqressiyanın mailliyinin statistik əhəmiyyətinin yoxlanılması meyarı. Asılı dəyişənin dəyərlərini proqnozlaşdırmaq üçün reqressiya modelindən istifadə edilmişdir. İllik satış həcminin mağaza sahəsindən asılılığının öyrənildiyi pərakəndə satış məntəqəsi üçün yer seçimi ilə bağlı bir nümunə hesab olunur. Əldə edilən məlumatlar mağaza üçün yer seçmək və onun illik satışını proqnozlaşdırmaq üçün daha dəqiq imkan verir. Aşağıdakı qeydlərdə reqressiya analizinin müzakirəsi, eləcə də çoxsaylı reqressiya modelləri davam etdiriləcəkdir.

düyü. 27. Qeydin blok diaqramı

Levin və başqaları kitabının materiallarından menecerlər üçün statistika istifadə olunur. - M.: Williams, 2004. - s. 792–872

Əgər asılı dəyişən kateqoriyalıdırsa, logistik reqressiya tətbiq edilməlidir.

Tədqiqat məqsədləri üçün çox vaxt tədqiq olunan obyekti onun daxili strukturunu ətraflı nəzərdən keçirmədən, giriş və çıxışları olan qutu kimi təqdim etmək rahatdır. Təbii ki, qutuda (obyektdə) transformasiyalar baş verir (siqnallar əlaqə və elementlərdən keçir, formasını dəyişir və s.), lakin bu təsvirlə onlar müşahidəçidən gizli şəkildə baş verir.

Tədqiqatçının obyekt haqqında məlumatlılıq dərəcəsinə görə, obyektlərin üç növ "qutu"ya bölünməsi var:

  • "ağ qutu": obyekt haqqında hər şey məlumdur;
  • "boz qutu": obyektin quruluşu məlumdur, parametrlərin kəmiyyət dəyərləri məlum deyil;
  • "qara qutu": obyekt haqqında heç nə məlum deyil.

Qara qutu şərti olaraq şəkildəki kimi təsvir edilmişdir. 2.1.

düyü. 2.1. Diaqramlarda qara qutunun təyinatı

Qara qutunun giriş və çıxışlarını müşahidə etmək və ölçmək olar. Qutunun içindəkilər məlum deyil.

Tapşırıq, giriş və çıxışlardakı dəyərlər dəstini bilməklə bir model qurmaq, yəni girişin çıxışa çevrildiyi qutu funksiyasını təyin etməkdir. Belə bir vəzifə deyilir reqressiya təhlili vəzifəsi.

Girişlərin tədqiqatçı üçün nəzarət və ya yalnız müşahidə üçün mövcud olub-olmamasından asılı olaraq, qutu ilə aktiv və ya passiv təcrübədən danışmaq olar.

Məsələn, çıxışın istehlak olunan elektrik enerjisinin miqdarından necə asılı olduğunu müəyyən etmək vəzifəsi ilə qarşılaşırıq. Biz müşahidələrin nəticələrini qrafikdə göstərəcəyik (bax. Şəkil 2.2). Qrafikdə cəmi n uyğun gələn eksperimental nöqtələr n müşahidələr.

düyü. 2.2. Nəticələrin təqdimatının qrafik görünüşü
qara qutu müşahidələri

Əvvəlcə bir giriş və bir çıxışı olan qara qutu ilə məşğul olduğumuzu düşünək. Sadəlik üçün hesab edək ki, giriş və çıxış arasındakı əlaqə xətti və ya demək olar ki, xəttidir. Sonra bu model çağırılacaq xətti birölçülü reqressiya modeli.

1) Tədqiqatçı qutunun quruluşu haqqında fərziyyə irəli sürür

Eksperimental olaraq əldə edilmiş məlumatları nəzərə alaraq, onların xətti fərziyyəyə, yəni çıxışa tabe olduğunu güman edirik. Y daxil edilməsindən asılıdır X xətti, yəni hipotezin forması var: Y = A 1 X + A 0 (şək. 2.2).

2) Naməlum əmsalların tərifi A 0 və A 1 model

Xətti birölçülü model (şək. 2.3).

düyü. 2.3. 1D qara qutu modeli

Hər biri üçün n eksperimental olaraq götürdükdə xətanı hesablayırıq ( E i) eksperimental dəyər arasında ( Y i Exp. ) və nəzəri dəyər ( Y i Teor. ) hipotetik xətt üzərində uzanır A 1 X + A 0 (şək. 2.2-ə baxın):

E i = (Y i Exp. - Y i Teor.), i= 1, …, n ;

E i = Y i – A 0 – A bir · X i , i= 1, …, n .

Səhvlər E i hamı üçün n nöqtələr əlavə edilməlidir. Müsbət səhvlər mənfi olanları məbləğdə kompensasiya etməməsi üçün səhvlərin hər biri kvadratlaşdırılır və onların dəyərləri ümumi xətaya əlavə olunur. F artıq bir xarakter:

E i 2 = (Y i – A 0 – A bir · X i) 2 , i= 1, …, n .

Metodun məqsədi ümumi xətanı minimuma endirməkdir Fəmsalların seçilməsi yolu ilə A 0 , A bir . Yəni bu o deməkdir ki, belə əmsalları tapmaq lazımdır A 0 , A 1 xətti funksiya Y = A 1 X + A 0 belə ki, onun qrafiki bütün eksperimental nöqtələrə eyni vaxtda mümkün qədər yaxın keçsin. Buna görə də bu üsul adlanır ən kiçik kvadratlar.

Ümumi xəta F iki dəyişənin funksiyasıdır A 0 və A 1, yəni F(A 0 , A 1) , dəyişən, siz ümumi xətanın dəyərinə təsir edə bilərsiniz (bax. Şəkil 2.4).


düyü. 2.4. Səhv funksiyasının təxmini görünüşü

Ümumi xətanı minimuma endirmək üçün funksiyanın qismən törəmələrini tapırıq F hər dəyişən üçün və onları sıfıra bərabərləşdirin (ekstremum şərt):

Mötərizələr açıldıqdan sonra iki xətti tənlik sistemi əldə edirik:

Əmsalları tapmaq üçün A 0 və A 1, Cramer metodundan istifadə edərək, sistemi matris şəklində təqdim edirik:

Həll belə görünür:

Dəyərlərin hesablanması A 0 və A 1 .

3) Doğrulama

Fərziyyənin qəbul edilib-edilmədiyini müəyyən etmək üçün, ilk növbədə, verilmiş eksperimental və əldə edilmiş nəzəri asılılığın nöqtələri arasındakı xətanı və ümumi xətanı hesablamaq lazımdır:

E i = (Y i Exp. - Y i Teor.), i= 1, …, n

İkincisi, dəyəri tapmaq lazımdır σ düsturuna görə, harada Fümumi xətadır n eksperimental nöqtələrin ümumi sayıdır.

Xətlərlə məhdudlaşmış bir zolaqda olarsa Y Teor. - S Y Teor. + S (Şəkil 2.5), eksperimental nöqtələrin 68,26% və ya daha çoxu düşür Y i Exp. , onda bizim hipotezimiz qəbul edilir. Əks təqdirdə, daha mürəkkəb bir fərziyyə seçin və ya orijinal məlumatları yoxlayın. Lazım gələrsə b haqqında nəticəyə daha çox inam, sonra əlavə bir şərt istifadə olunur: xətlərlə məhdudlaşan bandda Y Teor. – 2 S Y Teor. + 2 S , eksperimental balların 95,44% və ya daha çoxunu vurmalıdır Y i Exp. .

düyü. 2.5. Fərziyyənin Qəbul Edilənlik Tədqiqi

Məsafə Səlaqəlidir σ aşağıdakı nisbət:

S = σ /günah( β ) = σ /sin(90° – arctg() A 1)) = σ /cos(arctg( A 1)) ,

Şəkildə təsvir olunan. 2.6.

düyü. 2.7. Qanun illüstrasiya
səhvlərin normal paylanması

Nəhayət, Şəkildə təqdim edirik. 2.8 Birölçülü xətti reqressiya modelinin həyata keçirilməsi üçün qrafik sxem.

düyü. 2.8. Metodun həyata keçirilməsi diaqramı
simulyasiya mühitində ən kiçik kvadratlar

Xətti çoxlu model

Fərz edək ki, qutunun funksional strukturu yenidən xətti əlaqəyə malikdir, lakin obyektə eyni vaxtda təsir edən giriş siqnallarının sayı bərabərdir. m(şək. 2.9-a bax):

Y = A 0 + A bir · X 1 + … + A m · X m .

düyü. 2.9. Çoxölçülü qeyd
diaqramlarda qara qutu

Qara qutunun bütün giriş və çıxışları üzrə eksperimental məlumatlara malik olduğumuz güman edildiyi üçün biz eksperimental () arasındakı xətanı hesablaya bilərik. Y i Exp. ) və nəzəri ( Y i Teor. ) dəyər Y hər biri üçün i-ci nöqtə (əvvəlki kimi eksperimental nöqtələrin sayı bərabər olsun n ):

E i = (Y i Exp. - Y i Teor.), i= 1, …, n ;

E i = Y i – A 0 – A bir · X 1i – … – A m · X mi , i= 1, …, n .

Ümumi xətanın minimuma endirilməsi F :

Səhv F parametrlərin seçimindən asılıdır A 0 , A bir, …, A m. Ekstremumu tapmaq üçün bütün qismən törəmələri bərabərləşdiririk F naməlum tərəfindən A 0 , A bir, …, A m sıfıra:

Sistemi ondan alırıq m ilə + 1 tənlik m Xətti çoxlu model əmsallarını təyin etmək üçün həll edilməli olan + 1 naməlum A 0 , A bir, …, A m. Cramer metodu ilə əmsalları tapmaq üçün sistemi matris şəklində təqdim edirik:

Əmsalların hesablanması A 0 , A bir, …, A m .

Bundan əlavə, bir ölçülü modelə bənzətməklə (bax 3). "Yoxlayın"), hər bir nöqtə üçün bir səhv hesablanır E i; sonra ümumi xəta tapılır F və dəyərlər σ Sçoxölçülü qara qutunun xətti olması haqqında təklif edilən fərziyyənin qəbul edilib-edilmədiyini müəyyən etmək üçün.

Əvəzetmələrin və adının dəyişdirilməsinin köməyi ilə bir çox qeyri-xətti modellər xətti çoxlu modelə endirilir. Bu barədə növbəti mühazirədə daha ətraflı danışılacaq.