یک مدل آماری یک پیش بینی ریاضی است که مجموعه ای از مفروضات مختلف را در مورد تولید برخی از داده های نمونه مجسم می کند. این اصطلاح اغلب به شکل بسیار ایده آل ارائه می شود.
فرض های بیان شده در مدل آماری مجموعه ای از توزیع های احتمال را نشان می دهد. بسیاری از آنها به منظور تقریب صحیح توزیعی هستند که مجموعه خاصی از اطلاعات از آن استخراج می شود. توزیعهای احتمال ذاتی در مدلهای آماری چیزی است که پیشبینی را از سایر اصلاحات ریاضی متمایز میکند.
پیش بینی کلی
مدل ریاضی توصیفی از سیستم با استفاده از مفاهیم و زبان خاصی است. آنها برای علوم طبیعی (مانند فیزیک، زیست شناسی، علوم زمین، شیمی) و رشته های مهندسی (مانند علوم کامپیوتر، مهندسی برق)، و همچنین علوم اجتماعی (مانند اقتصاد، روانشناسی، جامعه شناسی، علوم سیاسی) کاربرد دارند.
مدل می تواند به توضیح سیستم وتأثیر مؤلفههای مختلف را مطالعه کنید و رفتار را پیشبینی کنید.
مدل های ریاضی می توانند اشکال مختلفی داشته باشند، از جمله سیستم های دینامیکی، پیش بینی های آماری، معادلات دیفرانسیل، یا پارامترهای نظری بازی. این و انواع دیگر ممکن است همپوشانی داشته باشند و این مدل ساختارهای انتزاعی بسیاری را در بر می گیرد. به طور کلی، پیش بینی های ریاضی می تواند شامل اجزای منطقی نیز باشد. در بسیاری از موارد، کیفیت یک رشته علمی به این بستگی دارد که مدلهای ریاضی توسعهیافته از جنبه نظری چقدر با نتایج آزمایشهای مکرر مطابقت دارند. عدم توافق بین فرآیندهای نظری و اندازهگیریهای تجربی اغلب منجر به پیشرفتهای مهمی میشود زیرا نظریههای بهتری توسعه مییابد.
در علوم فیزیکی، مدل سنتی ریاضی شامل تعداد زیادی از عناصر زیر است:
- معادلات کنترلی.
- مدل های فرعی اضافی.
- معادلات را تعریف کنید.
- معادلات سازنده.
- فرض و محدودیت ها.
- شرایط اولیه و مرزی.
- قیود کلاسیک و معادلات سینماتیک.
فرمول
یک مدل آماری، به عنوان یک قاعده، توسط معادلات ریاضی تنظیم می شود که یک یا چند متغیر تصادفی و احتمالاً سایر متغیرهای طبیعی را ترکیب می کند. به طور مشابه، فرافکنی "مفهوم رسمی یک مفهوم" در نظر گرفته می شود.
همه آزمون فرضیه های آماری و ارزیابی های آماری از مدل های ریاضی به دست آمده اند.
مقدمه
به طور غیررسمی، یک مدل آماری را می توان به عنوان یک فرض (یا مجموعه ای از مفروضات) با یک ویژگی خاص مشاهده کرد: به فرد اجازه می دهد تا احتمال هر رویدادی را محاسبه کند. به عنوان مثال، یک جفت تاس شش وجهی معمولی را در نظر بگیرید. دو فرض آماری متفاوت در مورد استخوان باید بررسی شود.
فرض اول این است:
برای هر یک از تاس ها، احتمال به دست آوردن یکی از اعداد (1، 2، 3، 4، 5، و 6) برابر است با: 1/6.
از این فرض، می توانیم احتمال هر دو تاس را محاسبه کنیم: 1:1/6×1/6=1/36.
به طور کلی، شما می توانید احتمال هر رویدادی را محاسبه کنید. با این حال، باید درک کرد که محاسبه احتمال هر رویداد غیر مهم دیگری غیرممکن است.
فقط نظر اول یک مدل ریاضی آماری را جمعآوری میکند: با توجه به اینکه تنها با یک فرض میتوان احتمال هر عمل را تعیین کرد.
در نمونه فوق با مجوز اولیه، به راحتی می توان احتمال وقوع یک رویداد را تعیین کرد. با برخی مثالهای دیگر، محاسبه ممکن است دشوار یا حتی غیرواقعی باشد (مثلاً ممکن است به سالها محاسبات نیاز داشته باشد). برای شخصی که یک مدل تحلیل آماری طراحی می کند، چنین پیچیدگی غیرقابل قبول تلقی می شود: اجرای محاسبات نباید عملاً غیرممکن و از نظر تئوری غیرممکن باشد.
تعریف رسمی
در شرایط ریاضی، مدل آماری یک سیستم معمولاً به عنوان یک جفت (S, P) در نظر گرفته می شود، که در آن S است.مجموعه مشاهدات ممکن، یعنی فضای نمونه، و P مجموعه ای از توزیع های احتمال در S است.
شهود این تعریف به شرح زیر است. فرض بر این است که یک توزیع احتمال "درست" ناشی از فرآیندی است که داده های خاصی را تولید می کند.
تنظیم
این اوست که پارامترهای مدل را تعیین می کند. پارامترسازی معمولاً به مقادیر متفاوتی نیاز دارد تا به توزیعهای مختلف منجر شود، به عنوان مثال،
باید نگه داشته شود (به عبارت دیگر، باید تزریقی باشد). گفته میشود که پارامتری که نیاز را برآورده میکند، قابل شناسایی است.
مثال
فرض کنید تعدادی دانش آموز در سنین مختلف هستند. قد کودک به طور تصادفی با سال تولد مرتبط خواهد بود: به عنوان مثال، وقتی یک پسر مدرسه ای 7 ساله است، این احتمال رشد را تحت تأثیر قرار می دهد، فقط به طوری که قد فرد از 3 سانتی متر بیشتر می شود.
می توانید این رویکرد را در یک مدل رگرسیون مستطیل رسمی کنید، به عنوان مثال، به صورت زیر: ارتفاع i=b 0 + b 1agei + εi، که b 0 تقاطع است، b 1 پارامتری است که سن توسط آن است. در هنگام بدست آوردن پایش ارتفاع ضرب می شود. این یک اصطلاح خطا است. یعنی فرض بر این است که قد با سن با خطای خاصی پیشبینی میشود.
یک فرم معتبر باید با همه نکات اطلاعاتی مطابقت داشته باشد. بنابراین، جهت مستطیلی (سطح i=b 0 + b 1agei) نمی تواند معادله ای برای یک مدل داده باشد - اگر به وضوح به همه نقاط پاسخ ندهد. یعنیبدون استثنا، تمام اطلاعات به طور بی عیب و نقص در خط است. حاشیه خطا εi باید در معادله وارد شود تا فرم کاملاً با تمام موارد اطلاعات مطابقت داشته باشد.
برای استنباط آماری، ابتدا باید چند توزیع احتمال را برای ε i فرض کنیم. برای مثال، میتوان فرض کرد که توزیعهای ε i شکل گاوسی با میانگین صفر دارند. در این حالت، مدل دارای 3 پارامتر خواهد بود: b 0، b 1 و واریانس توزیع گاوسی.
می توانید به طور رسمی مدل را به صورت (S, P) مشخص کنید.
در این مثال، مدل با مشخص کردن S تعریف می شود و بنابراین می توان در مورد P فرضیاتی ایجاد کرد. دو گزینه وجود دارد:
این رشد را می توان با تابع خطی سن تقریب زد؛
که خطاهای تقریب به صورت درون گاوسی توزیع می شوند.
نظرات کلی
پارامترهای آماری مدلها کلاس خاصی از طرح ریزی ریاضی هستند. چه چیزی یک گونه را از گونه دیگر متفاوت می کند؟ بنابراین این است که مدل آماری غیر قطعی است. بنابراین، در آن، بر خلاف معادلات ریاضی، متغیرهای خاصی دارای مقادیر مشخصی نیستند، بلکه دارای توزیع احتمالات هستند. یعنی متغیرهای فردی تصادفی در نظر گرفته می شوند. در مثال بالا، ε یک متغیر تصادفی است. بدون آن، طرح ریزی قطعی خواهد بود.
ساخت یک مدل آماری اغلب استفاده می شود، حتی اگر فرآیند مواد قطعی در نظر گرفته شود. به عنوان مثال، پرتاب سکه، در اصل، یک عمل از پیش تعیین کننده است.با این حال، این هنوز در بیشتر موارد به عنوان تصادفی (از طریق فرآیند برنولی) مدلسازی میشود.
طبق نظر کونیشی و کیتاگاوا، سه هدف برای یک مدل آماری وجود دارد:
- پیشبینیها.
- اطلاعات کاوی.
- شرح ساختارهای تصادفی.
اندازه پروجکشن
فرض کنید یک مدل پیشبینی آماری وجود دارد،
اگر O دارای بعد محدود باشد، مدل پارامتری نامیده می شود. در راه حل باید بنویسید که
که در آن k یک عدد صحیح مثبت است (R مخفف هر عدد واقعی است). در اینجا k بعد مدل نامیده می شود.
به عنوان مثال، می توانیم فرض کنیم که همه داده ها از یک توزیع گاوسی تک متغیره می آیند:
در این مثال، بعد k برابر 2 است.
و به عنوان مثال دیگر، داده ها را می توان متشکل از نقاط (x, y) فرض کرد که در یک خط مستقیم با باقیمانده های گاوسی (با میانگین صفر) توزیع شده اند. سپس بعد مدل اقتصادی آماری برابر با 3 است: تقاطع خط، شیب آن و واریانس توزیع باقیمانده ها. لازم به ذکر است که در هندسه یک خط مستقیم دارای بعد 1 است.
اگرچه مقدار فوق از نظر فنی تنها پارامتری است که دارای بعد k است، گاهی اوقات در نظر گرفته می شود که حاوی k مقادیر متمایز است. به عنوان مثال، با توزیع گاوسی یک بعدی، O تنها پارامتر با اندازه 2 است، اما گاهی اوقات در نظر گرفته می شود که حاوی دو است.پارامتر فردی - مقدار میانگین و انحراف استاندارد.
یک مدل فرآیند آماری ناپارامتریک است اگر مجموعه مقادیر O بیبعد باشد. اگر هم پارامترهای محدود و هم بیبعد داشته باشد، نیمه پارامتریک است. به طور رسمی، اگر k بعد O و n تعداد نمونه ها باشد، مدل های نیمه پارامتریک و ناپارامتریک
دارند.
سپس مدل نیمه پارامتریک است. در غیر این صورت، پیش بینی ناپارامتریک است.
مدل های پارامتریک رایج ترین آمار مورد استفاده هستند. در مورد پیش بینی های نیمه پارامتریک و ناپارامتریک، سر دیوید کاکس بیان کرد:
"معمولاً، آنها کمترین فرضیهها را در مورد بافت و شکل توزیع شامل میشوند، اما شامل نظریههای قدرتمند در مورد خودکفایی هستند."
مدلهای تودرتو
آنها را با پیش بینی های چند سطحی اشتباه نگیرید.
دو مدل آماری تودرتو هستند اگر بتوان اولی را با اعمال محدودیتهایی بر پارامترهای اولی به دومی تبدیل کرد. به عنوان مثال، مجموعه همه توزیعهای گاوسی دارای یک مجموعه تو در تو از توزیعهای میانگین صفر است:
یعنی، باید میانگین را در مجموعه همه توزیعهای گاوسی محدود کنید تا توزیعهایی با میانگین صفر بدست آورید. به عنوان مثال دوم، مدل درجه دوم y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ 2) دارای یک مدل خطی تعبیه شده y=b 0 + b 1 x + ε, ε ~ N (0,σ 2) - یعنی پارامتر b2 برابر است با ۰.
در هر دوی این مثالها، مدل اول ابعاد بالاتری نسبت به مدل دوم دارد. این اغلب است، اما نه همیشه. مثال دیگر مجموعه توزیع های گاوسی با میانگین مثبت است که دارای بعد 2 است.
مقایسه مدل ها
فرض بر این است که یک توزیع احتمال "درست" زیربنای داده های مشاهده شده القا شده توسط فرآیندی که آن را ایجاد کرده است وجود دارد.
و همچنین مدل ها را می توان با استفاده از تحلیل اکتشافی یا تاییدی با یکدیگر مقایسه کرد. در یک تحلیل اکتشافی، مدلهای مختلفی فرمولبندی میشوند و ارزیابی میشود که هر یک از آنها چقدر دادهها را توصیف میکنند. در یک تحلیل تاییدی، فرضیه قبلی فرموله شده با فرضیه اصلی مقایسه می شود. معیارهای رایج برای این عبارتند از P 2، عامل بیزی و احتمال نسبی.
اندیشه کونیشی و کیتاگاوا
«بیشتر مسائل در یک مدل ریاضی آماری را می توان به عنوان سؤالات پیش بینی در نظر گرفت. آنها معمولاً به عنوان مقایسه چندین عامل فرموله می شوند.»
علاوه بر این، سر دیوید کاکس گفت: "به عنوان ترجمه ای از موضوع، مشکل در مدل آماری اغلب مهم ترین بخش تجزیه و تحلیل است."