مفروضات تجسم شده در مدلسازی آماری مجموعهای از توزیعهای احتمال را توصیف میکنند که برخی از آنها فرض میشود به اندازه کافی توزیع را تقریب میکنند. مجموعه خاصی از داده ها از تعریف انتخاب شده است. توزیعهای احتمال ذاتی مدلسازی آماری همان چیزی است که مدلهای آماری را از سایر مدلهای غیرآماری ریاضی متمایز میکند.
ارتباط با ریاضیات
این روش علمی اساساً ریشه در ریاضیات دارد. مدلسازی آماری سیستمها معمولاً با معادلات ریاضی ارائه میشود که یک یا چند متغیر تصادفی و احتمالاً متغیرهای غیرتصادفی دیگر را به هم مرتبط میکنند. بنابراین، یک مدل آماری «نمایش رسمی یک نظریه» است (هرمان آدر، به نقل از کنت بولن).
همه آزمونهای فرضیههای آماری و همه برآوردهای آماری از مدلهای آماری مشتق شدهاند. به طور کلی تر، مدل های آماری بخشی از اساس استنتاج آماری هستند.
روشهای آماریمدلینگ
به طور غیررسمی، یک مدل آماری را می توان به عنوان یک فرض آماری (یا مجموعه ای از فرضیات آماری) با خاصیت خاصی در نظر گرفت: این فرض به ما امکان می دهد تا احتمال هر رویداد را محاسبه کنیم. به عنوان مثال، یک جفت تاس شش وجهی معمولی را در نظر بگیرید. ما دو فرض آماری متفاوت در مورد استخوان را مطالعه خواهیم کرد.
فرض اول آماری مدل آماری را تشکیل می دهد، زیرا تنها با یک فرض می توانیم احتمال هر رویدادی را محاسبه کنیم. فرض آماری جایگزین یک مدل آماری را تشکیل نمی دهد، زیرا تنها با یک فرض نمی توانیم احتمال هر رویداد را محاسبه کنیم.
در مثال بالا با فرض اول، محاسبه احتمال یک رویداد آسان است. با این حال، در برخی مثالهای دیگر، محاسبه ممکن است پیچیده یا حتی غیرعملی باشد (برای مثال، ممکن است به میلیونها سال محاسبه نیاز داشته باشد). برای فرضی که یک مدل آماری را تشکیل می دهد، این دشواری قابل قبول است: انجام محاسبات لازم نیست عملاً امکان پذیر باشد، فقط از نظر تئوری ممکن است.
نمونههایی از مدلها
فرض کنید که ما جمعیتی از دانشآموزان با کودکانی داریم که به طور مساوی توزیع شدهاند. قد کودک به طور تصادفی با سن مرتبط خواهد بود: به عنوان مثال، وقتی می دانیم کودک 7 ساله است، این احتمال قد کودک 5 فوت (حدود 152 سانتی متر) را تحت تاثیر قرار می دهد. ما می توانیم این رابطه را در یک مدل رگرسیون خطی رسمی کنیم، به عنوان مثال: رشد=b0 + b1agei+ εi، جایی که b0 نقطه تقاطع است، b1 پارامتری است که در هنگام بدست آوردن پیش بینی رشد، سن در آن ضرب می شود، εi عبارت خطا است. این بدان معناست که قد با سن با مقداری خطا پیشبینی میشود.
یک مدل معتبر باید با تمام نقاط داده مطابقت داشته باشد. بنابراین یک خط مستقیم (heighti=b0 + b1agei) نمی تواند معادله ای برای یک مدل داده باشد - مگر اینکه دقیقاً با تمام نقاط داده مطابقت داشته باشد، یعنی همه نقاط داده کاملاً روی خط قرار بگیرند. عبارت خطا εi باید در معادله گنجانده شود تا مدل با تمام نقاط داده مطابقت داشته باشد.
برای استنباط آماری، ابتدا باید چند توزیع احتمال را برای εi فرض کنیم. برای مثال، میتوانیم فرض کنیم که توزیع εi گاوسی و با میانگین صفر است. در این حالت، مدل دارای 3 پارامتر خواهد بود: b0، b1 و واریانس توزیع گاوسی.
توضیحات کلی
یک مدل آماری کلاس خاصی از مدل ریاضی است. چیزی که یک مدل آماری را از سایر مدل های ریاضی متمایز می کند، غیر قطعی بودن آن است. برای مدل سازی داده های آماری استفاده می شود. بنابراین، در یک مدل آماری تعریف شده با معادلات ریاضی، برخی از متغیرها مقادیر مشخصی ندارند، بلکه دارای توزیع احتمال هستند. یعنی برخی از متغیرها تصادفی هستند. در مثال بالا، ε یک متغیر تصادفی است. بدون این متغیر، مدل بودقطعی خواهد بود.
مدلهای آماری اغلب در تحلیل و مدلسازی آماری استفاده میشوند، حتی اگر فرآیند فیزیکی مدلسازی شده قطعی باشد. به عنوان مثال، پرتاب سکه در اصل یک فرآیند قطعی است. اما معمولاً به صورت تصادفی (از طریق فرآیند برنولی) مدلسازی میشود.
مدل های پارامتریک
مدل های پارامتریک رایج ترین مدل های آماری مورد استفاده هستند. سر دیوید کاکس در مورد مدل های نیمه پارامتریک و ناپارامتریک گفت: آنها معمولاً مفروضات کمتری در مورد ساختار و شکل توزیع دارند، اما معمولاً دارای فرضیات مستقل قوی هستند. مانند سایر مدل های ذکر شده، آنها نیز اغلب در روش آماری مدل سازی ریاضی استفاده می شوند.
مدل های چندسطحی
مدلهای چندسطحی (همچنین بهعنوان مدلهای خطی سلسله مراتبی، مدلهای داده تودرتو، مدلهای مختلط، ضرایب تصادفی، مدلهای اثرات تصادفی، مدلهای پارامتر تصادفی، یا مدلهای تقسیمبندی شده نیز شناخته میشوند) مدلهای پارامتر آماری هستند که در بیش از یک سطح متفاوت هستند. یک مثال یک مدل پیشرفت دانشآموز است که شامل معیارهایی برای تک تک دانشآموزان و همچنین معیارهایی برای کلاسهایی است که دانشآموزان در آنها گروهبندی میشوند. این مدل ها را می توان به عنوان تعمیم مدل های خطی (به ویژه رگرسیون خطی) در نظر گرفت، اگرچه می توان آنها را به مدل های غیر خطی نیز تعمیم داد. این مدل ها تبدیل شده اندزمانی که قدرت محاسباتی و نرم افزار کافی در دسترس قرار گرفت بسیار محبوب تر شد.
مدلهای چند سطحی بهویژه برای پروژههای تحقیقاتی مناسب هستند که در آن دادههای شرکتکنندگان در بیش از یک سطح سازماندهی شدهاند (یعنی دادههای تودرتو). واحدهای تجزیه و تحلیل معمولاً افراد (در سطح پایین تر) هستند که درون واحدهای بافتی/مجموعه (در سطح بالاتر) تودرتو هستند. در حالی که کمترین سطح داده در مدلهای چند سطحی معمولاً فردی است، اندازهگیریهای مکرر افراد نیز میتواند در نظر گرفته شود. بنابراین، مدلهای چند سطحی یک نوع تحلیل جایگزین برای تحلیل اندازهگیریهای مکرر تک متغیره یا چند متغیره ارائه میکنند. تفاوت های فردی در منحنی های رشد را می توان در نظر گرفت. علاوه بر این، مدلهای چند سطحی را میتوان به عنوان جایگزینی برای ANCOVA استفاده کرد، که در آن امتیازات متغیر وابسته برای متغیرهای کمکی (مثلاً تفاوتهای فردی) قبل از آزمایش تفاوتهای درمان تنظیم میشوند. مدلهای چند سطحی میتوانند این آزمایشها را بدون فرض شیبهای رگرسیون یکنواخت مورد نیاز ANCOVA تجزیه و تحلیل کنند.
مدلهای چندسطحی را میتوان برای دادههایی با سطوح مختلف استفاده کرد، اگرچه مدلهای دو سطحی رایجترین هستند و بقیه این مقاله بر روی آنها تمرکز دارد. متغیر وابسته باید در پایین ترین سطح تحلیل بررسی شود.
انتخاب مدل
انتخاب مدلوظیفه انتخاب از میان مجموعه ای از مدل های کاندید با توجه به داده ها است که در چارچوب مدل سازی آماری انجام می شود. در ساده ترین موارد، یک مجموعه داده از قبل موجود در نظر گرفته می شود. با این حال، این کار ممکن است شامل طراحی آزمایشهایی نیز باشد تا دادههای جمعآوریشده به خوبی برای کار انتخاب مدل مناسب باشند. با توجه به مدلهای کاندید با قدرت پیشبینی یا توضیح مشابه، سادهترین مدل احتمالاً بهترین انتخاب است (تیغ اوکام).
Konishi & Kitagawa می گویند، "بیشتر مسائل استنتاج آماری را می توان مشکلات مربوط به مدل سازی آماری در نظر گرفت." به طور مشابه، کاکس گفت: "نحوه ترجمه موضوع به مدل آماری اغلب مهمترین بخش تجزیه و تحلیل است."
انتخاب مدل همچنین می تواند به مشکل انتخاب چند مدل معرف از مجموعه بزرگی از مدل های محاسباتی برای اهداف تصمیم گیری یا بهینه سازی در شرایط عدم قطعیت اشاره داشته باشد.
الگوهای گرافیکی
مدل گرافیکی، یا مدل گرافیکی احتمالی، (PGM) یا مدل احتمالی ساختاریافته، یک مدل احتمالی است که نمودار ساختار یک رابطه شرطی بین متغیرهای تصادفی را بیان می کند. آنها معمولاً در نظریه احتمال، آمار (به ویژه آمار بیزی) و یادگیری ماشین استفاده می شوند.
مدل های اقتصادسنجی
مدل های اقتصادسنجی مدل های آماری مورد استفاده دراقتصاد سنجی یک مدل اقتصاد سنجی روابط آماری را تعریف می کند که گمان می رود بین مقادیر مختلف اقتصادی مرتبط با یک پدیده اقتصادی خاص وجود دارد. یک مدل اقتصادسنجی را می توان از یک مدل اقتصادی قطعی که عدم قطعیت را در نظر می گیرد، یا از یک مدل اقتصادی که خود تصادفی است، استخراج کرد. با این حال، می توان از مدل های اقتصادسنجی استفاده کرد که به هیچ نظریه اقتصادی خاصی وابسته نیستند.