مدلسازی آماری: روش ها، توضیحات، کاربرد

فهرست مطالب:

مدلسازی آماری: روش ها، توضیحات، کاربرد
مدلسازی آماری: روش ها، توضیحات، کاربرد
Anonim

مفروضات تجسم شده در مدل‌سازی آماری مجموعه‌ای از توزیع‌های احتمال را توصیف می‌کنند که برخی از آن‌ها فرض می‌شود به اندازه کافی توزیع را تقریب می‌کنند. مجموعه خاصی از داده ها از تعریف انتخاب شده است. توزیع‌های احتمال ذاتی مدل‌سازی آماری همان چیزی است که مدل‌های آماری را از سایر مدل‌های غیرآماری ریاضی متمایز می‌کند.

Image
Image

ارتباط با ریاضیات

این روش علمی اساساً ریشه در ریاضیات دارد. مدل‌سازی آماری سیستم‌ها معمولاً با معادلات ریاضی ارائه می‌شود که یک یا چند متغیر تصادفی و احتمالاً متغیرهای غیرتصادفی دیگر را به هم مرتبط می‌کنند. بنابراین، یک مدل آماری «نمایش رسمی یک نظریه» است (هرمان آدر، به نقل از کنت بولن).

همه آزمون‌های فرضیه‌های آماری و همه برآوردهای آماری از مدل‌های آماری مشتق شده‌اند. به طور کلی تر، مدل های آماری بخشی از اساس استنتاج آماری هستند.

روشهای آماریمدلینگ

به طور غیررسمی، یک مدل آماری را می توان به عنوان یک فرض آماری (یا مجموعه ای از فرضیات آماری) با خاصیت خاصی در نظر گرفت: این فرض به ما امکان می دهد تا احتمال هر رویداد را محاسبه کنیم. به عنوان مثال، یک جفت تاس شش وجهی معمولی را در نظر بگیرید. ما دو فرض آماری متفاوت در مورد استخوان را مطالعه خواهیم کرد.

فرض اول آماری مدل آماری را تشکیل می دهد، زیرا تنها با یک فرض می توانیم احتمال هر رویدادی را محاسبه کنیم. فرض آماری جایگزین یک مدل آماری را تشکیل نمی دهد، زیرا تنها با یک فرض نمی توانیم احتمال هر رویداد را محاسبه کنیم.

مدل آماری معمولی
مدل آماری معمولی

در مثال بالا با فرض اول، محاسبه احتمال یک رویداد آسان است. با این حال، در برخی مثال‌های دیگر، محاسبه ممکن است پیچیده یا حتی غیرعملی باشد (برای مثال، ممکن است به میلیون‌ها سال محاسبه نیاز داشته باشد). برای فرضی که یک مدل آماری را تشکیل می دهد، این دشواری قابل قبول است: انجام محاسبات لازم نیست عملاً امکان پذیر باشد، فقط از نظر تئوری ممکن است.

نمونه‌هایی از مدل‌ها

فرض کنید که ما جمعیتی از دانش‌آموزان با کودکانی داریم که به طور مساوی توزیع شده‌اند. قد کودک به طور تصادفی با سن مرتبط خواهد بود: به عنوان مثال، وقتی می دانیم کودک 7 ساله است، این احتمال قد کودک 5 فوت (حدود 152 سانتی متر) را تحت تاثیر قرار می دهد. ما می توانیم این رابطه را در یک مدل رگرسیون خطی رسمی کنیم، به عنوان مثال: رشد=b0 + b1agei+ εi، جایی که b0 نقطه تقاطع است، b1 پارامتری است که در هنگام بدست آوردن پیش بینی رشد، سن در آن ضرب می شود، εi عبارت خطا است. این بدان معناست که قد با سن با مقداری خطا پیش‌بینی می‌شود.

یک مدل معتبر باید با تمام نقاط داده مطابقت داشته باشد. بنابراین یک خط مستقیم (heighti=b0 + b1agei) نمی تواند معادله ای برای یک مدل داده باشد - مگر اینکه دقیقاً با تمام نقاط داده مطابقت داشته باشد، یعنی همه نقاط داده کاملاً روی خط قرار بگیرند. عبارت خطا εi باید در معادله گنجانده شود تا مدل با تمام نقاط داده مطابقت داشته باشد.

آمار جنسیتی
آمار جنسیتی

برای استنباط آماری، ابتدا باید چند توزیع احتمال را برای εi فرض کنیم. برای مثال، می‌توانیم فرض کنیم که توزیع εi گاوسی و با میانگین صفر است. در این حالت، مدل دارای 3 پارامتر خواهد بود: b0، b1 و واریانس توزیع گاوسی.

توضیحات کلی

یک مدل آماری کلاس خاصی از مدل ریاضی است. چیزی که یک مدل آماری را از سایر مدل های ریاضی متمایز می کند، غیر قطعی بودن آن است. برای مدل سازی داده های آماری استفاده می شود. بنابراین، در یک مدل آماری تعریف شده با معادلات ریاضی، برخی از متغیرها مقادیر مشخصی ندارند، بلکه دارای توزیع احتمال هستند. یعنی برخی از متغیرها تصادفی هستند. در مثال بالا، ε یک متغیر تصادفی است. بدون این متغیر، مدل بودقطعی خواهد بود.

مدل‌های آماری اغلب در تحلیل و مدل‌سازی آماری استفاده می‌شوند، حتی اگر فرآیند فیزیکی مدل‌سازی شده قطعی باشد. به عنوان مثال، پرتاب سکه در اصل یک فرآیند قطعی است. اما معمولاً به صورت تصادفی (از طریق فرآیند برنولی) مدل‌سازی می‌شود.

آمار گرمایش
آمار گرمایش

مدل های پارامتریک

مدل های پارامتریک رایج ترین مدل های آماری مورد استفاده هستند. سر دیوید کاکس در مورد مدل های نیمه پارامتریک و ناپارامتریک گفت: آنها معمولاً مفروضات کمتری در مورد ساختار و شکل توزیع دارند، اما معمولاً دارای فرضیات مستقل قوی هستند. مانند سایر مدل های ذکر شده، آنها نیز اغلب در روش آماری مدل سازی ریاضی استفاده می شوند.

مدل های چندسطحی

مدل‌های چندسطحی (همچنین به‌عنوان مدل‌های خطی سلسله مراتبی، مدل‌های داده تودرتو، مدل‌های مختلط، ضرایب تصادفی، مدل‌های اثرات تصادفی، مدل‌های پارامتر تصادفی، یا مدل‌های تقسیم‌بندی شده نیز شناخته می‌شوند) مدل‌های پارامتر آماری هستند که در بیش از یک سطح متفاوت هستند. یک مثال یک مدل پیشرفت دانش‌آموز است که شامل معیارهایی برای تک تک دانش‌آموزان و همچنین معیارهایی برای کلاس‌هایی است که دانش‌آموزان در آنها گروه‌بندی می‌شوند. این مدل ها را می توان به عنوان تعمیم مدل های خطی (به ویژه رگرسیون خطی) در نظر گرفت، اگرچه می توان آنها را به مدل های غیر خطی نیز تعمیم داد. این مدل ها تبدیل شده اندزمانی که قدرت محاسباتی و نرم افزار کافی در دسترس قرار گرفت بسیار محبوب تر شد.

آمار بخش
آمار بخش

مدل‌های چند سطحی به‌ویژه برای پروژه‌های تحقیقاتی مناسب هستند که در آن داده‌های شرکت‌کنندگان در بیش از یک سطح سازماندهی شده‌اند (یعنی داده‌های تودرتو). واحدهای تجزیه و تحلیل معمولاً افراد (در سطح پایین تر) هستند که درون واحدهای بافتی/مجموعه (در سطح بالاتر) تودرتو هستند. در حالی که کمترین سطح داده در مدل‌های چند سطحی معمولاً فردی است، اندازه‌گیری‌های مکرر افراد نیز می‌تواند در نظر گرفته شود. بنابراین، مدل‌های چند سطحی یک نوع تحلیل جایگزین برای تحلیل اندازه‌گیری‌های مکرر تک متغیره یا چند متغیره ارائه می‌کنند. تفاوت های فردی در منحنی های رشد را می توان در نظر گرفت. علاوه بر این، مدل‌های چند سطحی را می‌توان به عنوان جایگزینی برای ANCOVA استفاده کرد، که در آن امتیازات متغیر وابسته برای متغیرهای کمکی (مثلاً تفاوت‌های فردی) قبل از آزمایش تفاوت‌های درمان تنظیم می‌شوند. مدل‌های چند سطحی می‌توانند این آزمایش‌ها را بدون فرض شیب‌های رگرسیون یکنواخت مورد نیاز ANCOVA تجزیه و تحلیل کنند.

مدل‌های چندسطحی را می‌توان برای داده‌هایی با سطوح مختلف استفاده کرد، اگرچه مدل‌های دو سطحی رایج‌ترین هستند و بقیه این مقاله بر روی آنها تمرکز دارد. متغیر وابسته باید در پایین ترین سطح تحلیل بررسی شود.

نمودار فشار اتمسفر
نمودار فشار اتمسفر

انتخاب مدل

انتخاب مدلوظیفه انتخاب از میان مجموعه ای از مدل های کاندید با توجه به داده ها است که در چارچوب مدل سازی آماری انجام می شود. در ساده ترین موارد، یک مجموعه داده از قبل موجود در نظر گرفته می شود. با این حال، این کار ممکن است شامل طراحی آزمایش‌هایی نیز باشد تا داده‌های جمع‌آوری‌شده به خوبی برای کار انتخاب مدل مناسب باشند. با توجه به مدل‌های کاندید با قدرت پیش‌بینی یا توضیح مشابه، ساده‌ترین مدل احتمالاً بهترین انتخاب است (تیغ اوکام).

Konishi & Kitagawa می گویند، "بیشتر مسائل استنتاج آماری را می توان مشکلات مربوط به مدل سازی آماری در نظر گرفت." به طور مشابه، کاکس گفت: "نحوه ترجمه موضوع به مدل آماری اغلب مهمترین بخش تجزیه و تحلیل است."

انتخاب مدل همچنین می تواند به مشکل انتخاب چند مدل معرف از مجموعه بزرگی از مدل های محاسباتی برای اهداف تصمیم گیری یا بهینه سازی در شرایط عدم قطعیت اشاره داشته باشد.

الگوهای گرافیکی

مدل گرافیکی، یا مدل گرافیکی احتمالی، (PGM) یا مدل احتمالی ساختاریافته، یک مدل احتمالی است که نمودار ساختار یک رابطه شرطی بین متغیرهای تصادفی را بیان می کند. آنها معمولاً در نظریه احتمال، آمار (به ویژه آمار بیزی) و یادگیری ماشین استفاده می شوند.

مدل آماری با نمودار
مدل آماری با نمودار

مدل های اقتصادسنجی

مدل های اقتصادسنجی مدل های آماری مورد استفاده دراقتصاد سنجی یک مدل اقتصاد سنجی روابط آماری را تعریف می کند که گمان می رود بین مقادیر مختلف اقتصادی مرتبط با یک پدیده اقتصادی خاص وجود دارد. یک مدل اقتصادسنجی را می توان از یک مدل اقتصادی قطعی که عدم قطعیت را در نظر می گیرد، یا از یک مدل اقتصادی که خود تصادفی است، استخراج کرد. با این حال، می توان از مدل های اقتصادسنجی استفاده کرد که به هیچ نظریه اقتصادی خاصی وابسته نیستند.

توصیه شده: