مدل آماری: ماهیت روش، ساخت و تحلیل

2024 نویسنده: Angel Austin | [email protected]. آخرین اصلاح شده: 2023-12-17 05:24

یک مدل آماری یک پیش بینی ریاضی است که مجموعه ای از مفروضات مختلف را در مورد تولید برخی از داده های نمونه مجسم می کند. این اصطلاح اغلب به شکل بسیار ایده آل ارائه می شود.

فرض های بیان شده در مدل آماری مجموعه ای از توزیع های احتمال را نشان می دهد. بسیاری از آنها به منظور تقریب صحیح توزیعی هستند که مجموعه خاصی از اطلاعات از آن استخراج می شود. توزیع‌های احتمال ذاتی در مدل‌های آماری چیزی است که پیش‌بینی را از سایر اصلاحات ریاضی متمایز می‌کند.

پیش بینی کلی

مدل ریاضی توصیفی از سیستم با استفاده از مفاهیم و زبان خاصی است. آنها برای علوم طبیعی (مانند فیزیک، زیست شناسی، علوم زمین، شیمی) و رشته های مهندسی (مانند علوم کامپیوتر، مهندسی برق)، و همچنین علوم اجتماعی (مانند اقتصاد، روانشناسی، جامعه شناسی، علوم سیاسی) کاربرد دارند.

مدل می تواند به توضیح سیستم وتأثیر مؤلفه‌های مختلف را مطالعه کنید و رفتار را پیش‌بینی کنید.

مدل های ریاضی می توانند اشکال مختلفی داشته باشند، از جمله سیستم های دینامیکی، پیش بینی های آماری، معادلات دیفرانسیل، یا پارامترهای نظری بازی. این و انواع دیگر ممکن است همپوشانی داشته باشند و این مدل ساختارهای انتزاعی بسیاری را در بر می گیرد. به طور کلی، پیش بینی های ریاضی می تواند شامل اجزای منطقی نیز باشد. در بسیاری از موارد، کیفیت یک رشته علمی به این بستگی دارد که مدل‌های ریاضی توسعه‌یافته از جنبه نظری چقدر با نتایج آزمایش‌های مکرر مطابقت دارند. عدم توافق بین فرآیندهای نظری و اندازه‌گیری‌های تجربی اغلب منجر به پیشرفت‌های مهمی می‌شود زیرا نظریه‌های بهتری توسعه می‌یابد.

در علوم فیزیکی، مدل سنتی ریاضی شامل تعداد زیادی از عناصر زیر است:

معادلات کنترلی.
مدل های فرعی اضافی.
معادلات را تعریف کنید.
معادلات سازنده.
فرض و محدودیت ها.
شرایط اولیه و مرزی.
قیود کلاسیک و معادلات سینماتیک.

فرمول

یک مدل آماری، به عنوان یک قاعده، توسط معادلات ریاضی تنظیم می شود که یک یا چند متغیر تصادفی و احتمالاً سایر متغیرهای طبیعی را ترکیب می کند. به طور مشابه، فرافکنی "مفهوم رسمی یک مفهوم" در نظر گرفته می شود.

همه آزمون فرضیه های آماری و ارزیابی های آماری از مدل های ریاضی به دست آمده اند.

مقدمه

به طور غیررسمی، یک مدل آماری را می توان به عنوان یک فرض (یا مجموعه ای از مفروضات) با یک ویژگی خاص مشاهده کرد: به فرد اجازه می دهد تا احتمال هر رویدادی را محاسبه کند. به عنوان مثال، یک جفت تاس شش وجهی معمولی را در نظر بگیرید. دو فرض آماری متفاوت در مورد استخوان باید بررسی شود.

فرض اول این است:

برای هر یک از تاس ها، احتمال به دست آوردن یکی از اعداد (1، 2، 3، 4، 5، و 6) برابر است با: 1/6.

از این فرض، می توانیم احتمال هر دو تاس را محاسبه کنیم: 1:1/6×1/6=1/36.

به طور کلی، شما می توانید احتمال هر رویدادی را محاسبه کنید. با این حال، باید درک کرد که محاسبه احتمال هر رویداد غیر مهم دیگری غیرممکن است.

فقط نظر اول یک مدل ریاضی آماری را جمع‌آوری می‌کند: با توجه به اینکه تنها با یک فرض می‌توان احتمال هر عمل را تعیین کرد.

در نمونه فوق با مجوز اولیه، به راحتی می توان احتمال وقوع یک رویداد را تعیین کرد. با برخی مثال‌های دیگر، محاسبه ممکن است دشوار یا حتی غیرواقعی باشد (مثلاً ممکن است به سال‌ها محاسبات نیاز داشته باشد). برای شخصی که یک مدل تحلیل آماری طراحی می کند، چنین پیچیدگی غیرقابل قبول تلقی می شود: اجرای محاسبات نباید عملاً غیرممکن و از نظر تئوری غیرممکن باشد.

تعریف رسمی

در شرایط ریاضی، مدل آماری یک سیستم معمولاً به عنوان یک جفت (S, P) در نظر گرفته می شود، که در آن S است.مجموعه مشاهدات ممکن، یعنی فضای نمونه، و P مجموعه ای از توزیع های احتمال در S است.

شهود این تعریف به شرح زیر است. فرض بر این است که یک توزیع احتمال "درست" ناشی از فرآیندی است که داده های خاصی را تولید می کند.

تنظیم

این اوست که پارامترهای مدل را تعیین می کند. پارامترسازی معمولاً به مقادیر متفاوتی نیاز دارد تا به توزیع‌های مختلف منجر شود، به عنوان مثال،

باید نگه داشته شود (به عبارت دیگر، باید تزریقی باشد). گفته می‌شود که پارامتری که نیاز را برآورده می‌کند، قابل شناسایی است.

مثال

فرض کنید تعدادی دانش آموز در سنین مختلف هستند. قد کودک به طور تصادفی با سال تولد مرتبط خواهد بود: به عنوان مثال، وقتی یک پسر مدرسه ای 7 ساله است، این احتمال رشد را تحت تأثیر قرار می دهد، فقط به طوری که قد فرد از 3 سانتی متر بیشتر می شود.

می توانید این رویکرد را در یک مدل رگرسیون مستطیل رسمی کنید، به عنوان مثال، به صورت زیر: ارتفاع i=b 0 + b 1agei + εi، که b 0 تقاطع است، b 1 پارامتری است که سن توسط آن است. در هنگام بدست آوردن پایش ارتفاع ضرب می شود. این یک اصطلاح خطا است. یعنی فرض بر این است که قد با سن با خطای خاصی پیش‌بینی می‌شود.

یک فرم معتبر باید با همه نکات اطلاعاتی مطابقت داشته باشد. بنابراین، جهت مستطیلی (سطح i=b 0 + b 1agei) نمی تواند معادله ای برای یک مدل داده باشد - اگر به وضوح به همه نقاط پاسخ ندهد. یعنیبدون استثنا، تمام اطلاعات به طور بی عیب و نقص در خط است. حاشیه خطا εi باید در معادله وارد شود تا فرم کاملاً با تمام موارد اطلاعات مطابقت داشته باشد.

برای استنباط آماری، ابتدا باید چند توزیع احتمال را برای ε i فرض کنیم. برای مثال، می‌توان فرض کرد که توزیع‌های ε i شکل گاوسی با میانگین صفر دارند. در این حالت، مدل دارای 3 پارامتر خواهد بود: b 0، b 1 و واریانس توزیع گاوسی.

می توانید به طور رسمی مدل را به صورت (S, P) مشخص کنید.

در این مثال، مدل با مشخص کردن S تعریف می شود و بنابراین می توان در مورد P فرضیاتی ایجاد کرد. دو گزینه وجود دارد:

این رشد را می توان با تابع خطی سن تقریب زد؛

که خطاهای تقریب به صورت درون گاوسی توزیع می شوند.

نظرات کلی

پارامترهای آماری مدل‌ها کلاس خاصی از طرح ریزی ریاضی هستند. چه چیزی یک گونه را از گونه دیگر متفاوت می کند؟ بنابراین این است که مدل آماری غیر قطعی است. بنابراین، در آن، بر خلاف معادلات ریاضی، متغیرهای خاصی دارای مقادیر مشخصی نیستند، بلکه دارای توزیع احتمالات هستند. یعنی متغیرهای فردی تصادفی در نظر گرفته می شوند. در مثال بالا، ε یک متغیر تصادفی است. بدون آن، طرح ریزی قطعی خواهد بود.

ساخت یک مدل آماری اغلب استفاده می شود، حتی اگر فرآیند مواد قطعی در نظر گرفته شود. به عنوان مثال، پرتاب سکه، در اصل، یک عمل از پیش تعیین کننده است.با این حال، این هنوز در بیشتر موارد به عنوان تصادفی (از طریق فرآیند برنولی) مدل‌سازی می‌شود.

طبق نظر کونیشی و کیتاگاوا، سه هدف برای یک مدل آماری وجود دارد:

پیش‌بینی‌ها.
اطلاعات کاوی.
شرح ساختارهای تصادفی.

اندازه پروجکشن

فرض کنید یک مدل پیش‌بینی آماری وجود دارد،

اگر O دارای بعد محدود باشد، مدل پارامتری نامیده می شود. در راه حل باید بنویسید که

که در آن k یک عدد صحیح مثبت است (R مخفف هر عدد واقعی است). در اینجا k بعد مدل نامیده می شود.

به عنوان مثال، می توانیم فرض کنیم که همه داده ها از یک توزیع گاوسی تک متغیره می آیند:

در این مثال، بعد k برابر 2 است.

و به عنوان مثال دیگر، داده ها را می توان متشکل از نقاط (x, y) فرض کرد که در یک خط مستقیم با باقیمانده های گاوسی (با میانگین صفر) توزیع شده اند. سپس بعد مدل اقتصادی آماری برابر با 3 است: تقاطع خط، شیب آن و واریانس توزیع باقیمانده ها. لازم به ذکر است که در هندسه یک خط مستقیم دارای بعد 1 است.

اگرچه مقدار فوق از نظر فنی تنها پارامتری است که دارای بعد k است، گاهی اوقات در نظر گرفته می شود که حاوی k مقادیر متمایز است. به عنوان مثال، با توزیع گاوسی یک بعدی، O تنها پارامتر با اندازه 2 است، اما گاهی اوقات در نظر گرفته می شود که حاوی دو است.پارامتر فردی - مقدار میانگین و انحراف استاندارد.

یک مدل فرآیند آماری ناپارامتریک است اگر مجموعه مقادیر O بی‌بعد باشد. اگر هم پارامترهای محدود و هم بی‌بعد داشته باشد، نیمه پارامتریک است. به طور رسمی، اگر k بعد O و n تعداد نمونه ها باشد، مدل های نیمه پارامتریک و ناپارامتریک

دارند.

سپس مدل نیمه پارامتریک است. در غیر این صورت، پیش بینی ناپارامتریک است.

مدل های پارامتریک رایج ترین آمار مورد استفاده هستند. در مورد پیش بینی های نیمه پارامتریک و ناپارامتریک، سر دیوید کاکس بیان کرد:

"معمولاً، آنها کمترین فرضیه‌ها را در مورد بافت و شکل توزیع شامل می‌شوند، اما شامل نظریه‌های قدرتمند در مورد خودکفایی هستند."

مدل‌های تودرتو

آنها را با پیش بینی های چند سطحی اشتباه نگیرید.

دو مدل آماری تودرتو هستند اگر بتوان اولی را با اعمال محدودیت‌هایی بر پارامترهای اولی به دومی تبدیل کرد. به عنوان مثال، مجموعه همه توزیع‌های گاوسی دارای یک مجموعه تو در تو از توزیع‌های میانگین صفر است:

یعنی، باید میانگین را در مجموعه همه توزیع‌های گاوسی محدود کنید تا توزیع‌هایی با میانگین صفر بدست آورید. به عنوان مثال دوم، مدل درجه دوم y=b 0 + b 1 x + b 2 x 2 + ε, ε ~N (0, σ ²) دارای یک مدل خطی تعبیه شده y=b ₀ + b ₁ x + ε, ε ~ N (0,σ ²) - یعنی پارامتر b₂ برابر است با ۰.

در هر دوی این مثالها، مدل اول ابعاد بالاتری نسبت به مدل دوم دارد. این اغلب است، اما نه همیشه. مثال دیگر مجموعه توزیع های گاوسی با میانگین مثبت است که دارای بعد 2 است.

مقایسه مدل ها

فرض بر این است که یک توزیع احتمال "درست" زیربنای داده های مشاهده شده القا شده توسط فرآیندی که آن را ایجاد کرده است وجود دارد.

و همچنین مدل ها را می توان با استفاده از تحلیل اکتشافی یا تاییدی با یکدیگر مقایسه کرد. در یک تحلیل اکتشافی، مدل‌های مختلفی فرمول‌بندی می‌شوند و ارزیابی می‌شود که هر یک از آنها چقدر داده‌ها را توصیف می‌کنند. در یک تحلیل تاییدی، فرضیه قبلی فرموله شده با فرضیه اصلی مقایسه می شود. معیارهای رایج برای این عبارتند از P ²، عامل بیزی و احتمال نسبی.