رگرسیون لجستیک: مدل و روش‌ها

2024 نویسنده: Angel Austin | [email protected]. آخرین اصلاح شده: 2023-12-17 05:24

روشهای رگرسیون لجستیک و تجزیه و تحلیل متمایز زمانی استفاده می شود که لازم باشد پاسخ دهندگان را به وضوح بر اساس دسته های هدف متمایز کنیم. در این مورد، خود گروه ها با سطوح یک پارامتر تک متغیره نشان داده می شوند. بیایید نگاهی دقیق‌تر به مدل رگرسیون لجستیک بیندازیم و دریابیم که چرا به آن نیاز است.

اطلاعات عمومی

نمونه ای از مشکلی که در آن از رگرسیون لجستیک استفاده می شود، طبقه بندی پاسخ دهندگان به گروه هایی است که خردل می خرند و نمی خرند. تمایز مطابق با ویژگی های اجتماعی و جمعیتی انجام می شود. اینها به ویژه شامل سن، جنسیت، تعداد اقوام، درآمد و غیره است. در عملیات، معیارهای تمایز و یک متغیر وجود دارد. دومی دسته بندی های هدف را رمزگذاری می کند که در واقع پاسخ دهندگان باید به آنها تقسیم شوند.

Nuances

باید گفت که دامنه مواردی که در آنها رگرسیون لجستیک اعمال می شود بسیار محدودتر از تجزیه و تحلیل متمایز است. در این راستا، استفاده از دومی به عنوان یک روش جهانی تمایز در نظر گرفته شده استترجیح داده تر علاوه بر این، کارشناسان توصیه می کنند که مطالعات طبقه بندی را با تجزیه و تحلیل متمایز شروع کنند. و تنها در صورت عدم قطعیت در مورد نتایج، می توانید از رگرسیون لجستیک استفاده کنید. این نیاز ناشی از عوامل متعددی است. رگرسیون لجستیک زمانی استفاده می شود که درک روشنی از نوع متغیرهای مستقل و وابسته وجود داشته باشد. بر این اساس، یکی از 3 روش ممکن انتخاب می شود. در تحلیل تمایز، محقق همیشه با یک عملیات ایستا سر و کار دارد. این شامل یک متغیر وابسته و چندین متغیر مقوله ای مستقل با هر نوع مقیاس است.

بازدید

وظیفه یک مطالعه آماری که از رگرسیون لجستیک استفاده می کند، تعیین احتمال تخصیص یک پاسخ دهنده خاص به یک گروه خاص است. تمایز با توجه به پارامترهای خاصی انجام می شود. در عمل، با توجه به مقادیر یک یا چند عامل مستقل، می توان پاسخ دهندگان را به دو گروه طبقه بندی کرد. در این حالت رگرسیون لجستیک باینری صورت می گیرد. همچنین، پارامترهای مشخص شده را می توان در هنگام تقسیم به گروه های بیش از دو مورد استفاده کرد. در چنین شرایطی رگرسیون لجستیک چندجمله ای صورت می گیرد. گروه های به دست آمده در سطوح یک متغیر منفرد بیان می شوند.

مثال

بیایید بگوییم پاسخ پاسخ دهندگان به این سؤال وجود دارد که آیا آنها به پیشنهاد خرید یک قطعه زمین در حومه مسکو علاقه مند هستند یا خیر. گزینه ها "نه" هستندو بله. باید دریابید که کدام عوامل بر تصمیم خریداران بالقوه تأثیر غالب دارند. برای انجام این کار، از پاسخ دهندگان سؤالاتی در مورد زیرساخت قلمرو، فاصله تا پایتخت، مساحت سایت، وجود / عدم وجود یک ساختمان مسکونی و غیره پرسیده می شود. با استفاده از رگرسیون باینری، امکان توزیع وجود دارد. پاسخ دهندگان به دو گروه اولی شامل کسانی می شود که علاقه مند به خرید هستند - خریداران بالقوه، و دومی، به ترتیب، کسانی که علاقه مند به چنین پیشنهادی نیستند. برای هر پاسخگو، علاوه بر این، احتمال انتساب به یک یا دسته دیگر محاسبه خواهد شد.

ویژگی های مقایسه ای

تفاوت دو گزینه بالا در تعداد متفاوت گروه ها و نوع متغیرهای وابسته و مستقل است. برای مثال در رگرسیون باینری، وابستگی یک عامل دوگانه به یک یا چند شرط مستقل مورد مطالعه قرار می گیرد. علاوه بر این، دومی می تواند هر نوع مقیاسی داشته باشد. رگرسیون چندجمله ای یکی از انواع این گزینه طبقه بندی در نظر گرفته می شود. در آن بیش از 2 گروه به متغیر وابسته تعلق دارند. عوامل مستقل باید دارای مقیاس ترتیبی یا اسمی باشند.

رگرسیون لجستیک در spss

در بسته آماری 11-12 نسخه جدیدی از تجزیه و تحلیل معرفی شد - ترتیبی. این روش زمانی استفاده می شود که عامل وابسته به مقیاس همنام (ترتیبی) تعلق داشته باشد. در این حالت متغیرهای مستقل از یک نوع خاص انتخاب می شوند. آنها باید یا ترتیبی یا اسمی باشند. طبقه بندی به چند دسته بیشتر در نظر گرفته می شودجهانی. این روش در تمامی مطالعاتی که از رگرسیون لجستیک استفاده می کنند قابل استفاده است. با این حال، تنها راه برای بهبود کیفیت یک مدل استفاده از هر سه تکنیک است.

طبقه بندی ترتیبی

لازم به ذکر است که قبلاً در بسته آماری امکان معمولی برای انجام تحلیل تخصصی عوامل وابسته با مقیاس ترتیبی وجود نداشت. برای همه متغیرهای دارای بیش از 2 گروه، از متغیر چند نامی استفاده شد. تحلیل ترتیبی نسبتاً اخیراً معرفی شده دارای تعدادی ویژگی است. آنها ویژگی های مقیاس را در نظر می گیرند. ضمناً در وسایل کمک آموزشی غالباً رگرسیون لجستیک ترتیبی به عنوان یک تکنیک جداگانه در نظر گرفته نمی شود. این به دلیل موارد زیر است: تجزیه و تحلیل ترتیبی هیچ مزیت قابل توجهی نسبت به چند جمله ای ندارد. محقق ممکن است از دومی در حضور هر دو متغیر وابسته ترتیبی و اسمی استفاده کند. در عین حال، فرآیندهای طبقه بندی خود تقریباً با یکدیگر تفاوت ندارند. این بدان معنی است که انجام آنالیز ترتیبی هیچ مشکلی ایجاد نخواهد کرد.

گزینه تحلیل

بیایید یک مورد ساده را در نظر بگیریم - رگرسیون باینری. فرض کنید، در فرآیند تحقیقات بازاریابی، تقاضا برای فارغ التحصیلان یک دانشگاه شهری خاص ارزیابی می شود. در پرسشنامه، از پاسخ دهندگان سؤالاتی پرسیده شد، از جمله:

شغل هستید؟ (ql).
سال فارغ التحصیلی را وارد کنید (q 21).
میانگین چقدر استنمره فارغ التحصیلی (میانگین).
جنسیت (q22).

رگرسیون لجستیک تأثیر عوامل مستقل aver، q 21 و q 22 را بر روی متغیر ql ارزیابی می کند. به عبارت ساده، هدف از تجزیه و تحلیل، تعیین اشتغال احتمالی فارغ التحصیلان بر اساس اطلاعات مربوط به رشته، سال فارغ التحصیلی و معدل خواهد بود.

رگرسیون لجستیک

برای تنظیم پارامترها با استفاده از رگرسیون باینری، از منوی Analyze►Reggression►Binary Logistic استفاده کنید. در پنجره Logistic Regression، فاکتور وابسته را از لیست متغیرهای موجود در سمت چپ انتخاب کنید. ql است. این متغیر باید در قسمت Dependent قرار گیرد. پس از آن، لازم است عوامل مستقل را به نمودار کمکی وارد کنیم - q 21، q 22، aver. سپس باید نحوه گنجاندن آنها را در تحلیل خود انتخاب کنید. اگر تعداد فاکتورهای مستقل بیش از 2 باشد، از روش معرفی همزمان همه متغیرها که به صورت پیش فرض تنظیم شده است، اما گام به گام استفاده می شود. محبوب ترین راه Backward:LR است. با استفاده از دکمه انتخاب، می توانید نه همه پاسخ دهندگان، بلکه فقط یک دسته هدف خاص را در مطالعه بگنجانید.

تعریف متغیرهای طبقه بندی

دکمه Category باید زمانی استفاده شود که یکی از متغیرهای مستقل اسمی با بیش از 2 دسته باشد. در این شرایط در پنجره Define Categorical Variables، دقیقاً چنین پارامتری در قسمت Categorical Covariates قرار می گیرد. در این مثال، چنین متغیری وجود ندارد. پس از آن، در لیست کشویی Contrast دنبال می شودمورد Deviation را انتخاب کرده و دکمه Change را فشار دهید. در نتیجه از هر عامل اسمی چندین متغیر وابسته تشکیل خواهد شد. تعداد آنها با تعداد دسته های شرط اولیه مطابقت دارد.

ذخیره متغیرهای جدید

با استفاده از دکمه Save در کادر محاوره ای اصلی مطالعه، ایجاد پارامترهای جدید تنظیم می شود. آنها شامل شاخص های محاسبه شده در فرآیند رگرسیون خواهند بود. به طور خاص، می توانید متغیرهایی ایجاد کنید که تعریف می کنند:

تعلق به یک دسته بندی خاص (عضویت در گروه).
احتمال اختصاص پاسخ دهنده به هر گروه مطالعه (احتمالات).

هنگام استفاده از دکمه Options، محقق هیچ گزینه قابل توجهی دریافت نمی کند. بر این اساس، می توان آن را نادیده گرفت. پس از کلیک بر روی دکمه "OK"، نتایج تجزیه و تحلیل در پنجره اصلی نمایش داده می شود.

بررسی کیفیت برای کفایت و رگرسیون لجستیک

جدول Omnibus Testsof Model Coefficients را در نظر بگیرید. نتایج حاصل از تجزیه و تحلیل کیفیت تقریب مدل را نشان می دهد. با توجه به اینکه گزینه گام به گام تنظیم شده است، باید به نتایج آخرین مرحله (Step2) نگاه کنید. در صورتی که هنگام حرکت به مرحله بعدی با درجه بالایی از اهمیت، افزایشی در شاخص کای دو پیدا شود، نتیجه مثبت در نظر گرفته خواهد شد (Sig. < 0.05). کیفیت مدل در خط Model ارزیابی می شود. اگر مقدار منفی به دست آید، اما با اهمیت کلی مدل، معنی دار تلقی نشود، آخرینمی تواند عملاً مناسب در نظر گرفته شود.

جدول

خلاصه مدل تخمین شاخص کل واریانس را ممکن می کند، که توسط مدل ساخته شده (شاخص مربع R) توصیف می شود. توصیه می شود از مقدار Nagelker استفاده کنید. پارامتر Nagelkerke R Square اگر بالای 0.50 باشد می تواند یک شاخص مثبت در نظر گرفته شود. پس از آن، نتایج طبقه بندی مورد ارزیابی قرار می گیرد، که در آن شاخص های واقعی تعلق به یک یا دسته دیگر مورد مطالعه با موارد پیش بینی شده بر اساس مدل رگرسیون مقایسه می شود. برای این کار از جدول طبقه بندی استفاده می شود. همچنین به ما امکان می دهد تا در مورد صحت تمایز برای هر گروه مورد بررسی نتیجه گیری کنیم.

جدول زیر فرصتی برای پی بردن به اهمیت آماری عوامل مستقل وارد شده در تجزیه و تحلیل و همچنین هر ضریب رگرسیون لجستیک غیراستاندارد فراهم می کند. بر اساس این شاخص ها می توان تعلق هر یک از پاسخ دهندگان نمونه را به یک گروه خاص پیش بینی کرد. با استفاده از دکمه Save می توانید متغیرهای جدیدی را وارد کنید. آنها حاوی اطلاعاتی در مورد تعلق به یک دسته بندی خاص (Predictedcategory) و احتمال قرار گرفتن در این گروه ها (Predicted probabilities عضویت) خواهند بود. پس از کلیک بر روی "OK"، نتایج محاسبه در پنجره اصلی رگرسیون لجستیک چند جمله ای ظاهر می شود.

نخستین جدول که شامل شاخص های مهم برای محقق است، اطلاعات برازش مدل است. سطح بالای معنی داری آماری نشان دهنده کیفیت بالا ومناسب بودن استفاده از مدل در حل مسائل عملی. جدول قابل توجه دیگر شبه R-Square است. این به شما امکان می دهد نسبت کل واریانس را در عامل وابسته تخمین بزنید که توسط متغیرهای مستقل انتخاب شده برای تجزیه و تحلیل تعیین می شود. با توجه به جدول آزمون های نسبت درستنمایی، می توانیم در مورد اهمیت آماری دومی نتیجه گیری کنیم. تخمین پارامترها ضرایب غیر استاندارد را منعکس می کنند. از آنها در ساخت معادله استفاده می شود. همچنین برای هر ترکیبی از متغیرها، معناداری آماری تأثیر آنها بر عامل وابسته تعیین شد. در همین حال، در تحقیقات بازاریابی، اغلب لازم است که پاسخ دهندگان را بر اساس دسته بندی نه به صورت فردی، بلکه به عنوان بخشی از گروه هدف متمایز کنیم. برای این کار از جدول فرکانس های مشاهده شده و پیش بینی شده استفاده می شود.

کاربرد عملی

روش تحلیل در نظر گرفته شده به طور گسترده در کار معامله گران استفاده می شود. در سال 1991، شاخص رگرسیون سیگموئید لجستیک توسعه یافت. این یک ابزار آسان برای استفاده و موثر برای پیش بینی قیمت های احتمالی قبل از "گرم شدن بیش از حد" است. این نشانگر در نمودار به صورت کانالی نشان داده می شود که توسط دو خط موازی تشکیل شده است. آنها به همان اندازه از روند فاصله دارند. عرض راهرو تنها به بازه زمانی بستگی دارد. این اندیکاتور هنگام کار با تقریباً همه دارایی ها - از جفت ارز گرفته تا فلزات گرانبها - استفاده می شود.

در عمل، 2 استراتژی کلیدی برای استفاده از ابزار ایجاد شده است: برای شکست وبرای یک نوبت در مورد دوم، معامله گر بر روی پویایی تغییرات قیمت در کانال تمرکز می کند. با نزدیک شدن مقدار به خط حمایت یا مقاومت، شرط بندی بر روی احتمال شروع حرکت در جهت مخالف قرار می گیرد. اگر قیمت به مرز بالایی نزدیک شود، می توانید از شر دارایی خلاص شوید. اگر در حد پایین است، پس باید به فکر خرید باشید. استراتژی شکست شامل استفاده از سفارشات است. آنها خارج از محدوده در فاصله نسبتاً کمی نصب می شوند. با توجه به اینکه قیمت در برخی موارد برای مدت کوتاهی آنها را نقض می کند، باید مطمئن باشید و استاپ ضرر را تنظیم کنید. البته در عین حال، بدون در نظر گرفتن استراتژی انتخابی، معامله گر باید شرایطی را که در بازار به وجود آمده است تا حد امکان با آرامش درک و ارزیابی کند.

نتیجه گیری

بنابراین، استفاده از رگرسیون لجستیک به شما این امکان را می دهد که به سرعت و به راحتی پاسخ دهندگان را بر اساس پارامترهای داده شده به دسته بندی طبقه بندی کنید. هنگام تجزیه و تحلیل، می توانید از هر روش خاصی استفاده کنید. به طور خاص، رگرسیون چند جمله ای جهانی است. با این حال، کارشناسان توصیه می کنند از تمام روش های توصیف شده در بالا به صورت ترکیبی استفاده کنید. این به این دلیل است که در این حالت کیفیت مدل به طور قابل توجهی بالاتر خواهد بود. این به نوبه خود دامنه کاربرد آن را گسترش خواهد داد.