روش خوشه بندی وظیفه گروه بندی مجموعه ای از اشیاء است به گونه ای که آنها در یک گروه شباهت بیشتری به یکدیگر داشته باشند تا اشیاء در صنایع دیگر. این وظیفه اصلی داده کاوی و یک تکنیک تجزیه و تحلیل آماری عمومی است که در بسیاری از زمینه ها از جمله یادگیری ماشین، تشخیص الگو، تشخیص تصویر، بازیابی اطلاعات، فشرده سازی داده ها و گرافیک کامپیوتری استفاده می شود.
مشکل بهینه سازی
روش خوشه بندی خود یک الگوریتم خاص نیست، بلکه یک کار کلی است که باید حل شود. این را می توان با الگوریتم های مختلفی به دست آورد که به طور قابل توجهی در درک اینکه چه چیزی یک گروه را تشکیل می دهد و نحوه یافتن کارآمد آن متفاوت است. استفاده از روش خوشه بندی برای تشکیل فراسوژه ها شامل استفاده از گروه بافواصل کوچک بین اعضا، مناطق متراکم فضا، فواصل یا توزیع های آماری خاص. بنابراین، خوشه بندی را می توان به عنوان یک مسئله بهینه سازی چند هدفه فرموله کرد.
تنظیمات روش و پارامتر مناسب (از جمله مواردی مانند تابع فاصله برای استفاده، آستانه چگالی یا تعداد خوشههای مورد انتظار) به مجموعه دادههای فردی و استفاده مورد نظر از نتایج بستگی دارد. تجزیه و تحلیل به این ترتیب یک کار خودکار نیست، بلکه یک فرآیند تکراری کشف دانش یا بهینهسازی چند هدفه تعاملی است. این روش خوشه بندی شامل تلاش های آزمون و خطا می باشد. اغلب لازم است پیش پردازش داده ها و پارامترهای مدل را تغییر دهید تا زمانی که نتیجه به ویژگی های مورد نظر برسد.
علاوه بر اصطلاح "خوشه بندی"، تعدادی واژه با معانی مشابه وجود دارد، از جمله طبقه بندی خودکار، تاکسونومی عددی، دوریولوژی و تجزیه و تحلیل گونه شناسی. تفاوتهای ظریف اغلب در استفاده از روش خوشهبندی برای ایجاد روابط فراموضوع نهفته است. در حالی که در استخراج دادهها، گروههای حاصل مورد توجه هستند، در طبقهبندی خودکار این قدرت تبعیضآمیز است که این عملکردها را انجام میدهد.
تحلیل خوشه ای بر اساس آثار متعدد کروبر در سال 1932 انجام شد. توسط زوبین در سال 1938 و توسط رابرت تریون در سال 1939 وارد روانشناسی شد. و این آثار از سال 1943 توسط کتل برای نشان دادن طبقه بندی روش های خوشه بندی در تئوری مورد استفاده قرار گرفته است.
ترم
مفهوم "خوشه" را نمی توان دقیقاً تعریف کرد. این یکی از دلایلی است که روش های خوشه بندی زیادی وجود دارد. یک مخرج مشترک وجود دارد: گروهی از اشیاء داده. با این حال، محققان مختلف از مدل های متفاوتی استفاده می کنند. و هر یک از این موارد استفاده از روش های خوشه بندی شامل داده های متفاوتی است. مفهوم یافت شده توسط الگوریتم های مختلف به طور قابل توجهی در ویژگی های آن متفاوت است.
استفاده از روش خوشه بندی کلید درک تفاوت بین دستورالعمل ها است. الگوهای خوشهای معمولی عبارتند از:
- Centroid s. برای مثال، این زمانی است که خوشهبندی k-means هر خوشه را با یک بردار میانگین نشان میدهد.
- مدل اتصال s. این، برای مثال، خوشهبندی سلسله مراتبی است که مدلهایی را بر اساس اتصال فاصله ایجاد میکند.
- مدل توزیع s. در این حالت، خوشهها با استفاده از روش خوشهبندی مدلسازی میشوند تا توزیعهای آماری فرا موضوعی را تشکیل دهند. مانند جداسازی نرمال چند متغیره، که برای الگوریتم بیشینه سازی انتظارات قابل استفاده است.
- مدل چگالی s. اینها، برای مثال، DBSCAN (الگوریتم خوشه بندی فضایی با نویز) و OPTICS (نقاط سفارش برای تشخیص ساختار)، که خوشه ها را به عنوان مناطق متراکم متصل در فضای داده تعریف می کند.
- مدل زیرفضا ج. در دو خوشهبندی (همچنین به عنوان همخوشهبندی یا دو حالت شناخته میشود)، گروهها با هر دو عنصر و با ویژگیهای مناسب مدلسازی میشوند.
- Model s. برخی از الگوریتم ها این کار را نمی کنندرابطه پالایش شده برای روش خوشه بندی آنها برای تولید نتایج فرا موضوعی و به سادگی ارائه گروه بندی اطلاعات.
- مدل بر اساس نمودار s. یک دسته، یعنی زیر مجموعه ای از گره ها، به طوری که هر دو اتصال در قسمت لبه را می توان به عنوان نمونه اولیه شکل خوشه در نظر گرفت. تضعیف تقاضای کل به عنوان شبه بالک شناخته می شود. دقیقاً همین نام در الگوریتم خوشهبندی HCS ارائه شده است.
- مدل های عصبی s. شناخته شده ترین شبکه بدون نظارت، نقشه خودسازماندهی است. و این مدلها هستند که معمولاً میتوانند مشابه یک یا چند روش خوشهبندی فوق برای تشکیل نتایج فراموضوع مشخص شوند. هنگامی که شبکه های عصبی شکل لازم از تجزیه و تحلیل اجزای اصلی یا مستقل را اجرا می کنند، شامل سیستم های زیرفضایی می شود.
این عبارت در واقع مجموعه ای از چنین گروه هایی است که معمولاً تمام اشیاء مجموعه روش های خوشه بندی داده را شامل می شود. علاوه بر این، می تواند ارتباط خوشه ها را با یکدیگر نشان دهد، مانند سلسله مراتبی از سیستم های ساخته شده در یکدیگر. گروه بندی را می توان به جنبه های زیر تقسیم کرد:
- روش خوشهبندی مرکز سخت. در اینجا، هر شی متعلق به یک گروه یا خارج از آن است.
- سیستم نرم یا فازی. در این مرحله، هر شی از قبل به میزان معینی به هر خوشه ای تعلق دارد. به آن روش خوشهبندی فازی c-means نیز میگویند.
و تفاوت های ظریف تر نیز امکان پذیر است. به عنوان مثال:
- خوشه بندی پارتیشن بندی دقیق. اینجاهر شی دقیقاً به یک گروه تعلق دارد.
- خوشه بندی پارتیشن بندی دقیق با نقاط پرت. در این مورد، اشیا نیز ممکن است به هیچ خوشه ای تعلق نداشته باشند و غیر ضروری تلقی شوند.
- خوشهبندی همپوشانی (همچنین جایگزین، با چند نما). در اینجا، اشیا می توانند به بیش از یک شاخه تعلق داشته باشند. معمولاً شامل خوشههای جامد است.
- روش های خوشه بندی سلسله مراتبی. اشیاء متعلق به یک گروه فرزند نیز به زیرسیستم والد تعلق دارند.
- تشکیل فضای فرعی. اگرچه گروههای متقابل مشابه خوشههای همپوشانی هستند، اما در یک سیستم منحصربهفرد تعریف شده، گروههای متقابل نباید همپوشانی داشته باشند.
دستورالعمل
همانطور که در بالا گفته شد، الگوریتم های خوشه بندی را می توان بر اساس مدل خوشه ای آنها طبقه بندی کرد. بررسی زیر تنها نمونههای برجسته این دستورالعملها را فهرست میکند. از آنجایی که ممکن است بیش از 100 الگوریتم منتشر شده وجود داشته باشد، همه مدل هایی برای خوشه های خود ارائه نمی دهند و بنابراین نمی توان به راحتی طبقه بندی کرد.
هیچ الگوریتم خوشه بندی درستی وجود ندارد. اما همانطور که در بالا ذکر شد، دستورالعمل همیشه در میدان دید ناظر است. مناسب ترین الگوریتم خوشه بندی برای یک مسئله خاص اغلب باید به صورت تجربی انتخاب شود، مگر اینکه دلیلی ریاضی برای ترجیح یک مدل بر مدل دیگر وجود داشته باشد. لازم به ذکر است که الگوریتمی که برای یک نوع طراحی شده است معمولاً با آن کار نمی کندمجموعه داده ای که شامل یک موضوع کاملاً متفاوت است. برای مثال، k-means نمی تواند گروه های غیر محدب را پیدا کند.
خوشهبندی مبتنی بر اتصال
این اتحادیه با نام خود، مدل سلسله مراتبی نیز شناخته می شود. این بر اساس این ایده معمول است که اشیاء بیشتر به قسمت های همسایه متصل هستند تا آنهایی که بسیار دورتر هستند. این الگوریتم ها اشیا را به هم متصل می کنند و بسته به فاصله آنها، خوشه های مختلفی را تشکیل می دهند. یک گروه را می توان عمدتاً با حداکثر فاصله ای که برای اتصال بخش های مختلف خوشه لازم است توصیف کرد. در تمام فواصل ممکن، گروه های دیگری تشکیل می شوند که می توان آنها را با استفاده از دندروگرام نشان داد. این توضیح می دهد که نام رایج "خوشه بندی سلسله مراتبی" از کجا آمده است. به این معنا که این الگوریتمها یک پارتیشن واحد از مجموعه داده را ارائه نمیکنند، بلکه در عوض نظم گستردهای از اختیارات را ارائه میکنند. به لطف او است که در فواصل معینی با یکدیگر زهکشی وجود دارد. در دندروگرام، محور y نشان دهنده فاصله ای است که در آن خوشه ها به هم می رسند. و اشیا در امتداد خط X مرتب شده اند تا گروه ها با هم مخلوط نشوند.
خوشهبندی مبتنی بر اتصال یک خانواده کامل از روشها است که در نحوه محاسبه فاصلهها متفاوت است. علاوه بر انتخاب معمول توابع فاصله، کاربر باید در مورد معیار اتصال نیز تصمیم بگیرد. از آنجایی که یک خوشه از چندین شی تشکیل شده است، گزینه های زیادی برای محاسبه آن وجود دارد. یک انتخاب محبوب به عنوان گروه بندی تک اهرمی شناخته می شود، این روش استپیوند کامل، که شامل UPGMA یا WPGMA (گروه بدون وزن یا وزن دار از جفت ها با میانگین حسابی، که به عنوان خوشه بندی لینک میانگین نیز شناخته می شود) است. بعلاوه، سیستم سلسله مراتبی می تواند انباشته (شروع با عناصر منفرد و ترکیب آنها به گروه ها) یا تقسیم (شروع با یک مجموعه داده کامل و تقسیم آن به بخش ها) باشد.
خوشه بندی توزیع شده
این مدلها بیشترین ارتباط را با آمارهایی دارند که بر اساس تقسیمبندی هستند. خوشه ها را می توان به راحتی به عنوان اشیایی تعریف کرد که به احتمال زیاد متعلق به یک توزیع هستند. یکی از ویژگی های مفید این رویکرد این است که بسیار شبیه به روش ایجاد مجموعه داده های مصنوعی است. با نمونهبرداری از اشیاء تصادفی از یک توزیع.
در حالی که مبنای نظری این روش ها عالی است، آنها از یک مشکل کلیدی رنج می برند که به نام بیش از حد برازش شناخته می شود، مگر اینکه محدودیت هایی بر پیچیدگی مدل اعمال شود. یک ارتباط بزرگتر معمولاً داده ها را بهتر توضیح می دهد و انتخاب روش مناسب را دشوار می کند.
مدل مخلوط گاوسی
این روش از انواع الگوریتم های بیشینه سازی انتظارات استفاده می کند. در اینجا، مجموعه داده معمولاً با یک عدد ثابت (برای جلوگیری از نادیده گرفتن) از توزیعهای گاوسی مدلسازی میشود که بهطور تصادفی مقداردهی اولیه میشوند و پارامترهای آنها بهطور تکراری برای برازش بهتر مجموعه دادهها بهینهسازی میشوند. این سیستم به یک بهینه محلی همگرا می شود. به همین دلیل است که چندین اجرا می تواند بدهدنتایج متفاوت برای به دست آوردن فشرده ترین خوشه بندی، ویژگی ها اغلب به توزیع گاوسی اختصاص داده می شوند که به احتمال زیاد به آن تعلق دارند. و برای گروه های نرم تر، این لازم نیست.
خوشهبندی مبتنی بر توزیع، مدلهای پیچیدهای را ایجاد میکند که در نهایت میتواند همبستگی و وابستگی بین ویژگیها را نشان دهد. با این حال، این الگوریتم ها بار اضافی را به کاربر تحمیل می کنند. برای بسیاری از مجموعه دادههای دنیای واقعی، ممکن است یک مدل ریاضی مشخص و مختصر وجود نداشته باشد (مثلاً فرض کنیم توزیع گاوسی یک فرض نسبتاً قوی است).
خوشهبندی مبتنی بر چگالی
در این مثال، گروه ها اساساً به عنوان مناطقی با نفوذ ناپذیری بالاتر نسبت به بقیه مجموعه داده ها تعریف می شوند. اجسام در این قسمت های کمیاب که برای جداسازی همه اجزا ضروری هستند، معمولاً نویز و نقاط لبه در نظر گرفته می شوند.
محبوب ترین روش خوشه بندی مبتنی بر چگالی DBSCAN (الگوریتم خوشه بندی نویز فضایی) است. برخلاف بسیاری از روشهای جدیدتر، دارای یک جزء خوشهای کاملاً تعریف شده به نام «دسترسی به چگالی» است. مشابه خوشهبندی مبتنی بر پیوند، بر اساس نقاط اتصال در آستانههای فاصله مشخص است. با این حال، این روش تنها مواردی را جمع آوری می کند که معیار چگالی را برآورده می کند. در نسخه اصلی، که به عنوان حداقل تعداد اشیاء دیگر در این شعاع تعریف شده است، خوشه شامل همهموارد مرتبط با چگالی (که برخلاف بسیاری از روشهای دیگر میتوانند یک گروه آزاد را تشکیل دهند)، و همه اشیایی که در محدوده مجاز هستند.
یکی دیگر از ویژگی های جالب DBSCAN این است که پیچیدگی آن بسیار کم است - به تعداد خطی پرس و جوهای محدوده در برابر پایگاه داده نیاز دارد. و همچنین غیر معمول این است که اساساً نتایج یکسانی را در هر اجرا پیدا می کند (این برای نقاط هسته و نویز قطعی است، اما برای عناصر مرزی نیست). بنابراین، نیازی به چندین بار اجرای آن نیست.
عیب اصلی DBSCAN و OPTICS این است که انتظار دارند چگالی کمی برای تشخیص مرزهای خوشه کاهش یابد. به عنوان مثال، در مجموعههای داده با توزیعهای گاوسی همپوشانی - یک مورد معمول برای اشیاء مصنوعی - مرزهای خوشهای که توسط این الگوریتمها ایجاد میشوند اغلب دلخواه به نظر میرسند. این به این دلیل است که تراکم گروه ها به طور مداوم در حال کاهش است. و در مجموعه داده مخلوط گاوسی، این الگوریتمها تقریباً همیشه از روشهایی مانند خوشهبندی EM که قادر به مدلسازی دقیق این نوع سیستمها هستند، بهتر عمل میکنند.
جابهجایی میانگین یک رویکرد خوشهبندی است که در آن هر جسم بر اساس برآورد کل هسته به متراکمترین ناحیه در همسایگی حرکت میکند. در پایان، اشیاء به حداکثر نفوذ ناپذیری محلی همگرا می شوند. مشابه خوشهبندی k-means، این «جذبکنندههای چگالی» میتوانند به عنوان نماینده یک مجموعه داده عمل کنند. اما تغییر میانگینمی تواند خوشه هایی با شکل دلخواه مشابه DBSCAN را شناسایی کند. به دلیل روش تکراری گران قیمت و تخمین چگالی، میانگین جابجایی معمولاً کندتر از DBSCAN یا k-Means است. علاوه بر این، کاربرد الگوریتم تغییر معمولی برای دادههای با ابعاد بالا به دلیل رفتار غیریکنواخت تخمین چگالی هسته، که منجر به تکه تکه شدن بیش از حد دنبالههای خوشه میشود، دشوار است.
رتبه
تأیید نتایج خوشهبندی به اندازه خود خوشهبندی دشوار است. رویکردهای رایج شامل امتیازدهی «داخلی» (که در آن سیستم به یک معیار کیفیت کاهش مییابد) و البته امتیازدهی «خارجی» (که در آن خوشهبندی با طبقهبندی «حقیقت پایه» موجود مقایسه میشود). و امتیاز دستی متخصص انسانی و امتیاز غیرمستقیم با بررسی مفید بودن خوشه بندی در برنامه مورد نظر بدست می آید.
اندازههای پرچم داخلی از این مشکل رنج میبرند که نشاندهنده ویژگیهایی هستند که خود میتوانند اهداف خوشهبندی در نظر گرفته شوند. به عنوان مثال، گروه بندی داده های داده شده توسط ضریب Silhouette امکان پذیر است، با این تفاوت که هیچ الگوریتم کارآمد شناخته شده ای برای انجام این کار وجود ندارد. با استفاده از چنین معیار داخلی برای ارزیابی، بهتر است شباهت مسائل بهینهسازی را با هم مقایسه کنیم.
علامت بیرونی مشکلات مشابهی دارد. اگر چنین برچسب هایی از "حقیقت زمینی" وجود دارد، دیگر نیازی به خوشه بندی نیست. و در کاربردهای عملی معمولاً چنین مفاهیمی وجود ندارد. از سوی دیگر، برچسب ها تنها یک پارتیشن ممکن از مجموعه داده را منعکس می کنند، که به این معنی نیستکه هیچ خوشه بندی دیگری (شاید بهتر از آن) وجود ندارد.
بنابراین هیچ یک از این رویکردها نمی توانند در نهایت کیفیت واقعی را قضاوت کنند. اما این نیاز به ارزیابی انسانی دارد که بسیار ذهنی است. با این وجود، چنین آماری می تواند در شناسایی خوشه های بد آموزنده باشد. اما نباید ارزیابی ذهنی یک شخص را نادیده گرفت.
نشان داخلی
وقتی نتیجه یک خوشه بندی بر اساس داده هایی که خودش خوشه بندی شده است ارزیابی می شود، به این اصطلاح گفته می شود. این روشها معمولاً بهترین نتیجه را به الگوریتمی اختصاص میدهند که گروههایی با شباهت زیاد در داخل و کم بین گروهها ایجاد میکند. یکی از معایب استفاده از معیارهای داخلی در ارزیابی خوشه ای این است که نمرات بالا لزوماً به برنامه های بازیابی اطلاعات مؤثر منجر نمی شود. همچنین، این امتیاز نسبت به الگوریتم هایی که از یک مدل استفاده می کنند، سوگیری دارد. برای مثال، خوشهبندی k-means به طور طبیعی فواصل ویژگیها را بهینه میکند، و یک معیار داخلی مبتنی بر آن احتمالاً خوشهبندی حاصل را بیش از حد برآورد میکند.
بنابراین، این معیارهای ارزیابی برای به دست آوردن ایده ای از موقعیت هایی که در آن یک الگوریتم بهتر از الگوریتم دیگر عمل می کند، مناسب تر است. اما این بدان معنا نیست که هر اطلاعات نتایج قابل اعتمادتری نسبت به سایرین ارائه می دهد. دوره اعتبار اندازه گیری شده توسط چنین شاخصی به این ادعا بستگی دارد که ساختار در مجموعه داده وجود دارد. الگوریتمی که برای برخی از انواع توسعه یافته است، اگر مجموعه به طور ریشه ای باشد، شانسی نداردترکیب متفاوت یا اگر ارزیابی معیارهای متفاوتی را اندازه گیری کند. برای مثال، خوشهبندی k-means فقط میتواند خوشههای محدب را بیابد و بسیاری از شاخصهای امتیازی فرمت یکسانی را در نظر میگیرند. در یک مجموعه داده با مدلهای غیر محدب، استفاده از k-means و معیارهای ارزیابی معمولی نامناسب است.
ارزیابی خارجی
با این نوع توپینگ، نتایج خوشه بندی بر اساس داده هایی که برای گروه بندی استفاده نشده اند، ارزیابی می شوند. یعنی مانند برچسب های کلاس شناخته شده و تست های خارجی. چنین سوالاتی شامل مجموعه ای از موارد از پیش طبقه بندی شده است و اغلب توسط متخصصان (انسان) ایجاد می شود. به این ترتیب، کیت های مرجع را می توان به عنوان استاندارد طلایی برای ارزیابی در نظر گرفت. این نوع روشهای امتیازدهی میزان نزدیکی خوشهبندی به کلاسهای مرجع را اندازهگیری میکنند. با این حال، اخیراً بحث شده است که آیا این برای داده های واقعی کافی است یا فقط برای مجموعه های مصنوعی با حقیقت واقعی زمین. از آنجایی که کلاس ها ممکن است دارای ساختار داخلی باشند و ویژگی های موجود ممکن است اجازه جداسازی خوشه ها را ندهند. همچنین، از نقطه نظر کشف دانش، بازتولید حقایق شناخته شده ممکن است لزوماً نتیجه مورد انتظار را ایجاد نکند. در یک سناریوی خوشهبندی محدود خاص که در آن فرااطلاعات (مانند برچسبهای کلاس) قبلاً در فرآیند گروهبندی استفاده میشود، حفظ همه اطلاعات برای اهداف ارزیابی امری بیاهمیت نیست.
اکنون مشخص شده است که چه چیزی در روش های خوشه بندی کاربرد ندارد و چه مدل هایی برای این اهداف استفاده می شود.