روش خوشه بندی: توضیحات، مفاهیم اساسی، ویژگی های برنامه

فهرست مطالب:

روش خوشه بندی: توضیحات، مفاهیم اساسی، ویژگی های برنامه
روش خوشه بندی: توضیحات، مفاهیم اساسی، ویژگی های برنامه
Anonim

روش خوشه بندی وظیفه گروه بندی مجموعه ای از اشیاء است به گونه ای که آنها در یک گروه شباهت بیشتری به یکدیگر داشته باشند تا اشیاء در صنایع دیگر. این وظیفه اصلی داده کاوی و یک تکنیک تجزیه و تحلیل آماری عمومی است که در بسیاری از زمینه ها از جمله یادگیری ماشین، تشخیص الگو، تشخیص تصویر، بازیابی اطلاعات، فشرده سازی داده ها و گرافیک کامپیوتری استفاده می شود.

مشکل بهینه سازی

با استفاده از روش خوشه بندی
با استفاده از روش خوشه بندی

روش خوشه بندی خود یک الگوریتم خاص نیست، بلکه یک کار کلی است که باید حل شود. این را می توان با الگوریتم های مختلفی به دست آورد که به طور قابل توجهی در درک اینکه چه چیزی یک گروه را تشکیل می دهد و نحوه یافتن کارآمد آن متفاوت است. استفاده از روش خوشه بندی برای تشکیل فراسوژه ها شامل استفاده از گروه بافواصل کوچک بین اعضا، مناطق متراکم فضا، فواصل یا توزیع های آماری خاص. بنابراین، خوشه بندی را می توان به عنوان یک مسئله بهینه سازی چند هدفه فرموله کرد.

تنظیمات روش و پارامتر مناسب (از جمله مواردی مانند تابع فاصله برای استفاده، آستانه چگالی یا تعداد خوشه‌های مورد انتظار) به مجموعه داده‌های فردی و استفاده مورد نظر از نتایج بستگی دارد. تجزیه و تحلیل به این ترتیب یک کار خودکار نیست، بلکه یک فرآیند تکراری کشف دانش یا بهینه‌سازی چند هدفه تعاملی است. این روش خوشه بندی شامل تلاش های آزمون و خطا می باشد. اغلب لازم است پیش پردازش داده ها و پارامترهای مدل را تغییر دهید تا زمانی که نتیجه به ویژگی های مورد نظر برسد.

علاوه بر اصطلاح "خوشه بندی"، تعدادی واژه با معانی مشابه وجود دارد، از جمله طبقه بندی خودکار، تاکسونومی عددی، دوریولوژی و تجزیه و تحلیل گونه شناسی. تفاوت‌های ظریف اغلب در استفاده از روش خوشه‌بندی برای ایجاد روابط فراموضوع نهفته است. در حالی که در استخراج داده‌ها، گروه‌های حاصل مورد توجه هستند، در طبقه‌بندی خودکار این قدرت تبعیض‌آمیز است که این عملکردها را انجام می‌دهد.

تحلیل خوشه ای بر اساس آثار متعدد کروبر در سال 1932 انجام شد. توسط زوبین در سال 1938 و توسط رابرت تریون در سال 1939 وارد روانشناسی شد. و این آثار از سال 1943 توسط کتل برای نشان دادن طبقه بندی روش های خوشه بندی در تئوری مورد استفاده قرار گرفته است.

ترم

استفادهروش
استفادهروش

مفهوم "خوشه" را نمی توان دقیقاً تعریف کرد. این یکی از دلایلی است که روش های خوشه بندی زیادی وجود دارد. یک مخرج مشترک وجود دارد: گروهی از اشیاء داده. با این حال، محققان مختلف از مدل های متفاوتی استفاده می کنند. و هر یک از این موارد استفاده از روش های خوشه بندی شامل داده های متفاوتی است. مفهوم یافت شده توسط الگوریتم های مختلف به طور قابل توجهی در ویژگی های آن متفاوت است.

استفاده از روش خوشه بندی کلید درک تفاوت بین دستورالعمل ها است. الگوهای خوشه‌ای معمولی عبارتند از:

  • Centroid s. برای مثال، این زمانی است که خوشه‌بندی k-means هر خوشه را با یک بردار میانگین نشان می‌دهد.
  • مدل اتصال s. این، برای مثال، خوشه‌بندی سلسله مراتبی است که مدل‌هایی را بر اساس اتصال فاصله ایجاد می‌کند.
  • مدل توزیع s. در این حالت، خوشه‌ها با استفاده از روش خوشه‌بندی مدل‌سازی می‌شوند تا توزیع‌های آماری فرا موضوعی را تشکیل دهند. مانند جداسازی نرمال چند متغیره، که برای الگوریتم بیشینه سازی انتظارات قابل استفاده است.
  • مدل چگالی s. اینها، برای مثال، DBSCAN (الگوریتم خوشه بندی فضایی با نویز) و OPTICS (نقاط سفارش برای تشخیص ساختار)، که خوشه ها را به عنوان مناطق متراکم متصل در فضای داده تعریف می کند.
  • مدل زیرفضا ج. در دو خوشه‌بندی (همچنین به عنوان هم‌خوشه‌بندی یا دو حالت شناخته می‌شود)، گروه‌ها با هر دو عنصر و با ویژگی‌های مناسب مدل‌سازی می‌شوند.
  • Model s. برخی از الگوریتم ها این کار را نمی کنندرابطه پالایش شده برای روش خوشه بندی آنها برای تولید نتایج فرا موضوعی و به سادگی ارائه گروه بندی اطلاعات.
  • مدل بر اساس نمودار s. یک دسته، یعنی زیر مجموعه ای از گره ها، به طوری که هر دو اتصال در قسمت لبه را می توان به عنوان نمونه اولیه شکل خوشه در نظر گرفت. تضعیف تقاضای کل به عنوان شبه بالک شناخته می شود. دقیقاً همین نام در الگوریتم خوشه‌بندی HCS ارائه شده است.
  • مدل های عصبی s. شناخته شده ترین شبکه بدون نظارت، نقشه خودسازماندهی است. و این مدل‌ها هستند که معمولاً می‌توانند مشابه یک یا چند روش خوشه‌بندی فوق برای تشکیل نتایج فراموضوع مشخص شوند. هنگامی که شبکه های عصبی شکل لازم از تجزیه و تحلیل اجزای اصلی یا مستقل را اجرا می کنند، شامل سیستم های زیرفضایی می شود.

این عبارت در واقع مجموعه ای از چنین گروه هایی است که معمولاً تمام اشیاء مجموعه روش های خوشه بندی داده را شامل می شود. علاوه بر این، می تواند ارتباط خوشه ها را با یکدیگر نشان دهد، مانند سلسله مراتبی از سیستم های ساخته شده در یکدیگر. گروه بندی را می توان به جنبه های زیر تقسیم کرد:

  • روش خوشه‌بندی مرکز سخت. در اینجا، هر شی متعلق به یک گروه یا خارج از آن است.
  • سیستم نرم یا فازی. در این مرحله، هر شی از قبل به میزان معینی به هر خوشه ای تعلق دارد. به آن روش خوشه‌بندی فازی c-means نیز می‌گویند.

و تفاوت های ظریف تر نیز امکان پذیر است. به عنوان مثال:

  • خوشه بندی پارتیشن بندی دقیق. اینجاهر شی دقیقاً به یک گروه تعلق دارد.
  • خوشه بندی پارتیشن بندی دقیق با نقاط پرت. در این مورد، اشیا نیز ممکن است به هیچ خوشه ای تعلق نداشته باشند و غیر ضروری تلقی شوند.
  • خوشه‌بندی همپوشانی (هم‌چنین جایگزین، با چند نما). در اینجا، اشیا می توانند به بیش از یک شاخه تعلق داشته باشند. معمولاً شامل خوشه‌های جامد است.
  • روش های خوشه بندی سلسله مراتبی. اشیاء متعلق به یک گروه فرزند نیز به زیرسیستم والد تعلق دارند.
  • تشکیل فضای فرعی. اگرچه گروه‌های متقابل مشابه خوشه‌های همپوشانی هستند، اما در یک سیستم منحصربه‌فرد تعریف شده، گروه‌های متقابل نباید همپوشانی داشته باشند.

دستورالعمل

با استفاده از روش خوشه بندی برای تشکیل
با استفاده از روش خوشه بندی برای تشکیل

همانطور که در بالا گفته شد، الگوریتم های خوشه بندی را می توان بر اساس مدل خوشه ای آنها طبقه بندی کرد. بررسی زیر تنها نمونه‌های برجسته این دستورالعمل‌ها را فهرست می‌کند. از آنجایی که ممکن است بیش از 100 الگوریتم منتشر شده وجود داشته باشد، همه مدل هایی برای خوشه های خود ارائه نمی دهند و بنابراین نمی توان به راحتی طبقه بندی کرد.

هیچ الگوریتم خوشه بندی درستی وجود ندارد. اما همانطور که در بالا ذکر شد، دستورالعمل همیشه در میدان دید ناظر است. مناسب ترین الگوریتم خوشه بندی برای یک مسئله خاص اغلب باید به صورت تجربی انتخاب شود، مگر اینکه دلیلی ریاضی برای ترجیح یک مدل بر مدل دیگر وجود داشته باشد. لازم به ذکر است که الگوریتمی که برای یک نوع طراحی شده است معمولاً با آن کار نمی کندمجموعه داده ای که شامل یک موضوع کاملاً متفاوت است. برای مثال، k-means نمی تواند گروه های غیر محدب را پیدا کند.

خوشه‌بندی مبتنی بر اتصال

روش خوشه بندی
روش خوشه بندی

این اتحادیه با نام خود، مدل سلسله مراتبی نیز شناخته می شود. این بر اساس این ایده معمول است که اشیاء بیشتر به قسمت های همسایه متصل هستند تا آنهایی که بسیار دورتر هستند. این الگوریتم ها اشیا را به هم متصل می کنند و بسته به فاصله آنها، خوشه های مختلفی را تشکیل می دهند. یک گروه را می توان عمدتاً با حداکثر فاصله ای که برای اتصال بخش های مختلف خوشه لازم است توصیف کرد. در تمام فواصل ممکن، گروه های دیگری تشکیل می شوند که می توان آنها را با استفاده از دندروگرام نشان داد. این توضیح می دهد که نام رایج "خوشه بندی سلسله مراتبی" از کجا آمده است. به این معنا که این الگوریتم‌ها یک پارتیشن واحد از مجموعه داده را ارائه نمی‌کنند، بلکه در عوض نظم گسترده‌ای از اختیارات را ارائه می‌کنند. به لطف او است که در فواصل معینی با یکدیگر زهکشی وجود دارد. در دندروگرام، محور y نشان دهنده فاصله ای است که در آن خوشه ها به هم می رسند. و اشیا در امتداد خط X مرتب شده اند تا گروه ها با هم مخلوط نشوند.

خوشه‌بندی مبتنی بر اتصال یک خانواده کامل از روش‌ها است که در نحوه محاسبه فاصله‌ها متفاوت است. علاوه بر انتخاب معمول توابع فاصله، کاربر باید در مورد معیار اتصال نیز تصمیم بگیرد. از آنجایی که یک خوشه از چندین شی تشکیل شده است، گزینه های زیادی برای محاسبه آن وجود دارد. یک انتخاب محبوب به عنوان گروه بندی تک اهرمی شناخته می شود، این روش استپیوند کامل، که شامل UPGMA یا WPGMA (گروه بدون وزن یا وزن دار از جفت ها با میانگین حسابی، که به عنوان خوشه بندی لینک میانگین نیز شناخته می شود) است. بعلاوه، سیستم سلسله مراتبی می تواند انباشته (شروع با عناصر منفرد و ترکیب آنها به گروه ها) یا تقسیم (شروع با یک مجموعه داده کامل و تقسیم آن به بخش ها) باشد.

خوشه بندی توزیع شده

روش خوشه بندی برای تشکیل
روش خوشه بندی برای تشکیل

این مدل‌ها بیشترین ارتباط را با آمارهایی دارند که بر اساس تقسیم‌بندی هستند. خوشه ها را می توان به راحتی به عنوان اشیایی تعریف کرد که به احتمال زیاد متعلق به یک توزیع هستند. یکی از ویژگی های مفید این رویکرد این است که بسیار شبیه به روش ایجاد مجموعه داده های مصنوعی است. با نمونه‌برداری از اشیاء تصادفی از یک توزیع.

در حالی که مبنای نظری این روش ها عالی است، آنها از یک مشکل کلیدی رنج می برند که به نام بیش از حد برازش شناخته می شود، مگر اینکه محدودیت هایی بر پیچیدگی مدل اعمال شود. یک ارتباط بزرگتر معمولاً داده ها را بهتر توضیح می دهد و انتخاب روش مناسب را دشوار می کند.

مدل مخلوط گاوسی

این روش از انواع الگوریتم های بیشینه سازی انتظارات استفاده می کند. در اینجا، مجموعه داده معمولاً با یک عدد ثابت (برای جلوگیری از نادیده گرفتن) از توزیع‌های گاوسی مدل‌سازی می‌شود که به‌طور تصادفی مقداردهی اولیه می‌شوند و پارامترهای آن‌ها به‌طور تکراری برای برازش بهتر مجموعه داده‌ها بهینه‌سازی می‌شوند. این سیستم به یک بهینه محلی همگرا می شود. به همین دلیل است که چندین اجرا می تواند بدهدنتایج متفاوت برای به دست آوردن فشرده ترین خوشه بندی، ویژگی ها اغلب به توزیع گاوسی اختصاص داده می شوند که به احتمال زیاد به آن تعلق دارند. و برای گروه های نرم تر، این لازم نیست.

خوشه‌بندی مبتنی بر توزیع، مدل‌های پیچیده‌ای را ایجاد می‌کند که در نهایت می‌تواند همبستگی و وابستگی بین ویژگی‌ها را نشان دهد. با این حال، این الگوریتم ها بار اضافی را به کاربر تحمیل می کنند. برای بسیاری از مجموعه داده‌های دنیای واقعی، ممکن است یک مدل ریاضی مشخص و مختصر وجود نداشته باشد (مثلاً فرض کنیم توزیع گاوسی یک فرض نسبتاً قوی است).

خوشه‌بندی مبتنی بر چگالی

خوشه بندی برای تشکیل
خوشه بندی برای تشکیل

در این مثال، گروه ها اساساً به عنوان مناطقی با نفوذ ناپذیری بالاتر نسبت به بقیه مجموعه داده ها تعریف می شوند. اجسام در این قسمت های کمیاب که برای جداسازی همه اجزا ضروری هستند، معمولاً نویز و نقاط لبه در نظر گرفته می شوند.

محبوب ترین روش خوشه بندی مبتنی بر چگالی DBSCAN (الگوریتم خوشه بندی نویز فضایی) است. برخلاف بسیاری از روش‌های جدیدتر، دارای یک جزء خوشه‌ای کاملاً تعریف شده به نام «دسترسی به چگالی» است. مشابه خوشه‌بندی مبتنی بر پیوند، بر اساس نقاط اتصال در آستانه‌های فاصله مشخص است. با این حال، این روش تنها مواردی را جمع آوری می کند که معیار چگالی را برآورده می کند. در نسخه اصلی، که به عنوان حداقل تعداد اشیاء دیگر در این شعاع تعریف شده است، خوشه شامل همهموارد مرتبط با چگالی (که برخلاف بسیاری از روش‌های دیگر می‌توانند یک گروه آزاد را تشکیل دهند)، و همه اشیایی که در محدوده مجاز هستند.

یکی دیگر از ویژگی های جالب DBSCAN این است که پیچیدگی آن بسیار کم است - به تعداد خطی پرس و جوهای محدوده در برابر پایگاه داده نیاز دارد. و همچنین غیر معمول این است که اساساً نتایج یکسانی را در هر اجرا پیدا می کند (این برای نقاط هسته و نویز قطعی است، اما برای عناصر مرزی نیست). بنابراین، نیازی به چندین بار اجرای آن نیست.

عیب اصلی DBSCAN و OPTICS این است که انتظار دارند چگالی کمی برای تشخیص مرزهای خوشه کاهش یابد. به عنوان مثال، در مجموعه‌های داده با توزیع‌های گاوسی همپوشانی - یک مورد معمول برای اشیاء مصنوعی - مرزهای خوشه‌ای که توسط این الگوریتم‌ها ایجاد می‌شوند اغلب دلخواه به نظر می‌رسند. این به این دلیل است که تراکم گروه ها به طور مداوم در حال کاهش است. و در مجموعه داده مخلوط گاوسی، این الگوریتم‌ها تقریباً همیشه از روش‌هایی مانند خوشه‌بندی EM که قادر به مدل‌سازی دقیق این نوع سیستم‌ها هستند، بهتر عمل می‌کنند.

جابه‌جایی میانگین یک رویکرد خوشه‌بندی است که در آن هر جسم بر اساس برآورد کل هسته به متراکم‌ترین ناحیه در همسایگی حرکت می‌کند. در پایان، اشیاء به حداکثر نفوذ ناپذیری محلی همگرا می شوند. مشابه خوشه‌بندی k-means، این «جذب‌کننده‌های چگالی» می‌توانند به عنوان نماینده یک مجموعه داده عمل کنند. اما تغییر میانگینمی تواند خوشه هایی با شکل دلخواه مشابه DBSCAN را شناسایی کند. به دلیل روش تکراری گران قیمت و تخمین چگالی، میانگین جابجایی معمولاً کندتر از DBSCAN یا k-Means است. علاوه بر این، کاربرد الگوریتم تغییر معمولی برای داده‌های با ابعاد بالا به دلیل رفتار غیریکنواخت تخمین چگالی هسته، که منجر به تکه تکه شدن بیش از حد دنباله‌های خوشه می‌شود، دشوار است.

رتبه

روش خوشه بندی برای تشکیل فراسوژه
روش خوشه بندی برای تشکیل فراسوژه

تأیید نتایج خوشه‌بندی به اندازه خود خوشه‌بندی دشوار است. رویکردهای رایج شامل امتیازدهی «داخلی» (که در آن سیستم به یک معیار کیفیت کاهش می‌یابد) و البته امتیازدهی «خارجی» (که در آن خوشه‌بندی با طبقه‌بندی «حقیقت پایه» موجود مقایسه می‌شود). و امتیاز دستی متخصص انسانی و امتیاز غیرمستقیم با بررسی مفید بودن خوشه بندی در برنامه مورد نظر بدست می آید.

اندازه‌های پرچم داخلی از این مشکل رنج می‌برند که نشان‌دهنده ویژگی‌هایی هستند که خود می‌توانند اهداف خوشه‌بندی در نظر گرفته شوند. به عنوان مثال، گروه بندی داده های داده شده توسط ضریب Silhouette امکان پذیر است، با این تفاوت که هیچ الگوریتم کارآمد شناخته شده ای برای انجام این کار وجود ندارد. با استفاده از چنین معیار داخلی برای ارزیابی، بهتر است شباهت مسائل بهینه‌سازی را با هم مقایسه کنیم.

علامت بیرونی مشکلات مشابهی دارد. اگر چنین برچسب هایی از "حقیقت زمینی" وجود دارد، دیگر نیازی به خوشه بندی نیست. و در کاربردهای عملی معمولاً چنین مفاهیمی وجود ندارد. از سوی دیگر، برچسب ها تنها یک پارتیشن ممکن از مجموعه داده را منعکس می کنند، که به این معنی نیستکه هیچ خوشه بندی دیگری (شاید بهتر از آن) وجود ندارد.

بنابراین هیچ یک از این رویکردها نمی توانند در نهایت کیفیت واقعی را قضاوت کنند. اما این نیاز به ارزیابی انسانی دارد که بسیار ذهنی است. با این وجود، چنین آماری می تواند در شناسایی خوشه های بد آموزنده باشد. اما نباید ارزیابی ذهنی یک شخص را نادیده گرفت.

نشان داخلی

وقتی نتیجه یک خوشه بندی بر اساس داده هایی که خودش خوشه بندی شده است ارزیابی می شود، به این اصطلاح گفته می شود. این روش‌ها معمولاً بهترین نتیجه را به الگوریتمی اختصاص می‌دهند که گروه‌هایی با شباهت زیاد در داخل و کم بین گروه‌ها ایجاد می‌کند. یکی از معایب استفاده از معیارهای داخلی در ارزیابی خوشه ای این است که نمرات بالا لزوماً به برنامه های بازیابی اطلاعات مؤثر منجر نمی شود. همچنین، این امتیاز نسبت به الگوریتم هایی که از یک مدل استفاده می کنند، سوگیری دارد. برای مثال، خوشه‌بندی k-means به طور طبیعی فواصل ویژگی‌ها را بهینه می‌کند، و یک معیار داخلی مبتنی بر آن احتمالاً خوشه‌بندی حاصل را بیش از حد برآورد می‌کند.

بنابراین، این معیارهای ارزیابی برای به دست آوردن ایده ای از موقعیت هایی که در آن یک الگوریتم بهتر از الگوریتم دیگر عمل می کند، مناسب تر است. اما این بدان معنا نیست که هر اطلاعات نتایج قابل اعتمادتری نسبت به سایرین ارائه می دهد. دوره اعتبار اندازه گیری شده توسط چنین شاخصی به این ادعا بستگی دارد که ساختار در مجموعه داده وجود دارد. الگوریتمی که برای برخی از انواع توسعه یافته است، اگر مجموعه به طور ریشه ای باشد، شانسی نداردترکیب متفاوت یا اگر ارزیابی معیارهای متفاوتی را اندازه گیری کند. برای مثال، خوشه‌بندی k-means فقط می‌تواند خوشه‌های محدب را بیابد و بسیاری از شاخص‌های امتیازی فرمت یکسانی را در نظر می‌گیرند. در یک مجموعه داده با مدل‌های غیر محدب، استفاده از k-means و معیارهای ارزیابی معمولی نامناسب است.

ارزیابی خارجی

با این نوع توپینگ، نتایج خوشه بندی بر اساس داده هایی که برای گروه بندی استفاده نشده اند، ارزیابی می شوند. یعنی مانند برچسب های کلاس شناخته شده و تست های خارجی. چنین سوالاتی شامل مجموعه ای از موارد از پیش طبقه بندی شده است و اغلب توسط متخصصان (انسان) ایجاد می شود. به این ترتیب، کیت های مرجع را می توان به عنوان استاندارد طلایی برای ارزیابی در نظر گرفت. این نوع روش‌های امتیازدهی میزان نزدیکی خوشه‌بندی به کلاس‌های مرجع را اندازه‌گیری می‌کنند. با این حال، اخیراً بحث شده است که آیا این برای داده های واقعی کافی است یا فقط برای مجموعه های مصنوعی با حقیقت واقعی زمین. از آنجایی که کلاس ها ممکن است دارای ساختار داخلی باشند و ویژگی های موجود ممکن است اجازه جداسازی خوشه ها را ندهند. همچنین، از نقطه نظر کشف دانش، بازتولید حقایق شناخته شده ممکن است لزوماً نتیجه مورد انتظار را ایجاد نکند. در یک سناریوی خوشه‌بندی محدود خاص که در آن فرااطلاعات (مانند برچسب‌های کلاس) قبلاً در فرآیند گروه‌بندی استفاده می‌شود، حفظ همه اطلاعات برای اهداف ارزیابی امری بی‌اهمیت نیست.

اکنون مشخص شده است که چه چیزی در روش های خوشه بندی کاربرد ندارد و چه مدل هایی برای این اهداف استفاده می شود.

توصیه شده: