مقیاس‌سازی چند بعدی: تعریف، اهداف، اهداف و مثال

2024 نویسنده: Angel Austin | [email protected]. آخرین اصلاح شده: 2023-12-17 05:24

مقیاس‌گذاری چند متغیره (MDS) ابزاری برای تجسم سطح شباهت موارد فردی در یک مجموعه داده است. به مجموعه‌ای از روش‌های ترتیب‌بندی مرتبط که در تجسم اطلاعات، به‌ویژه برای نمایش اطلاعات موجود در یک ماتریس فاصله، استفاده می‌شود، اشاره دارد. این نوعی کاهش ابعاد غیر خطی است. هدف الگوریتم MDS این است که هر جسم را در یک فضای N-بعدی به گونه ای قرار دهد که فاصله بین اشیاء به بهترین شکل ممکن حفظ شود. سپس به هر شی مختصاتی در هر یک از ابعاد N اختصاص داده می شود.

تعداد ابعاد نمودار MDS می تواند از 2 بیشتر باشد و به صورت پیشینی مشخص شده است. انتخاب N=2، قرار دادن شی را برای نمودار پراکندگی دوبعدی بهینه می کند. نمونه هایی از مقیاس بندی چند بعدی را در تصاویر مقاله مشاهده می کنید. نمونه هایی با نمادها به زبان روسی به ویژه گویا هستند.

جوهر

روش مقیاس‌بندی چند بعدی (MMS،MDS) مجموعه گسترده ای از ابزارهای کلاسیک است که روند بهینه سازی را برای مجموعه ای از توابع از دست دادن و ماتریس های ورودی فواصل شناخته شده با وزن و غیره تعمیم می دهد. در این زمینه، یک تابع ضرر مفید استرس نامیده می شود که اغلب با روشی به نام عمده سازی استرس به حداقل می رسد.

راهنما

گزینه های مختلفی برای مقیاس بندی چند بعدی وجود دارد. برنامه های MDS به طور خودکار بار را به حداقل می رساند تا راه حلی به دست آید. هسته اصلی الگوریتم MDS غیرمتریک یک فرآیند بهینه سازی دوگانه است. ابتدا، تبدیل مجاورت یکنواخت بهینه باید پیدا شود. ثانیاً، نقاط پیکربندی باید در موقعیت بهینه قرار گیرند تا فاصله آنها تا حد امکان با مقادیر مجاورت مقیاس شده مطابقت داشته باشد.

گسترش

گسترش مقیاس‌بندی چند بعدی متریک در آمار که در آن فضای هدف یک فضای غیراقلیدسی صاف دلخواه است. جایی که تفاوت ها فواصل روی یک سطح است و فضای هدف یک سطح متفاوت است. برنامه‌های موضوعی به شما امکان می‌دهند یک پیوست را با حداقل اعوجاج یک سطح به سطح دیگر پیدا کنید.

مرحله

چندین مرحله برای انجام یک مطالعه با استفاده از مقیاس بندی چند متغیره وجود دارد:

فرمول بندی مسئله. چه متغیرهایی را می خواهید مقایسه کنید؟ چند متغیر را می خواهید مقایسه کنید؟ برای چه هدفی از مطالعه استفاده خواهد شد؟
دریافت داده های ورودی.از پاسخ دهندگان یک سری سوال پرسیده می شود. برای هر جفت محصول، از آنها خواسته می شود تا شباهت را ارزیابی کنند (معمولاً در مقیاس لیکرت 7 درجه ای از بسیار مشابه تا بسیار غیر مشابه). سوال اول می تواند برای کوکاکولا/پپسی باشد، برای مثال، سوال بعدی برای آبجو، سوال بعدی برای دکتر فلفل و غیره. تعداد سوالات به تعداد مارک ها بستگی دارد.

رویکردهای جایگزین

دو رویکرد دیگر نیز وجود دارد. تکنیکی به نام "داده های ادراکی: رویکرد مشتق شده" وجود دارد که در آن محصولات به ویژگی ها تجزیه می شوند و ارزیابی در مقیاس تفاضلی معنایی انجام می شود. روش دیگر «رویکرد داده‌های ترجیحی» است که در آن از پاسخ‌دهندگان در مورد اولویت‌ها به جای شباهت‌ها سؤال می‌شود.

شامل مراحل زیر است:

راه اندازی برنامه آماری MDS. نرم افزار برای انجام این روش در بسیاری از بسته های نرم افزاری آماری موجود است. اغلب یک انتخاب بین MDS متریک (که به داده های سطح بازه یا نسبت می پردازد) و MDS غیر متریک (که با داده های ترتیبی سروکار دارد) وجود دارد.
تعیین تعداد اندازه گیری ها. محقق باید تعداد اندازه گیری هایی را که می خواهد روی کامپیوتر انجام دهد را تعیین کند. هرچه اندازه‌گیری‌ها بیشتر باشد، برازش آماری بهتر است، اما تفسیر نتایج دشوارتر است.
نمایش نتایج و تعریف اندازه‌گیری - برنامه آماری (یا ماژول مربوطه) نتایج را نمایش می‌دهد. نقشه هر محصول را نمایش می دهد (معمولاً به صورت دو بعدی).فضا). نزدیکی محصولات به یکدیگر نشان دهنده شباهت یا ترجیح آنها است، بسته به اینکه از کدام رویکرد استفاده شده است. با این حال، اینکه چگونه اندازه‌گیری‌ها واقعاً با اندازه‌گیری‌های رفتار سیستم مطابقت دارند، همیشه روشن نیست. در اینجا می توان یک قضاوت ذهنی در مورد مطابقت انجام داد.
نتایج را از نظر قابلیت اطمینان و اعتبار بررسی کنید - برای تعیین نسبت واریانس داده های مقیاس شده که می تواند با روش MDS محاسبه شود، R-squared را محاسبه کنید. مربع R 0.6 حداقل سطح قابل قبول در نظر گرفته می شود. مجذور R 0.8 برای مقیاس بندی متریک خوب در نظر گرفته می شود، در حالی که 0.9 برای مقیاس غیر متریک خوب در نظر گرفته می شود.

آزمون های مختلف

سایر آزمون‌های ممکن عبارتند از: آزمون‌های استرس نوع کروسکال، آزمون‌های تقسیم داده، آزمون‌های پایداری داده‌ها و آزمون‌های قابلیت اطمینان مجدد. در مورد نتایج آزمون با جزئیات بنویسید. همراه با نقشه برداری، حداقل یک اندازه گیری از فاصله (مثلاً شاخص سورنسون، شاخص جاکارد) و قابلیت اطمینان (مثلاً مقدار تنش) باید مشخص شود.

همچنین بسیار مطلوب است که یک الگوریتم (به عنوان مثال Kruskal، Mather) ارائه دهید که اغلب توسط برنامه مورد استفاده تعیین می شود (گاهی اوقات جایگزین گزارش الگوریتم)، اگر یک پیکربندی شروع داده اید یا یک انتخاب تصادفی، شماره داشته اید. اجرای ابعاد، نتایج مونت کارلو، تعداد تکرارها، امتیاز پایداری، و واریانس متناسب هر محور (r-square).

روش تجزیه و تحلیل اطلاعات بصری و داده هامقیاس بندی چند بعدی

تجسم اطلاعات مطالعه بازنمایی های تعاملی (بصری) داده های انتزاعی برای تقویت شناخت انسان است. داده های انتزاعی شامل داده های عددی و غیر عددی مانند اطلاعات متنی و جغرافیایی است. با این حال، تجسم اطلاعات با تجسم علمی متفاوت است: "زمانی که یک بازنمایی فضایی انتخاب می شود، اطلاعاتی است (تجسم اطلاعات) و زمانی که یک نمایش فضایی ارائه می شود scivis (تجسم علمی) است."

زمینه تجسم اطلاعات از تحقیقات در تعامل انسان و رایانه، برنامه های کاربردی علوم رایانه، گرافیک، طراحی بصری، روانشناسی و روش های تجاری پدید آمد. این به طور فزاینده ای به عنوان یک جزء ضروری در تحقیقات علمی، کتابخانه های دیجیتال، داده کاوی، داده های مالی، تحقیقات بازار، کنترل تولید و غیره استفاده می شود.

روش ها و اصول

تجسم اطلاعات نشان می دهد که روش های تجسم و تعامل از غنای ادراک انسانی بهره می برند و به کاربران امکان می دهند به طور همزمان مقادیر زیادی از اطلاعات را ببینند، کاوش کنند و درک کنند. هدف تجسم اطلاعات ایجاد رویکردهایی برای انتقال داده های انتزاعی، اطلاعات به روشی بصری است.

تجزیه و تحلیل داده ها بخشی جدایی ناپذیر از تمام تحقیقات کاربردی و حل مسئله در صنعت است. اکثررویکردهای اساسی برای تجزیه و تحلیل داده ها عبارتند از تجسم (هیستوگرام، نمودار پراکندگی، نمودار سطح، نقشه درخت، نمودار مختصات موازی، و غیره)، آمار (آزمایش فرضیه، رگرسیون، PCA، و غیره)، تجزیه و تحلیل داده ها (تطبیق، و غیره)..d.) و روش های یادگیری ماشین (خوشه بندی، طبقه بندی، درخت های تصمیم گیری، و غیره).

در میان این رویکردها، تجسم اطلاعات یا تجزیه و تحلیل داده های بصری بیشترین وابستگی را به مهارت های شناختی کارکنان تحلیلی دارد و امکان کشف بینش های عملی بدون ساختار را می دهد که فقط توسط تخیل و خلاقیت انسان محدود می شود. یک تحلیلگر برای اینکه بتواند تجسم داده ها را تفسیر کند نیازی به یادگیری هیچ تکنیک پیچیده ای ندارد. تجسم اطلاعات همچنین یک طرح تولید فرضیه است که می تواند و معمولاً با تجزیه و تحلیل های تحلیلی یا رسمی تر مانند آزمون فرضیه های آماری همراه است.

مطالعه

مطالعه مدرن تجسم با گرافیک کامپیوتری آغاز شد، که از همان ابتدا برای مطالعه مسائل علمی مورد استفاده قرار می گرفت. با این حال، در سال های اولیه، کمبود قدرت گرافیکی اغلب کاربرد آن را محدود می کرد. اولویت روی تجسم شروع شد. برای توسعه در سال 1987، با انتشار نرم افزار ویژه برای گرافیک کامپیوتری و تجسم در محاسبات علمی، از آن زمان، چندین کنفرانس و کارگاه آموزشی به طور مشترک توسط انجمن کامپیوتر IEEE و ACM SIGGRAPH برگزار شده است.

آنها موضوعات کلی تجسم داده ها، تجسم اطلاعات و تجسم علمی را پوشش دادند،و همچنین مناطق خاص تر مانند رندر حجم.

خلاصه

مقیاس‌سازی چند بعدی عمومی (GMDS) توسعه‌ای از مقیاس‌بندی چند بعدی متریک است که در آن فضای هدف غیراقلیدسی است. زمانی که تفاوت‌ها فاصله‌ها روی یک سطح است و فضای هدف یک سطح دیگر است، GMDS به شما امکان می‌دهد لانه‌سازی یک سطح را در سطح دیگری با حداقل اعوجاج پیدا کنید.

GMDS خط جدیدی از تحقیقات است. در حال حاضر، برنامه های اصلی عبارتند از: تشخیص اشیاء قابل تغییر شکل (به عنوان مثال، برای تشخیص چهره سه بعدی) و نقشه برداری بافت.

هدف از مقیاس بندی چند بعدی نمایش داده های چند بعدی است. داده های چند بعدی، یعنی داده هایی که برای نمایش به بیش از دو یا سه بعد نیاز دارند، ممکن است تفسیر آنها دشوار باشد. یکی از روش‌های ساده‌سازی این است که فرض کنیم داده‌های مورد علاقه روی یک منیفولد غیرخطی تعبیه‌شده در فضایی با ابعاد بالا قرار دارند. اگر گردآورنده ابعاد به اندازه کافی کم داشته باشد، داده ها را می توان در فضای کم بعدی تجسم کرد.

بسیاری از روش‌های کاهش ابعاد غیرخطی به روش‌های خطی مربوط می‌شوند. روش‌های غیرخطی را می‌توان به طور کلی به دو گروه طبقه‌بندی کرد: روش‌هایی که نقشه‌برداری را ارائه می‌کنند (از فضای با ابعاد بالا به تعبیه ابعاد پایین، یا بالعکس)، و آنهایی که به سادگی تصویرسازی را ارائه می‌دهند. در زمینه یادگیری ماشینی، روش های نقشه برداری را می توان به صورت مشاهده کردمرحله مقدماتی استخراج ویژگی، که پس از آن الگوریتم های تشخیص الگو اعمال می شود. معمولاً آنهایی که فقط تجسم می دهند بر اساس داده های مجاورت هستند - یعنی اندازه گیری فاصله. مقیاس بندی چند بعدی نیز در روانشناسی و سایر علوم انسانی بسیار رایج است.

اگر تعداد مشخصه ها زیاد باشد، فضای رشته های ممکن منحصر به فرد نیز به صورت نمایی بزرگ است. بنابراین، هر چه ابعاد بزرگتر باشد، به تصویر کشیدن فضا دشوارتر می شود. این باعث مشکلات زیادی می شود. الگوریتم هایی که بر روی داده های با ابعاد بالا کار می کنند، پیچیدگی زمانی بسیار بالایی دارند. کاهش داده ها به ابعاد کمتر اغلب الگوریتم های تحلیل را کارآمدتر می کند و می تواند به الگوریتم های یادگیری ماشین کمک کند تا پیش بینی های دقیق تری داشته باشند. به همین دلیل است که مقیاس‌بندی داده‌های چند بعدی بسیار محبوب است.