در طول تاریخ آمار، تلاش های مختلفی برای ایجاد طبقه بندی سطوح اندازه گیری صورت گرفته است. استنلی اسمیت استیونز روان فیزیکدان مقیاس های اسمی، ترتیبی، فاصله ای و تناسبی را تعریف کرد.
اندازهگیریهای اسمی ترتیب قابل توجهی از رتبهها در بین مقادیر ندارند و امکان تبدیل یک به یک را دارند.
بعدهای منظم تفاوت های دقیقی بین مقادیر متوالی دارند، اما دارای ترتیب خاصی از آن مقادیر هستند و اجازه هرگونه تغییر جهت حفظ نظم را می دهند.
اندازهگیریهای بازهای فواصل معنیداری بین نقاط دارند، اما مقدار صفر دلخواه است (مانند اندازهگیری طول و دما بر حسب سانتیگراد یا فارنهایت) و امکان هرگونه تبدیل خطی را فراهم میکند.
ابعاد نسبت هم مقدار صفر معنی دار دارند و هم فواصل بین ابعاد مختلف را دارند و امکان هرگونه تغییر مقیاس را دارند.
متغیرها و طبقه بندی اطلاعات
زیرا متغیرهاتنها مربوط به اندازه گیری های اسمی یا ترتیبی است که نمی توان به طور منطقی عددی اندازه گیری کرد، و گاهی اوقات به عنوان متغیرهای طبقه بندی شده گروه بندی می شوند. اندازه گیری های نسبت و فاصله به عنوان متغیرهای کمی گروه بندی می شوند که به دلیل ماهیت عددی آنها می توانند گسسته یا پیوسته باشند. چنین تمایزاتی اغلب با نوع داده در علوم رایانه مرتبط است، زیرا متغیرهای مقولهای دوگانه را میتوان با مقادیر بولی، متغیرهای دستهبندی چندگانه با اعداد صحیح دلخواه در یک نوع داده انتگرال، و متغیرهای پیوسته با مؤلفههای واقعی که شامل محاسبه ممیز شناور است، نشان داد. اما نمایش انواع داده های اطلاعات آماری بستگی به طبقه بندی اعمال شده دارد.
طبقه بندی های دیگر
طبقه بندی های دیگر داده های آماری (اطلاعات) نیز ایجاد شده است. برای مثال، Mosteller و Tukey بین نمرات، رتبهها، سهام شمارش شده، شمارش، مقادیر و موجودی تمایز قائل شدند. نلدر زمانی شمارش های پیوسته، نسبت های پیوسته، همبستگی شمارش ها و روش های طبقه بندی شده برای ارتباط داده ها را توصیف کرد. همه این روش های طبقه بندی در جمع آوری اطلاعات آماری استفاده می شود.
مشکلات
مسائل مربوط به تبدیل متغیرها و تفسیر دقیق سؤالات، این سؤال که آیا کاربرد انواع روش های آماری برای داده های به دست آمده از طریق روش های مختلف اندازه گیری (جمع آوری) مناسب است یا خیر، پیچیده می شود.پژوهش. رابطه بین دادهها و آنچه توصیف میکند به سادگی نشاندهنده این واقعیت است که انواع خاصی از گزارههای آماری میتوانند دارای مقادیر صدق باشند که تحت تغییر شکلهای خاص ثابت نیستند. اینکه آیا تغییر ارزش در نظر گرفتن دارد یا خیر بستگی به سوالی دارد که میخواهید به آن پاسخ دهید.
نوع داده چیست
نوع داده جزء اساسی محتوای معنایی یک متغیر است و کنترل می کند که چه نوع توزیع های احتمالی را می توان به طور منطقی برای توصیف متغیر، عملیات مجاز روی آن، نوع تحلیل رگرسیون مورد استفاده برای پیش بینی آن استفاده کرد. مفهوم نوع داده در مفهوم سطح اندازهگیری مشابه است، اما خاصتر است - برای مثال، شمارش دادهها به توزیع متفاوتی (پواسون یا دوجملهای) نسبت به مقادیر واقعی غیر منفی نیاز دارند، اما هر دو تحت یکسان قرار میگیرند. سطح اندازه گیری (مقیاس ضریب).
ترازو
تلاش های مختلفی برای ایجاد طبقه بندی سطوح اندازه گیری برای پردازش اطلاعات آماری انجام شده است. استنلی اسمیت استیونز روان فیزیکدان مقیاس های اسمی، ترتیبی، فاصله ای و تناسبی را تعریف کرد. اندازه گیری های اسمی ترتیب قابل توجهی از رتبه ها در بین مقادیر ندارند و امکان تبدیل یک به یک را فراهم می کنند. اندازهگیریهای معمولی تفاوتهای نادقیق بین مقادیر متوالی دارند، اما در ترتیب معنیدار آن مقادیر متفاوت هستند و اجازه میدهندهرگونه تحول حفظ نظم اندازهگیریهای بازهای، فواصل معنیداری بین اندازهگیریها دارند، اما مقدار صفر دلخواه است (مانند اندازهگیری طول و دما بر حسب سانتیگراد یا فارنهایت) و امکان هرگونه تبدیل خطی را فراهم میکند. ابعاد نسبت هم مقدار صفر معنادار و هم فاصله بین ابعاد مختلف تعریف شده دارند و امکان هرگونه تغییر مقیاس را دارند.
داده هایی که نمی توان آنها را با استفاده از یک عدد توصیف کرد، اغلب در بردارهای تصادفی متغیرهای تصادفی واقعی گنجانده می شوند، اگرچه روند رو به رشدی برای پردازش آنها وجود دارد. چنین نمونه هایی در زیر مورد بحث قرار خواهند گرفت.
بردارهای تصادفی
عناصر فردی ممکن است با هم مرتبط باشند یا نباشند. نمونه هایی از توزیع های مورد استفاده برای توصیف بردارهای تصادفی همبسته، توزیع نرمال چند متغیره و توزیع t چند متغیره است. به طور کلی، ممکن است بین هر عنصری همبستگی دلخواه وجود داشته باشد، با این حال، اغلب این امر بیش از اندازه معین غیرقابل مدیریت می شود و به محدودیت های اضافی در مؤلفه های مرتبط نیاز دارد.
ماتریس های تصادفی
ماتریس های تصادفی را می توان به صورت خطی مرتب کرد و به عنوان بردارهای تصادفی در نظر گرفت، اما ممکن است این روش کارآمدی برای نشان دادن همبستگی بین عناصر مختلف نباشد. برخی از توزیع های احتمال به طور خاص برای ماتریس های تصادفی طراحی شده اند، مانند ماتریس نرمالتوزیع و توزیع Wishart.
توالی تصادفی
گاهی اوقات آنها مانند بردارهای تصادفی در نظر گرفته می شوند، اما در موارد دیگر این اصطلاح به طور خاص برای مواردی به کار می رود که هر متغیر تصادفی فقط با متغیرهای مجاور همبستگی دارد (مانند مدل مارکوف). این یک مورد خاص از شبکه بیزی است و برای توالی های بسیار طولانی مانند زنجیره های ژنی یا اسناد متنی طولانی استفاده می شود. تعدادی از مدل ها به طور خاص برای چنین دنباله هایی طراحی شده اند، مانند دنباله های پنهان مارکوف.
فرایندهای تصادفی
آنها شبیه به دنباله های تصادفی هستند، اما فقط زمانی که طول دنباله نامشخص یا نامحدود است، و عناصر موجود در دنباله یک به یک پردازش می شوند. این اغلب برای داده هایی استفاده می شود که می توانند به عنوان سری های زمانی توصیف شوند. این موضوع در مورد قیمت سهام در روز بعد صادق است.
نتیجه گیری
تحلیل اطلاعات آماری کاملاً به کیفیت مجموعه آن بستگی دارد. دومی، به نوبه خود، به شدت با امکانات طبقه بندی آن مرتبط است. البته انواع مختلفی از طبقه بندی اطلاعات آماری وجود دارد که خواننده با مطالعه این مقاله می تواند خود آنها را ببیند. با این وجود، وجود ابزارهای موثر و تسلط خوب به ریاضیات و همچنین دانش در زمینه جامعه شناسی کار خود را انجام می دهد و به شما امکان می دهد هر نظرسنجی یا مطالعه ای را بدون اصلاحات قابل توجه برای خطا انجام دهید. منابع اطلاعات آماری در فرمافراد، سازمان ها و سایر موضوعات جامعه شناسی خوشبختانه به وفور نمایندگی دارند. و هیچ مشکلی نمی تواند مانع از یک کاشف واقعی شود.