اطلاعات آماری: جمع آوری، پردازش، تجزیه و تحلیل

2024 نویسنده: Angel Austin | [email protected]. آخرین اصلاح شده: 2023-12-17 05:24

در طول تاریخ آمار، تلاش های مختلفی برای ایجاد طبقه بندی سطوح اندازه گیری صورت گرفته است. استنلی اسمیت استیونز روان فیزیکدان مقیاس های اسمی، ترتیبی، فاصله ای و تناسبی را تعریف کرد.

اندازه‌گیری‌های اسمی ترتیب قابل توجهی از رتبه‌ها در بین مقادیر ندارند و امکان تبدیل یک به یک را دارند.

بعدهای منظم تفاوت های دقیقی بین مقادیر متوالی دارند، اما دارای ترتیب خاصی از آن مقادیر هستند و اجازه هرگونه تغییر جهت حفظ نظم را می دهند.

اندازه‌گیری‌های بازه‌ای فواصل معنی‌داری بین نقاط دارند، اما مقدار صفر دلخواه است (مانند اندازه‌گیری طول و دما بر حسب سانتی‌گراد یا فارنهایت) و امکان هرگونه تبدیل خطی را فراهم می‌کند.

ابعاد نسبت هم مقدار صفر معنی دار دارند و هم فواصل بین ابعاد مختلف را دارند و امکان هرگونه تغییر مقیاس را دارند.

متغیرها و طبقه بندی اطلاعات

زیرا متغیرهاتنها مربوط به اندازه گیری های اسمی یا ترتیبی است که نمی توان به طور منطقی عددی اندازه گیری کرد، و گاهی اوقات به عنوان متغیرهای طبقه بندی شده گروه بندی می شوند. اندازه گیری های نسبت و فاصله به عنوان متغیرهای کمی گروه بندی می شوند که به دلیل ماهیت عددی آنها می توانند گسسته یا پیوسته باشند. چنین تمایزاتی اغلب با نوع داده در علوم رایانه مرتبط است، زیرا متغیرهای مقوله‌ای دوگانه را می‌توان با مقادیر بولی، متغیرهای دسته‌بندی چندگانه با اعداد صحیح دلخواه در یک نوع داده انتگرال، و متغیرهای پیوسته با مؤلفه‌های واقعی که شامل محاسبه ممیز شناور است، نشان داد. اما نمایش انواع داده های اطلاعات آماری بستگی به طبقه بندی اعمال شده دارد.

طبقه بندی های دیگر

طبقه بندی های دیگر داده های آماری (اطلاعات) نیز ایجاد شده است. برای مثال، Mosteller و Tukey بین نمرات، رتبه‌ها، سهام شمارش شده، شمارش، مقادیر و موجودی تمایز قائل شدند. نلدر زمانی شمارش های پیوسته، نسبت های پیوسته، همبستگی شمارش ها و روش های طبقه بندی شده برای ارتباط داده ها را توصیف کرد. همه این روش های طبقه بندی در جمع آوری اطلاعات آماری استفاده می شود.

مشکلات

مسائل مربوط به تبدیل متغیرها و تفسیر دقیق سؤالات، این سؤال که آیا کاربرد انواع روش های آماری برای داده های به دست آمده از طریق روش های مختلف اندازه گیری (جمع آوری) مناسب است یا خیر، پیچیده می شود.پژوهش. رابطه بین داده‌ها و آنچه توصیف می‌کند به سادگی نشان‌دهنده این واقعیت است که انواع خاصی از گزاره‌های آماری می‌توانند دارای مقادیر صدق باشند که تحت تغییر شکل‌های خاص ثابت نیستند. اینکه آیا تغییر ارزش در نظر گرفتن دارد یا خیر بستگی به سوالی دارد که می‌خواهید به آن پاسخ دهید.

نوع داده چیست

نوع داده جزء اساسی محتوای معنایی یک متغیر است و کنترل می کند که چه نوع توزیع های احتمالی را می توان به طور منطقی برای توصیف متغیر، عملیات مجاز روی آن، نوع تحلیل رگرسیون مورد استفاده برای پیش بینی آن استفاده کرد. مفهوم نوع داده در مفهوم سطح اندازه‌گیری مشابه است، اما خاص‌تر است - برای مثال، شمارش داده‌ها به توزیع متفاوتی (پواسون یا دوجمله‌ای) نسبت به مقادیر واقعی غیر منفی نیاز دارند، اما هر دو تحت یکسان قرار می‌گیرند. سطح اندازه گیری (مقیاس ضریب).

ترازو

تلاش های مختلفی برای ایجاد طبقه بندی سطوح اندازه گیری برای پردازش اطلاعات آماری انجام شده است. استنلی اسمیت استیونز روان فیزیکدان مقیاس های اسمی، ترتیبی، فاصله ای و تناسبی را تعریف کرد. اندازه گیری های اسمی ترتیب قابل توجهی از رتبه ها در بین مقادیر ندارند و امکان تبدیل یک به یک را فراهم می کنند. اندازه‌گیری‌های معمولی تفاوت‌های نادقیق بین مقادیر متوالی دارند، اما در ترتیب معنی‌دار آن مقادیر متفاوت هستند و اجازه می‌دهندهرگونه تحول حفظ نظم اندازه‌گیری‌های بازه‌ای، فواصل معنی‌داری بین اندازه‌گیری‌ها دارند، اما مقدار صفر دلخواه است (مانند اندازه‌گیری طول و دما بر حسب سانتی‌گراد یا فارنهایت) و امکان هرگونه تبدیل خطی را فراهم می‌کند. ابعاد نسبت هم مقدار صفر معنادار و هم فاصله بین ابعاد مختلف تعریف شده دارند و امکان هرگونه تغییر مقیاس را دارند.

داده هایی که نمی توان آنها را با استفاده از یک عدد توصیف کرد، اغلب در بردارهای تصادفی متغیرهای تصادفی واقعی گنجانده می شوند، اگرچه روند رو به رشدی برای پردازش آنها وجود دارد. چنین نمونه هایی در زیر مورد بحث قرار خواهند گرفت.

بردارهای تصادفی

عناصر فردی ممکن است با هم مرتبط باشند یا نباشند. نمونه هایی از توزیع های مورد استفاده برای توصیف بردارهای تصادفی همبسته، توزیع نرمال چند متغیره و توزیع t چند متغیره است. به طور کلی، ممکن است بین هر عنصری همبستگی دلخواه وجود داشته باشد، با این حال، اغلب این امر بیش از اندازه معین غیرقابل مدیریت می شود و به محدودیت های اضافی در مؤلفه های مرتبط نیاز دارد.

ماتریس های تصادفی

ماتریس های تصادفی را می توان به صورت خطی مرتب کرد و به عنوان بردارهای تصادفی در نظر گرفت، اما ممکن است این روش کارآمدی برای نشان دادن همبستگی بین عناصر مختلف نباشد. برخی از توزیع های احتمال به طور خاص برای ماتریس های تصادفی طراحی شده اند، مانند ماتریس نرمالتوزیع و توزیع Wishart.

توالی تصادفی

گاهی اوقات آنها مانند بردارهای تصادفی در نظر گرفته می شوند، اما در موارد دیگر این اصطلاح به طور خاص برای مواردی به کار می رود که هر متغیر تصادفی فقط با متغیرهای مجاور همبستگی دارد (مانند مدل مارکوف). این یک مورد خاص از شبکه بیزی است و برای توالی های بسیار طولانی مانند زنجیره های ژنی یا اسناد متنی طولانی استفاده می شود. تعدادی از مدل ها به طور خاص برای چنین دنباله هایی طراحی شده اند، مانند دنباله های پنهان مارکوف.

فرایندهای تصادفی

آنها شبیه به دنباله های تصادفی هستند، اما فقط زمانی که طول دنباله نامشخص یا نامحدود است، و عناصر موجود در دنباله یک به یک پردازش می شوند. این اغلب برای داده هایی استفاده می شود که می توانند به عنوان سری های زمانی توصیف شوند. این موضوع در مورد قیمت سهام در روز بعد صادق است.

نتیجه گیری

تحلیل اطلاعات آماری کاملاً به کیفیت مجموعه آن بستگی دارد. دومی، به نوبه خود، به شدت با امکانات طبقه بندی آن مرتبط است. البته انواع مختلفی از طبقه بندی اطلاعات آماری وجود دارد که خواننده با مطالعه این مقاله می تواند خود آنها را ببیند. با این وجود، وجود ابزارهای موثر و تسلط خوب به ریاضیات و همچنین دانش در زمینه جامعه شناسی کار خود را انجام می دهد و به شما امکان می دهد هر نظرسنجی یا مطالعه ای را بدون اصلاحات قابل توجه برای خطا انجام دهید. منابع اطلاعات آماری در فرمافراد، سازمان ها و سایر موضوعات جامعه شناسی خوشبختانه به وفور نمایندگی دارند. و هیچ مشکلی نمی تواند مانع از یک کاشف واقعی شود.