داده کاوی مفهوم، تحلیل الگوریتم، هدف و کاربرد است

فهرست مطالب:

داده کاوی مفهوم، تحلیل الگوریتم، هدف و کاربرد است
داده کاوی مفهوم، تحلیل الگوریتم، هدف و کاربرد است
Anonim

توسعه فناوری اطلاعات نتایج عملی به همراه دارد. اما کارهایی مانند یافتن، تجزیه و تحلیل و استفاده از اطلاعات هنوز ابزاری با کیفیت بالا و مؤثر دریافت نکرده اند. ابزارهای تحلیلی و کمی وجود دارد، آنها واقعاً کار می کنند. اما هنوز یک انقلاب کیفی در استفاده از اطلاعات رخ نداده است.

خیلی قبل از ظهور فناوری رایانه، شخص نیاز به پردازش مقادیر زیادی از اطلاعات داشت و با بهترین تجربه و توانایی‌های فنی موجود با آن کنار آمد.

توسعه دانش و مهارت همیشه نیازهای واقعی را برآورده کرده و با وظایف فعلی مطابقت دارد. داده کاوی یک نام جمعی است که برای اشاره به مجموعه ای از روش ها برای کشف دانش قبلا ناشناخته، غیر پیش پا افتاده، عملا مفید و در دسترس در داده ها، لازم برای تصمیم گیری در زمینه های مختلف فعالیت های انسانی استفاده می شود.

انسان، هوش، برنامه نویسی

آدم همیشه می داند در هر شرایطی چگونه عمل کند.ناآگاهی یا موقعیت ناآشنا او را از تصمیم گیری باز نمی دارد. عینیت و معقول بودن هر تصمیم انسانی را می توان زیر سوال برد، اما پذیرفته می شود.

هوش مبتنی بر: "مکانیسم ارثی"، دانش اکتسابی، فعال است. دانش برای حل مشکلاتی که پیش روی شخص ایجاد می شود به کار می رود.

  1. هوش مجموعه ای منحصر به فرد از دانش و مهارت است: فرصت ها و پایه های زندگی و کار انسان.
  2. هوش دائماً در حال تکامل است و اعمال انسان بر سایر افراد تأثیر می گذارد.

برنامه نویسی اولین تلاش برای رسمی کردن نمایش داده ها و فرآیند ایجاد الگوریتم است.

انسان، هوش، برنامه نویسی
انسان، هوش، برنامه نویسی

هوش مصنوعی (AI) اتلاف وقت و منابع است، اما نتایج تلاش‌های ناموفق قرن گذشته در زمینه هوش مصنوعی در حافظه باقی ماند، در سیستم‌های مختلف خبره (هوشمند) مورد استفاده قرار گرفت و متحول شد. به طور خاص، به الگوریتم ها (قوانین) و تجزیه و تحلیل داده های ریاضی (منطقی) و داده کاوی.

اطلاعات و جستجوی معمول برای راه حل

یک کتابخانه معمولی مخزن دانش است، و کلمات چاپی و گرافیک هنوز به فناوری رایانه کمک نکرده اند. کتاب های فیزیک، شیمی، مکانیک نظری، طراحی، تاریخ طبیعی، فلسفه، علوم طبیعی، گیاه شناسی، کتاب های درسی، تک نگاری ها، آثار دانشمندان، مواد کنفرانس، گزارش های مربوط به کارهای توسعه و غیره همیشه مرتبط و قابل اعتماد هستند.

کتابخانه منابع مختلفی است که متفاوت هستندشکل ارائه مطالب، منشأ، ساختار، محتوا، سبک ارائه و غیره.

کتابخانه: کتاب، مجلات و سایر مواد چاپی
کتابخانه: کتاب، مجلات و سایر مواد چاپی

در ظاهر همه چیز برای درک و استفاده قابل مشاهده (خواندن، در دسترس) است. شما می توانید هر مشکلی را حل کنید، تکلیف را به درستی تنظیم کنید، راه حل را توجیه کنید، یک مقاله یا ترم بنویسید، مطالبی را برای دیپلم انتخاب کنید، منابعی را در مورد موضوع پایان نامه یا یک گزارش علمی و تحلیلی تجزیه و تحلیل کنید.

هر مشکل اطلاعاتی قابل حل است. با پشتکار و مهارت کافی، نتیجه ای دقیق و قابل اطمینان حاصل خواهد شد. در این زمینه، داده کاوی یک رویکرد کاملا متفاوت است.

علاوه بر نتیجه، فرد "پیوندهای فعال" را به هر چیزی که در فرآیند دستیابی به هدف مشاهده شده است دریافت می کند. منابعی که ایشان در حل مشکل از آنها استفاده کرده است قابل استناد است و احدی بر وجود منبع مناقشه نخواهد کرد. این ضمانت اصالت نیست، اما گواهی مطمئنی است که مسئولیت اصالت به چه کسی «لغو» است. از این منظر، داده کاوی به معنای تردیدهای بزرگ در مورد قابلیت اطمینان و عدم وجود پیوندهای "فعال" است.

با حل چندین مشکل، فرد به نتیجه می رسد و پتانسیل فکری خود را به بسیاری از "پیوندهای فعال" گسترش می دهد. اگر یک کار جدید یک پیوند از قبل موجود را "فعال" کند، شخص می داند که چگونه آن را حل کند: دیگر نیازی به جستجوی چیزی نیست.

"پیوند فعال" یک ارتباط ثابت است: در یک مورد خاص چگونه و چه باید کرد. مغز انسان به طور خودکار هر چیزی را که به نظر می رسد جالب و مفید است به یاد می آورد.یا احتمالاً در آینده مورد نیاز خواهد بود. از بسیاری جهات، این در سطح ناخودآگاه اتفاق می‌افتد، اما به محض اینکه وظیفه‌ای پیش می‌آید که می‌تواند با یک "پیوند فعال" مرتبط شود، فوراً در ذهن ظاهر می‌شود و بدون جستجوی اضافی برای اطلاعات راه‌حلی به دست می‌آید. داده کاوی همیشه تکرار الگوریتم جستجو است و این الگوریتم تغییر نمی کند.

جستجوی منظم: مشکلات "هنری"

کتابخانه ریاضی و جستجوی اطلاعات در آن کار نسبتاً ضعیفی است. یافتن یک راه یا روش دیگر برای حل یک انتگرال، ساختن یک ماتریس، یا انجام عملیات جمع دو عدد خیالی، دشوار، اما ساده است. شما باید تعدادی کتاب را که بسیاری از آنها به زبان خاصی نوشته شده اند مرتب کنید، متن مناسب را پیدا کنید، آن را مطالعه کنید و راه حل مورد نیاز را دریافت کنید.

به مرور زمان، شمارش آشنا می شود و تجربه انباشته شده به شما امکان می دهد اطلاعات کتابخانه و سایر مسائل ریاضی را پیمایش کنید. این یک فضای اطلاعاتی محدود از پرسش و پاسخ است. یک ویژگی مشخص: چنین جستجوی اطلاعات دانش را برای حل مشکلات مشابه جمع می کند. جستجوی یک فرد برای اطلاعات، ردپایی ("پیوندهای فعال") در حافظه او بر روی راه حل های احتمالی برای مشکلات دیگر باقی می گذارد.

در ادبیات داستانی، پاسخ این سؤال را بیابید: "مردم در ژانویه 1248 چگونه زندگی می کردند؟" خیلی سخت. پاسخ به این سوال که در قفسه فروشگاه ها چه چیزی وجود دارد و تجارت مواد غذایی چگونه سازماندهی شده است، حتی دشوارتر است. حتی اگر نویسنده ای صریح و مستقیم در این باره در رمانش نوشته باشد، اگر می شد نام این نویسنده را پیدا کرد، پس شک و تردیدقابلیت اطمینان داده های دریافتی باقی خواهد ماند. قابلیت اطمینان یک ویژگی مهم برای هر مقدار اطلاعات است. منبع، نویسنده و شواهدی که نادرست بودن نتیجه را رد می کند مهم است.

شرایط عینی یک موقعیت خاص

انسان می بیند، می شنود، احساس می کند. برخی از متخصصان به یک احساس منحصر به فرد - شهود - مسلط هستند. بیان مسئله نیاز به اطلاعات دارد، فرآیند حل مسئله اغلب با اصلاح بیان مسئله همراه است. این مشکل کمتری است که با انتقال اطلاعات به داخل سیستم کامپیوتری ایجاد می شود.

اطلاعات در فضای مجازی
اطلاعات در فضای مجازی

کتابخانه و همکاران کار غیرمستقیم در فرآیند تصمیم گیری شرکت می کنند. طراحی کتاب (منبع)، گرافیک موجود در متن، ویژگی های تقسیم اطلاعات به عنوان، پاورقی با عبارات، نمایه موضوعی، فهرست منابع اولیه - همه چیز تداعی هایی را در فرد ایجاد می کند که به طور غیرمستقیم بر روند حل تأثیر می گذارد. مشکل.

زمان و مکان حل مشکل ضروری است. یک فرد به قدری مرتب است که در روند حل یک مشکل به طور غیرارادی به هر چیزی که او را احاطه کرده است توجه می کند. می تواند حواس پرت کننده باشد یا تحریک کننده باشد. داده کاوی هرگز "درک" نخواهد کرد.

اطلاعات در فضای مجازی

یک فرد همیشه فقط به اطلاعات قابل اعتماد در مورد یک رویداد، پدیده، شی، الگوریتم برای حل یک مسئله علاقه داشته است. انسان همیشه دقیقاً تصور کرده است که چگونه می تواند به هدف مورد نظر برسد.

ظاهر رایانه ها و سیستم های اطلاعاتی باید زندگی را برای افراد آسان تر می کرد، اما همه چیز پیچیده تر شده است.اطلاعات به روده سیستم های کامپیوتری مهاجرت کردند و از دید ناپدید شدند. برای انتخاب داده های لازم، باید یک الگوریتم درست ایجاد کنید یا یک پرس و جو در پایگاه داده فرموله کنید.

داده های داخل سیستم اطلاعاتی
داده های داخل سیستم اطلاعاتی

سوال باید درست باشد. فقط در این صورت می توانید پاسخ بگیرید. اما شک و تردید در مورد صحت آن وجود دارد. از این نظر، داده کاوی در واقع «کاوش» است، «استخراج اطلاعات» است. ترجمه این عبارت به این صورت مد شده است. نسخه روسی داده کاوی یا فناوری داده کاوی است.

در آثار متخصصان معتبر، وظایف داده کاوی به شرح زیر است:

  • طبقه بندی؛
  • خوشه‌بندی؛
  • انجمن؛
  • دنباله؛
  • پیش‌بینی.

از نقطه نظر عملی که فرد را در پردازش دستی اطلاعات راهنمایی می کند، همه این مواضع قابل بحث است. در هر صورت، شخص به طور خودکار اطلاعات را پردازش می کند و به طبقه بندی داده ها، گردآوری گروه های موضوعی اشیاء (خوشه بندی)، جستجوی الگوهای زمانی (توالی) یا پیش بینی نتیجه فکر نمی کند.

همه این موقعیت ها در ذهن انسان با دانش فعال نشان داده می شود که موقعیت های بیشتری را پوشش می دهد و به صورت پویا از منطق پردازش داده های اولیه استفاده می کند. ضمیر ناخودآگاه شخص نقش مهمی ایفا می کند، به خصوص زمانی که او متخصص در زمینه دانش خاصی باشد.

مثال: عمده فروشی تجهیزات کامپیوتری

کار ساده است. چند وجود داردده ها تامین کننده تجهیزات کامپیوتری و لوازم جانبی. هر کدام دارای لیست قیمت با فرمت xls (فایل اکسل) هستند که می توانید آن را از وب سایت رسمی تامین کننده دانلود کنید. ایجاد یک منبع وب که فایل‌های اکسل را می‌خواند، آنها را به جداول پایگاه داده تبدیل می‌کند و به مشتریان اجازه می‌دهد محصولات مورد نظر را با کمترین قیمت انتخاب کنند، مورد نیاز است.

مشکلات فوراً ایجاد می شوند. هر تامین کننده نسخه خود را از ساختار و محتوای فایل xls ارائه می دهد. شما می توانید فایل را با دانلود از وب سایت تامین کننده، سفارش از طریق ایمیل یا دریافت لینک دانلود از طریق حساب شخصی خود، یعنی با ثبت نام رسمی در تامین کننده، دریافت کنید.

فروشگاه مجازی کامپیوتر
فروشگاه مجازی کامپیوتر

راه حل مشکل (در همان ابتدا) از نظر فن آوری ساده است. بارگذاری فایل ها (داده های اولیه)، یک الگوریتم تشخیص فایل برای هر تامین کننده نوشته می شود و داده ها در یک جدول بزرگ از داده های اولیه قرار می گیرند. پس از دریافت همه داده ها، پس از ایجاد مکانیسم مبادله مداوم (روزانه، هفتگی یا پس از تغییر) داده های تازه:

  • تغییر مجموعه؛
  • تغییر قیمت؛
  • توضیح مقدار موجود در انبار؛
  • تنظیم شرایط گارانتی، مشخصات و غیره.

این جایی است که مشکلات واقعی شروع می شود. مسئله این است که تامین کننده می تواند بنویسد:

  • notebook Acer;
  • notebook Asus;
  • لپ تاپ دل.

ما در مورد یک محصول صحبت می کنیم، اما از تولید کنندگان مختلف. چگونه نوت بوک=لپ تاپ را مطابقت دهیم یا چگونه ایسر، ایسوس و دل را از خط تولید حذف کنیم؟

برایانسان مشکلی نیست، اما الگوریتم چگونه "درک" می کند که ایسر، ایسوس، دل، سامسونگ، ال جی، اچ پی، سونی علائم تجاری یا تامین کننده هستند؟ چگونه «چاپگر» و چاپگر، «اسکنر» و «MFP»، «کپی» و «MFP»، «هدفون» را با «هدست»، «لوازم جانبی» با «لوازم جانبی» مطابقت دهیم؟

ساخت درخت دسته بر اساس داده های منبع (فایل های منبع) از قبل مشکلی است زمانی که باید همه چیز را روی خودکار تنظیم کنید.

نمونه‌گیری داده: کاوش‌های "تازه ریخته‌شده"

وظیفه ایجاد بانک اطلاعاتی تامین کنندگان تجهیزات کامپیوتری حل شد. درختی از دسته ها ساخته شده است، یک جدول مشترک با پیشنهادات همه تامین کنندگان در حال کار است.

وظایف معمولی داده کاوی در زمینه این مثال:

  • یک محصول را با کمترین قیمت پیدا کنید؛
  • موردی را با کمترین هزینه و قیمت حمل و نقل انتخاب کنید؛
  • تحلیل محصول: ویژگی ها و قیمت ها بر اساس معیارها.

در کار واقعی یک مدیر که از داده‌های چند ده تامین‌کننده استفاده می‌کند، تنوع زیادی از این وظایف و حتی موقعیت‌های واقعی‌تر وجود خواهد داشت.

برای مثال، یک تامین کننده "A" وجود دارد که ASUS VivoBook S15 را می فروشد: پیش پرداخت، تحویل 5 روز پس از دریافت واقعی پول. یک تامین کننده "B" از همان محصول از همان مدل وجود دارد: پرداخت هنگام دریافت، تحویل پس از انعقاد قرارداد در یک روز، قیمت یک و نیم برابر بیشتر است.

داده کاوی آغاز می شود - "کاوش ها". عبارات تصویری: "کاوش ها" یا "داده کاوی" مترادف هستند. این در مورد چگونگی به دست آوردن دلیل برای تصمیم گیری است.

تامین کنندگان "A" و "B" سابقه تحویل دارند. مقطع تحصیلیپیش پرداخت در حالت اول در مقابل پرداخت در قبض در حالت دوم، با در نظر گرفتن اینکه شکست تحویل در حالت دوم 65 درصد بیشتر است. ریسک جریمه از سوی مشتری بیشتر/کمتر است. چگونه و چه چیزی را تعیین کنیم و چه تصمیمی بگیریم؟

از سوی دیگر: پایگاه داده توسط یک برنامه نویس و یک مدیر ایجاد شده است. اگر برنامه نویس و مدیر تغییر کرده اند، چگونه می توان وضعیت فعلی پایگاه داده را تعیین کرد و نحوه استفاده صحیح از آن را یاد گرفت؟ همچنین باید داده کاوی انجام دهید. داده کاوی انواع مختلفی از روش های ریاضی و منطقی را ارائه می دهد که اهمیتی ندارد چه نوع داده هایی در حال تحقیق هستند. این در برخی موارد راه حل صحیح را ارائه می دهد، اما نه در همه موارد.

حرکت به سمت مجازی و یافتن معنا

روش های داده کاوی به محض اینکه اطلاعات در پایگاه داده نوشته می شود و از "میدان دید" ناپدید می شوند، معنی دار می شوند. تجارت تجهیزات کامپیوتری کار جالبی است، اما فقط یک تجارت است. سازماندهی او در شرکت به موفقیت آن بستگی دارد.

تغییرات آب و هوا در این سیاره و آب و هوا در یک شهر خاص مورد توجه همه است، نه فقط کارشناسان حرفه ای آب و هوا. هزاران حسگر باد، رطوبت، فشار، داده های ماهواره های مصنوعی زمین را می خوانند و تاریخچه ای از داده ها برای سال ها و قرن ها وجود دارد.

داده های آب و هوا فقط درباره تصمیم گیری در مورد آوردن یا عدم استفاده از چتر به کار نیست. فن آوری های داده کاوی عبارتند از پرواز ایمن یک هواپیمای مسافربری، عملکرد پایدار یک بزرگراه و تامین مطمئن فرآورده های نفتی از طریق دریا.

داده های "خام" به اطلاعات ارسال می شودسیستم. وظایف داده کاوی تبدیل آنها به یک سیستم سیستماتیک از جداول، ایجاد پیوندها، برجسته کردن گروه های داده های همگن و تشخیص الگوها است.

آب و هوا، آب و هوا و داده های خام
آب و هوا، آب و هوا و داده های خام

روش های ریاضی و منطقی از زمان تحلیل کمی OLAP (پردازش تحلیلی آنلاین) عملی بودن خود را نشان داده اند. در اینجا، فناوری به شما اجازه می دهد تا معنایی را پیدا کنید، و آن را از دست ندهید، مانند مثال فروش تجهیزات کامپیوتری.

علاوه بر این، در وظایف جهانی:

  • کسب و کار فراملی؛
  • مدیریت حمل و نقل هوایی؛
  • مطالعه روده های زمین یا مشکلات اجتماعی (در سطح ایالت)؛
  • مطالعه تأثیر داروها بر موجود زنده؛
  • پیش‌بینی عواقب ساخت یک بنگاه صنعتی و غیره.

فناوری های داده کاوی و تبدیل داده های "بی معنی" به داده های واقعی که به شما امکان می دهد تصمیمات عینی بگیرید، تنها گزینه است.

امکانات انسان در جایی به پایان می رسد که مقدار زیادی اطلاعات خام وجود داشته باشد. سیستم‌های داده‌کاوی در جایی که برای دیدن، درک و احساس اطلاعات لازم است، کاربرد خود را از دست می‌دهند.

توزیع معقول توابع و عینیت

انسان و رایانه باید مکمل یکدیگر باشند - این یک اصل است. نوشتن پایان نامه برای شخص در اولویت است و سیستم اطلاعاتی کمک کننده است. در اینجا، داده‌هایی که فناوری داده کاوی دارد، اکتشافی، قوانین، الگوریتم‌ها است.

تهیه پیش بینی هفتگی هواشناسی در اولویت سامانه اطلاع رسانی است.انسان داده ها را مدیریت می کند، اما تصمیمات خود را بر اساس نتایج محاسبات سیستم قرار می دهد. ترکیبی از روش‌های داده کاوی، طبقه‌بندی داده‌های تخصصی، کنترل دستی کاربرد الگوریتم‌ها، مقایسه خودکار داده‌های گذشته، پیش‌بینی ریاضی و دانش و مهارت‌های زیاد افراد واقعی درگیر در کاربرد سیستم اطلاعاتی است.

انسان و کامپیوتر
انسان و کامپیوتر

نظریه احتمال و آمار ریاضی "مورد علاقه" ترین و قابل درک ترین حوزه های دانش نیستند. بسیاری از متخصصان از آنها بسیار دور هستند، اما روش های توسعه یافته در این زمینه ها تقریباً 100٪ نتایج صحیح را ارائه می دهند. با بکارگیری سیستم های مبتنی بر ایده ها، روش ها و الگوریتم های داده کاوی می توان به صورت عینی و قابل اعتماد به راه حل هایی دست یافت. در غیر این صورت، دستیابی به راه حل به سادگی غیرممکن است.

فرعون ها و اسرار قرن های گذشته

تاریخ به طور دوره ای بازنویسی شد:

  • دولت - به خاطر منافع استراتژیک خود؛
  • دانشمندان معتبر - به خاطر باورهای ذهنی خود.

تشخیص اینکه چه چیزی درست است و چه چیزی نادرست دشوار است. استفاده از داده کاوی به ما این امکان را می دهد که این مشکل را حل کنیم. به عنوان مثال، فناوری ساخت اهرام توسط وقایع نگاران توصیف شده و توسط دانشمندان در قرون مختلف مورد مطالعه قرار گرفته است. همه مطالب در اینترنت قرار نگرفته اند، همه چیز در اینجا منحصر به فرد نیست، و بسیاری از داده ها ممکن است نداشته باشند:

  • نقطه زمانی توصیف شده؛
  • زمان نوشتن توضیحات؛
  • تاریخی که شرح بر اساس آن است؛
  • نویسنده، نظرات (پیوندها) در نظر گرفته شده؛
  • تأیید عینیت.

Bکتابخانه‌ها، معابد و «مکان‌های غیرمنتظره» می‌توانید نسخه‌های خطی قرن‌های مختلف و شواهد مادی گذشته را بیابید.

هدف جالب: کنار هم گذاشتن همه چیز و کشف "حقیقت". ویژگی مسئله: اطلاعات را می توان از اولین توصیف توسط یک وقایع نگار، در زمان حیات فراعنه تا قرن کنونی به دست آورد، که در آن این مشکل با روش های مدرن توسط بسیاری از دانشمندان حل می شود.

دلیل استفاده از داده کاوی: کار دستی امکان پذیر نیست. مقادیر بسیار زیاد:

  • منابع اطلاعات؛
  • زبانهای بازنمایی؛
  • محققانی که یک چیز را به روش های مختلف توصیف می کنند؛
  • تاریخ، رویدادها و شرایط؛
  • مشکلات همبستگی مدت؛
  • تحلیل آمار بر اساس گروه های داده در طول زمان ممکن است متفاوت باشد، و غیره.

در پایان قرن گذشته، هنگامی که شکست دیگری از ایده هوش مصنوعی نه تنها برای افراد غیر عادی، بلکه برای یک متخصص پیچیده آشکار شد، این ایده ظاهر شد: "بازآفرینی شخصیت".

مثلاً با توجه به آثار پوشکین، گوگول، چخوف، سیستم خاصی از قواعد، منطق رفتار شکل می گیرد و یک سیستم اطلاعاتی ایجاد می شود که می تواند به سؤالات خاصی مانند یک فرد پاسخ دهد: پوشکین، گوگول یا چخوف از نظر تئوری، چنین کاری جالب است، اما در عمل اجرای آن بسیار دشوار است.

با این حال، ایده چنین کاری ایده بسیار عملی را نشان می دهد: "چگونه یک جستجوی هوشمند اطلاعات ایجاد کنیم." اینترنت منابع در حال توسعه زیادی است، پایگاه داده ای عظیم و این فرصتی عالی برای استفاده از داده کاوی در ترکیب با انسان است.منطق در قالب توسعه مشترک.

ماشین و انسان با هم
ماشین و انسان با هم

یک ماشین و یک مرد به صورت جفت یک کار عالی و یک موفقیت بی شک در زمینه "باستان شناسی اطلاعات" است، کاوش های با کیفیت بالا در داده ها و نتایجی که چیزی را زیر سوال می برد، اما بدون شک به شما اجازه می دهد. برای به دست آوردن دانش جدید و مورد تقاضا در جامعه.

توصیه شده: