تحلیل متن فرکانس: ویژگی‌ها و مثال‌ها

فهرست مطالب:

تحلیل متن فرکانس: ویژگی‌ها و مثال‌ها
تحلیل متن فرکانس: ویژگی‌ها و مثال‌ها
Anonim

اگر مجبور بودید با متون کار کنید، بیش از یک بار در زندگی خود با این مفهوم برخورد کرده اید. به ویژه، می توانید به ماشین حساب های آنلاین مراجعه کنید که دقیقاً تجزیه و تحلیل فرکانس متن را انجام می دهند. این ابزار مفید نشان می دهد که چند بار یک کاراکتر یا حرف خاص در هر قسمت از متن رخ می دهد. اغلب درصدی نیز نشان داده می شود. چرا این مورد نیاز است؟ چگونه تجزیه و تحلیل فرکانس متن به "شکستن" رمزهای ساده کمک می کند؟ جوهر آن چیست، چه کسی آن را اختراع کرد؟ ما در طول مقاله به این سؤالات مهم در مورد موضوع پاسخ خواهیم داد.

تعریف

تجزیه و تحلیل فرکانس یکی از انواع تحلیل رمز است. این مبتنی بر فرض دانشمندان در مورد وجود توزیع آماری غیر پیش پا افتاده شخصیت های فردی و توالی منظم آنها در هر دو متن ساده و رمزی است.

اعتقاد بر این است که چنین توزیعی، تا جایگزینی نویسه های فردی، در فرآیندهای رمزگذاری/رمزگشایی نیز حفظ خواهد شد.

تجزیه و تحلیل فرکانس سیستم ها
تجزیه و تحلیل فرکانس سیستم ها

ویژگی فرآیند

حالا بیایید نگاهی به تحلیل فرکانس به زبان ساده بیندازیم. این بدان معناست که تعداد تکرارهای یک نویسه الفبایی در متون با طول کافی در متون مختلف نوشته شده به یک زبان یکسان است.

و حالا در مورد رمزگذاری تک الفبایی چطور؟ فرض بر این است که اگر یک کاراکتر با چنین احتمال وقوع مشابهی در بخش دارای متن رمزی وجود داشته باشد، در این صورت واقعی است که فرض کنیم آن حرف رمز شده است.

پیروان تحلیل متن فرکانسی همان استدلال را برای نمودارها (توالی دو حرف) به کار می برند. سه گرام - این برای مورد رمزهای چند الفبایی است.

تاریخچه روش

تحلیل بسامد کلمات، یافته مدرنیته نیست. از قرن نهم میلادی برای دنیای علمی شناخته شده است. ایجاد آن با نام الکندی همراه است.

اما موارد شناخته شده استفاده از روش تحلیل فرکانس مربوط به دوره بسیار بعدی است. بارزترین مثال در اینجا رمزگشایی هیروگلیف های مصری است که در سال 1822 توسط J.-F تولید شد. شامپولین.

اگر به داستان بپردازیم، می توانیم ارجاعات جالب زیادی به این روش رمزگشایی پیدا کنیم:

  • Conan Doyle - "The Dancing Men".
  • ژول ورن - "فرزندان کاپیتان گرانت".
  • ادگار پو - "حشره طلا".

با این حال، از اواسط قرن گذشته، بیشتر الگوریتم‌های مورد استفاده در رمزگذاری با در نظر گرفتن مقاومت آنها در برابر چنین تحلیل فرکانسی ایجاد شده‌اند. بنابراین آن راامروزه آنها اغلب فقط برای آموزش رمزنگاران آینده استفاده می شوند.

تحلیل بسامد متن
تحلیل بسامد متن

روش پایه

بیایید اکنون تجزیه و تحلیل پاسخ فرکانسی را با جزئیات ارائه کنیم. این نوع تجزیه و تحلیل مستقیماً بر این واقعیت استوار است که آزمون از کلمات و آنهایی که به نوبه خود از حروف تشکیل شده است. تعداد حروفی که الفبای ملی را پر می کنند محدود است. حروف را می توان به سادگی در اینجا فهرست کرد.

مهمترین ویژگی چنین متنی هم تکرار حروف، بیگرام های مختلف، سه خط و n-گرم و همچنین سازگاری حروف مختلف با یکدیگر، تناوب صامت ها / مصوت ها و غیره خواهد بود. انواع این نمادها.

ایده اصلی روش ها این است که تعداد دفعات n-گرم های ممکن (که با nm نشان داده می شوند) در متن های ساده به اندازه کافی طولانی برای تجزیه و تحلیل (که با T=t1t2…tl مشخص می شود) که از حروف الفبای ملی تشکیل شده است را شمارش کنیم. با {a1, a2, …, an} نشان داده می شود. همه موارد فوق باعث ایجاد چند میلی گرم متوالی متن می شود:

t1t2…tm, t2t3… tm+1, …, ti-m+1tl-m+2…tl.

اگر این تعداد وقوع m-گرم ai1ai2 باشد…هدف در یک متن خاص T، و L تعداد کل m-گرم های تجزیه و تحلیل شده توسط محقق است، آنگاه می توان به صورت تجربی ثابت کرد که برای L به اندازه کافی بزرگ، فرکانس های چنین میلی گرمی کمی با یکدیگر متفاوت خواهند بود.

تجزیه و تحلیل فرکانس
تجزیه و تحلیل فرکانس

حروف متداول الفبای روسی

اما تحلیل زمان-فرکانس، علیرغم نام مشابه، ربطی به موضوع گفتگوی ما ندارد. این نوع تحلیل برایسیگنال‌های ایستگاه‌های راداری با قابلیت مشاهده کم با استفاده از تبدیل موجک ویژه.

حالا برگردیم به موضوع اصلی. هنگام انجام تجزیه و تحلیل فرکانس، می توانید دریابید که کدام حروف الفبای روسی اغلب در متون نسبتاً حجیم یافت می شود (درصد از 0.062 تا 0.018):

  • A.
  • V.
  • D.
  • F.
  • I.
  • K.
  • M.
  • O.
  • R.
  • T.
  • F.
  • T.
  • ش.
  • b.
  • E.
  • I.

حتی یک قانون یادگاری خاص نیز معرفی شده است که به یادگیری رایج ترین حروف الفبای روسی کمک می کند. برای انجام این کار، کافی است فقط یک کلمه - "hayloft" را به خاطر بسپارید.

در موارد کلی، فراوانی استفاده از حروف بر حسب درصد به سادگی تنظیم می شود: متخصص شمارش می کند که چند بار حرف در متن آمده است، سپس مقدار حاصل را بر تعداد کل کاراکترهای متن تقسیم می کند. و برای بیان این مقدار به صورت درصد کافی است آن را در 100 ضرب کنید.

مهم است که در نظر بگیرید که فرکانس نه تنها به حجم متن، بلکه به ماهیت آن نیز بستگی دارد. به عنوان مثال، در منابع فنی حرف "F" بسیار بیشتر از داستان های داستانی ظاهر می شود. بنابراین، برای نتایج عینی، یک متخصص باید متون با ماهیت و سبک های مختلف را برای تحقیق تایپ کند.

برنامه های تحلیل فرکانس متن
برنامه های تحلیل فرکانس متن

دو، سه، چهار گرم

در متون پرمعنی نیز می توانید رایج ترین (به ترتیب، بیشترینمکرر) ترکیبی از دو یا چند حرف. متخصصان همچنین چندین جدول تهیه کرده اند که نشان دهنده بسامد نمودارهای مشابه الفبای مختلف است.

درمورد روسی، تجزیه و تحلیل بسامد سیستم‌های متون پرمعنا باعث ایجاد رایج‌ترین بیگرام‌ها و سه‌گرام‌ها شد:

  • EN.
  • ST.
  • اما.
  • نه.
  • روشن.
  • RA.
  • OV.
  • KO.
  • VO.
  • STO.
  • جدید
  • ENO.
  • TOV.
  • OVA.
  • OVO.

روابط ترجیحی حروف با یکدیگر

و این همه امکاناتی نیست که تحلیل فرکانس می تواند در اختیار محققان متن قرار دهد. با سیستماتیک کردن اطلاعات جداول مشابه بیگرام ها و تریگرام ها، می توان داده هایی را در مورد رایج ترین ترکیب حروف استخراج کرد. یا به عبارت دیگر، روابط ترجیحی آنها با یکدیگر.

چنین مطالعه گسترده ای قبلاً توسط متخصصان انجام شده است. نتیجه آن جدولی بود که در آن، همراه با هر حرف الفبا، همسایگان آن مشخص شده بود. علاوه بر این، آن شخصیت هایی که اغلب هم بلافاصله قبل و هم بعد از آن یافت می شوند. حروف جدول به طور تصادفی املا نمی شوند. نزدیک‌تر به نماد، همسایه‌های متداول نشان داده شده‌اند، بیشتر - همسایگان نادرتر.

مثال هایی را در نظر بگیرید:

  • حرف "A". اتصالات ترجیحی زیر در اینجا متمایز می شوند: l-d-k-t-v-r-n-A-l-n-s-t-r-v-to-m. از اینجا می بینیم که اغلب قبل از "الف" در متون "ح" ("NA") وجود دارد. و بعد از "A" اغلب در متون روسی می توانیم "L" را ملاقات کنیم.("AL").
  • حرف "M". کارشناسان چنین اتصالات ترجیحی را شناسایی کرده اند: "I-s-a-i-e-o-M-i-e-o-u-a-n-p-s".
  • حرف "ب". اتصالات ترجیحی به شرح زیر است: "n-s-t-l-b-n-k-v-p-s-e-o-i".
  • حرف "ش". اتصالات ترجیحی: "e-b-a-i-u-Sch-e-i-a".
  • حرف "P". پیوندهای ترجیحی با این نماد الفبای روسی: "v-s-u-a-i-e-o-P-o-r-e-a-u-i-l".
تحلیل زمان - فرکانس
تحلیل زمان - فرکانس

چه چیزی تحلیل را تعریف می کند؟

برنامه‌های تحلیل متن فرکانس مدرن به مطالعه حجم وسیعی از طیف گسترده‌ای از مقالات، مقاله‌ها، قسمت‌ها و غیره کمک می‌کنند. اطلاعات زیر به صورت استاندارد در اختیار محقق قرار می گیرد:

  • تعداد کل کاراکترهای متن.
  • تعداد فضاهای استفاده شده توسط نویسنده.
  • تعداد ارقام.
  • اطلاعات در مورد علائم نگارشی استفاده شده - نقطه، کاما، و غیره.
  • تعداد حروف در هر یک از الفبای موجود - سیریلیک، لاتین و غیره.
  • اطلاعات در مورد فراوانی استفاده از هر حرف و علامت در متن - تعداد ذکر و درصد نسبت به کل متن.

مبارزه با بهینه سازی بیش از حد و اشباع بیش از حد

چرا تحلیل بسامد متن انجام می شود؟ آیا این فقط به منظور کنجکاوی است - تعیین اینکه با کدام شخصیت ها در متن نوشته شده به طور مکرر با آنها برخورد می شود؟ نه، کاربرد اصلی تحلیل عملی است و در جای دیگری نهفته است.

N-گرم نه تنها شامل بیگرام ها و سه گرام های پایدار است. به هماندسته بندی ها شامل کلیدواژه ها (برچسب ها)، collocations هستند. یعنی ترکیبات پایدار متشکل از دو یا چند کلمه. آنها با این واقعیت متمایز می شوند که چنین ترکیباتی با هم در متن رخ می دهند و در عین حال بار معنایی خاصی را حمل می کنند.

این به نفع متخصصان بی پروا سئو است. آنها در کار خود گاهی از تکرار برچسب ها و کلمات کلیدی در متن سوء استفاده می کنند تا به طور مصنوعی ارتباط یک صفحه وب خاص را افزایش دهند. آنها سعی دارند با چنین "ترفندی" سیستم را فریب دهند: تبدیل یک ترکیب طبیعی با ترکیب معمول کلمات، سنتی برای زبان روسی ("خرید کت راسو") به ترکیبی ناسازگار. یعنی با مرتب کردن مجدد کلمات در چنین گرم N طبیعی («یک کت راسو بخر») به دست می‌آید.

اما امروزه، الگوریتم‌های جستجو یاد گرفته‌اند که بهینه‌سازی بیش از حد را به همان اندازه هرزنامه بیش از حد مؤثر تشخیص دهند - اشباع بیش از حد متن با کلمات کلیدی، برچسب‌هایی که بر رتبه‌بندی نتایج در صفحه جستجو تأثیر می‌گذارند. برعکس، صفحاتی که بیش از حد بهینه‌سازی شده‌اند، اکنون بر اساس درخواست کاربر در رتبه‌های پایین‌تری قرار می‌گیرند. و خود مردم تمایلی به خواندن متن بی معنی و اشباع شده با برچسب ها ندارند و اطلاعات مفید را در منبع دیگری ترجیح می دهند.

روش تحلیل فرکانس
روش تحلیل فرکانس

کمک به تحلیل خصوصی برای متخصصان سئو

بنابراین، امروزه فیلترهای متنی موتورهای جستجوی مدرن، آن دسته از صفحات اینترنتی را ترجیح می دهند که خواندن اطلاعات آنها نه تنها آسان است، بلکه برای بازدیدکنندگان نیز مفید است. متخصصان سئو برای بهینه سازی کار خود برای استانداردهای جدیدو به تحلیل بسامد متن روی آورید. امروزه بسیاری از خدمات محبوب آن را ارائه می دهند.

تجزیه و تحلیل فراوانی به مرور متنی که برای انتشار آماده می شود برای اطلاع رسانی کمک می کند. افزونگی غیر ضروری برچسب ها و عبارات کلیدی را حذف کنید. همچنین به شما این امکان را می دهد که توجه نویسنده را به ترکیب غیرطبیعی کلماتی که در فیلترهای متنی موتورهای جستجو شک و شبهه ایجاد می کند جلب کنید.

تجزیه و تحلیل پاسخ فرکانسی
تجزیه و تحلیل پاسخ فرکانسی

تحلیل فراوانی متن به این ترتیب به تعیین فراوانی ذکر یک کاراکتر خاص در منبع کمک می کند. این روش امروزه برای ارزیابی اضافه بار متن با برچسب ها، جابجایی های غیر طبیعی کلمات استفاده می شود.

توصیه شده: