چند دهه پیش، دانشمندان فقط می توانستند رویای خودکارسازی تحقیقات زبانی را داشته باشند. کار با دست انجام شد، تعداد زیادی دانشآموز درگیر آن بودند، احتمال خطای «بیتوجهی» بسیار زیاد بود و مهمتر از همه، زمان زیادی طول کشید.
با توسعه فناوری رایانه، انجام تحقیقات بسیار سریعتر امکان پذیر شد و امروزه یکی از زمینه های امیدوارکننده در مطالعه زبان، زبانشناسی پیکره ای است. ویژگی اصلی آن استفاده از مقادیر زیادی از اطلاعات متنی است که در یک پایگاه داده ادغام شده و به روشی خاص علامت گذاری شده و یک پیکره نامیده می شود.
امروزه، مجموعه های زیادی برای اهداف مختلف، بر اساس مواد زبانی مختلف، ایجاد شده اند که از میلیون ها تا ده ها میلیارد واحد واژگانی را پوشش می دهند. این جهت امیدوارکننده شناخته شده و نشان دهنده پیشرفت چشمگیر در دستیابی به اهداف کاربردی و تحقیقاتی است. حرفه ای ها، به هر طریقی که با آن برخورد می کنندبه زبان طبیعی، توصیه میشود که حداقل در سطح پایه با مجموعههای متنی آشنا شوید.
تاریخچه زبانشناسی پیکره
تشکیل این جهت با ایجاد سپاه براون در ایالات متحده آمریکا در اوایل دهه 60 قرن گذشته مرتبط است. مجموعه متون فقط از 1 میلیون فرم کلمه تشکیل شده بود و امروزه مجموعه ای با چنین حجمی کاملاً غیر قابل رقابت است. این امر عمدتاً به دلیل سرعت توسعه فناوری رایانه و همچنین تقاضای فزاینده برای منابع تحقیقاتی جدید است.
در دهه 90، زبان شناسی پیکره به یک رشته تمام عیار و مستقل شکل گرفت، مجموعه هایی از متون برای چندین ده زبان جمع آوری و علامت گذاری شد. در این دوره، برای مثال، مجموعه ملی بریتانیا برای 100 میلیون استفاده از کلمه ایجاد شد.
با توسعه این جهت از زبان شناسی، حجم متون بزرگتر می شود (و به میلیاردها واحد واژگان می رسد)، و نشانه گذاری بیشتر و متنوع تر می شود. امروزه، در فضای اینترنت، میتوانید مجموعههایی از گفتار نوشتاری و شفاهی، چندزبانه و آموزشی، متمرکز بر ادبیات داستانی یا دانشگاهی، و همچنین بسیاری از انواع دیگر را بیابید.
چه مواردی وجود دارد
انواع پیکره در زبانشناسی پیکره را می توان به روشهای مختلفی نشان داد. به طور مستقیم واضح است که اساس طبقه بندی می تواند زبان متون (روسی، آلمانی)، حالت دسترسی (متن باز، منبع بسته، تجاری)، ژانر منبع (داستانی) باشد.ادبیات، مستند، دانشگاهی، روزنامه نگاری).
به روشی جالب، تولید مطالبی که بیانگر گفتار شفاهی است انجام می شود. از آنجایی که ضبط عمدی چنین گفتاری شرایط مصنوعی را برای پاسخ دهندگان ایجاد می کند و مطالب حاصل را نمی توان "خود به خودی" نامید، زبان شناسی پیکره مدرن راه دیگری را پیش گرفت. داوطلب مجهز به میکروفون است و در طول روز تمام مکالماتی که در آن شرکت می کند ضبط می شود. البته اطرافیان نمی توانند بدانند که در جریان یک گفتگوی روزمره به پیشرفت علم کمک می کنند.
بعداً، صداهای ضبط شده دریافتی در بانک اطلاعات ذخیره می شوند و با متن چاپ شده مانند رونوشت همراه می شوند. به این ترتیب، نشانه گذاری مورد نیاز برای ایجاد مجموعه ای از گفتار گفتاری روزمره امکان پذیر می شود.
برنامه
جایی که امکان استفاده از زبان وجود دارد، می توان از پیکره های متنی نیز استفاده کرد. هدف از استفاده از روش های پیکره ای در زبان شناسی می تواند این باشد:
- ایجاد برنامه های احساسی که به طور گسترده در سیاست و تجارت برای ردیابی بازخوردهای مثبت و منفی رای دهندگان و مشتریان استفاده می شود.
- اتصال سیستم اطلاعاتی به فرهنگ لغت و مترجمان برای بهبود عملکرد آنها.
- کارهای تحقیقاتی مختلف که به درک ساختار زبان، تاریخچه توسعه آن و پیش بینی تغییر آن در آینده نزدیک کمک می کند.
- توسعه سیستم های استخراج اطلاعات بر اساس مورفولوژی،ویژگی های نحوی، معنایی و سایر ویژگی ها.
- بهینه سازی کار سیستم های مختلف زبانی و غیره.
استفاده از پوسته
رابط منبع شبیه به یک موتور جستجوی معمولی است و از کاربر می خواهد که کلمه یا ترکیبی از کلمات را برای جستجو در پایگاه اطلاعات وارد کند. علاوه بر فرم درخواست دقیق، می توانید از نسخه توسعه یافته استفاده کنید که به شما امکان می دهد تقریباً با هر معیار زبانی اطلاعات متنی را پیدا کنید.
اساس جستجو می تواند این باشد:
- متعلق به گروه خاصی از بخش های گفتار؛
- ویژگی های دستوری؛
- معناشناسی;
- رنگآمیزی سبک و احساسی.
همچنین، می توانید معیارهای جستجو را برای دنباله ای از کلمات ترکیب کنید: به عنوان مثال، تمام رخدادهای یک فعل را در زمان حال، اول شخص، مفرد و به دنبال حرف اضافه "in" و یک اسم در حالت اتهامی بیابید.. حل چنین کار ساده ای چند ثانیه طول می کشد و تنها به چند کلیک ماوس در فیلدهای داده شده نیاز دارد.
فرایند ایجاد
جستجو را می توان هم در همه زیر مجموعه ها و هم در یکی از زیر مجموعه ها انجام داد که به طور خاص انتخاب شده است، بسته به نیاز هنگام دستیابی به یک هدف خاص:
- ابتداً مشخص می شود که کدام متن ها اساس پیکره را تشکیل می دهند. برای اهداف عملی، اغلب از مطالب روزنامه نگاری، روزنامه، نظرات اینترنتی استفاده می شود. در پروژه های تحقیقاتی، بیشترینانواع مختلف اجسام، اما متون باید بر اساس برخی از پایه های مشترک انتخاب شوند.
- مجموعه متون به دست آمده از پیش پردازش شده است، خطاها تصحیح می شوند، در صورت وجود، شرح کتابشناختی و برون زبانی متن تهیه می شود.
- همه اطلاعات غیر متنی فیلتر می شوند: گرافیک ها، تصاویر، جداول حذف می شوند.
- ژتونها، معمولاً کلمات، برای پردازش بیشتر اختصاص داده میشوند.
- در نهایت، نشانهگذاری صرفی، نحوی و سایر نشانهگذاریهای مجموعه عناصر حاصل انجام میشود.
نتیجه همه عملیات انجام شده یک ساختار نحوی با مجموعه ای از عناصر توزیع شده بر روی آن است که برای هر کدام بخشی از گفتار، دستوری و در برخی موارد معنایی تعریف شده است.
مشکل در ایجاد پرونده
درک این نکته مهم است که برای به دست آوردن یک مجموعه، کنار هم قرار دادن تعداد زیادی کلمه یا جملات کافی نیست. از یک سو، مجموعه ای از متون باید متعادل باشند، یعنی انواع مختلف متون را با نسبت های معین ارائه کنند. از طرفی محتویات کیس باید به شکل خاصی مشخص شود.
مسئله اول با توافق حل می شود: به عنوان مثال، مجموعه شامل 60٪ متون داستانی، 20٪ فیلم های مستند است، نسبت معینی به ارائه کتبی گفتار شفاهی، قوانین قانونگذاری، مقالات علمی و غیره داده می شود. دستور العمل ایده آل برای یک پیکره متعادل امروزه وجود ندارد.
حل سوال دوم در مورد نشانه گذاری محتوا دشوارتر است. برنامه ها و الگوریتم های خاصی برای نشانه گذاری خودکار متون استفاده می شود، اما نتیجه 100٪ را نمی دهند، می توانند باعث خرابی شوند و نیاز به اصلاح دستی دارند. فرصت ها و مشکلات در حل این مشکل به تفصیل در کار V. P. Zakharov در مورد زبانشناسی پیکره توضیح داده شده است.
نشانهگذاری متن در چندین سطح انجام میشود که در زیر فهرست میکنیم.
نشانه گذاری مورفولوژیکی
از نیمکت مدرسه به یاد می آوریم که در زبان روسی قسمت های مختلفی از گفتار وجود دارد و هر کدام ویژگی های خاص خود را دارند. به عنوان مثال، یک فعل دارای دسته هایی از حالت و زمان است که یک اسم ندارد. یک گوینده بومی بدون تردید اسم ها را رد می کند و افعال را با هم ترکیب می کند، اما کار دستی برای علامت گذاری مجموعه ای از 100 میلیون کاربرد کلمه مناسب نیست. تمام عملیات لازم توسط کامپیوتر قابل انجام است، اما برای این کار باید آموزش داده شود.
نشانهگذاری مورفولوژیکی برای رایانه لازم است تا هر کلمه را به عنوان بخشی از گفتار که دارای ویژگیهای دستوری خاصی است، "درک" کند. از آنجایی که تعدادی از قوانین منظم به زبان روسی (مانند هر زبان دیگری) کار می کنند، می توان با قرار دادن تعدادی الگوریتم در دستگاه، یک روش خودکار برای تجزیه و تحلیل مورفولوژیکی ایجاد کرد. با این حال، استثناهایی از این قاعده و همچنین عوامل پیچیده مختلف وجود دارد. در نتیجه، امروزه تجزیه و تحلیل کامپیوتری خالص از ایده آل فاصله زیادی دارد، و حتی 4 درصد خطاها مقدار 4 میلیون کلمه را در مجموعه ای از 100 میلیون واحد به دست می دهند که نیاز به اصلاح دستی دارد.
این مشکل در کتاب "Corpus Linguistics" اثر V. P. Zakharov به تفصیل شرح داده شده است.
نشانهگذاری نحوی
تحلیل نحوی یا تجزیه روشی است که رابطه کلمات را در یک جمله تعیین می کند. با کمک مجموعه ای از الگوریتم ها، تعیین موضوع، محمول، اضافات و چرخش های مختلف گفتار در متن امکان پذیر می شود. با فهمیدن اینکه کدام کلمات در دنباله اصلی و کدام وابسته هستند، میتوانیم به طور موثر اطلاعات را از متن استخراج کنیم و ماشین را آموزش دهیم تا فقط اطلاعاتی را که در پاسخ به درخواست جستجو به آنها علاقه مندیم برگرداند.
به هر حال، موتورهای جستجوی مدرن از این برای ارائه اعداد خاص به جای متون طولانی در پاسخ به سؤالات مرتبط مانند: "یک سیب چند کالری است" یا "فاصله مسکو تا سن پترزبورگ" استفاده می کنند. با این حال، برای درک حتی اصول اولیه فرآیند توصیف شده، باید خود را با "مقدمه ای بر زبان شناسی بدنه" یا کتاب درسی پایه دیگری آشنا کنید.
نشانه گذاری معنایی
معناشناسی یک کلمه، به عبارت ساده، معنای آن است. یک رویکرد پرکاربرد در تحلیل معنایی، نسبت دادن برچسب ها به یک کلمه است که نشان دهنده تعلق آن به مجموعه ای از مقوله ها و زیرمجموعه های معنایی است. چنین اطلاعاتی برای بهینهسازی الگوریتمهای تحلیل احساس متن، ارجاع خودکار، و انجام کارهای دیگر با استفاده از روشهای زبانشناسی پیکره ارزشمند است.
تعدادی "ریشه" درخت وجود دارد که کلمات انتزاعی هستند که دارایمعناشناسی بسیار گسترده همانطور که این درخت شاخه می شود، گره هایی تشکیل می شوند که حاوی عناصر واژگانی بیشتر و بیشتر هستند. به عنوان مثال، کلمه "مخلوق" را می توان با مفاهیمی مانند "انسان" و "حیوان" مرتبط کرد. کلمه اول به حرفه های مختلف، شرایط خویشاوندی، ملیت، و کلمه دوم - به طبقات و انواع حیوانات ادامه خواهد داد.
استفاده از سیستم های بازیابی اطلاعات
حوزه های استفاده از زبان شناسی پیکره طیف گسترده ای از حوزه های فعالیت را پوشش می دهد. Corpora برای گردآوری و تصحیح فرهنگ لغت، ایجاد سیستمهای ترجمه خودکار، خلاصهسازی، استخراج حقایق، تعیین احساسات و سایر پردازشهای متن استفاده میشود.
علاوه بر این، چنین منابعی به طور فعال در مطالعه زبان های جهان و مکانیسم های عملکرد زبان به طور کلی استفاده می شود. دسترسی به حجم زیادی از اطلاعات از پیش آماده شده به مطالعه سریع و جامع روندهای توسعه زبان ها، شکل گیری نوشناسی ها و چرخش های گفتاری پایدار، تغییر در معانی واحدهای واژگانی و غیره کمک می کند.
از آنجایی که کار با چنین حجم زیادی از داده ها نیاز به اتوماسیون دارد، امروزه تعامل نزدیکی بین زبان شناسی کامپیوتر و پیکره وجود دارد.
مجموعه ملی زبان روسی
این پیکره (به اختصار NKRC) شامل تعدادی زیرگروه است که امکان استفاده از منبع را برای حل طیف وسیعی از کارها فراهم می کند.
مواد در پایگاه داده NCRA به:
تقسیم می شوند
- درباره نشریات در رسانه های دهه 90 و 2000سال، چه داخلی و چه خارجی؛
- ضبط گفتار شفاهی؛
- متون علامتگذاریشده لهجهشناسی (یعنی با علائم تاکیدی)؛
- گفتار گویش;
- آثار شاعرانه;
- مواد با نشانهگذاری نحوی و غیره.
سیستم اطلاعات همچنین شامل زیر مجموعه هایی با ترجمه موازی آثار از روسی به انگلیسی، آلمانی، فرانسوی و بسیاری از زبان های دیگر (و بالعکس) است.
همچنین، پایگاه داده دارای بخشی از متون تاریخی است که بیانگر گفتار نوشتاری به زبان روسی در دوره های مختلف توسعه آن است. همچنین یک مجموعه آموزشی وجود دارد که می تواند برای شهروندان خارجی در تسلط بر زبان روسی مفید باشد.
مجموعه ملی زبان روسی شامل 400 میلیون واحد واژگانی است و از بسیاری جهات از بخش قابل توجهی از مجموعه زبان های اروپایی جلوتر است.
چشم انداز
واقعیتی که به نفع به رسمیت شناختن این حوزه به عنوان امیدوارکننده است، وجود آزمایشگاه های زبان شناسی پیکره در دانشگاه های روسیه و همچنین در دانشگاه های خارجی است. با استفاده و تحقیق در چارچوب منابع بازیابی اطلاعات در نظر گرفته شده، توسعه برخی حوزه ها در زمینه فناوری های پیشرفته، سیستم های پرسش و پاسخ همراه است، اما در بالا به این موضوع پرداخته شد.
توسعه بیشتر زبانشناسی پیکره در همه سطوح، از فنی، از نظر معرفی الگوریتم های جدید که فرآیندهای جستجو و پردازش اطلاعات را بهینه می کند، گسترش قابلیت های رایانه ها، افزایش عملیاتی پیش بینی می شود.حافظه، و پایان دادن به موارد خانگی، زیرا کاربران راههای بیشتری برای استفاده از این نوع منابع در زندگی روزمره و محل کار پیدا میکنند.
در نتیجه
در اواسط قرن گذشته، سال 2017 مانند آینده ای دور به نظر می رسید، که در آن فضاپیماها در وسعت کیهان گشت و گذار می کنند و ربات ها همه کارها را برای مردم انجام می دهند. با این حال، در واقعیت، علم مملو از «نقاط خالی» است و تلاشهای مذبوحانهای برای پاسخگویی به سؤالاتی انجام میدهد که قرنها بشر را نگران کرده است. پرسشهای مربوط به عملکرد زبان در اینجا جای خود را به خود جلب میکنند، و مجموعه و زبانشناسی محاسباتی میتوانند به ما در پاسخ به آنها کمک کنند.
پردازش مقادیر زیادی داده به شما امکان می دهد الگوهایی را شناسایی کنید که قبلاً غیرقابل دسترسی بودند، توسعه ویژگی های زبان خاصی را پیش بینی کنید، شکل گیری کلمات را تقریباً در زمان واقعی ردیابی کنید.
در سطح جهانی عملی، corpora را می توان به عنوان یک ابزار بالقوه برای ارزیابی احساسات عمومی در نظر گرفت - اینترنت یک پایگاه داده به طور مداوم از متون مختلف ایجاد شده توسط کاربران واقعی است: اینها نظرات، بررسی ها، مقالات هستند. و بسیاری از اشکال دیگر گفتار.
علاوه بر این، کار با سازمانها به توسعه همان ابزارهای فنی مرتبط با بازیابی اطلاعات کمک میکند که برای ما از سرویسهای Google یا Yandex، ترجمه ماشینی، فرهنگهای لغت الکترونیکی آشنا هستند.
به جرات می توان گفت که زبان شناسی پیکره تنها اولین گام های خود را برداشته است و در آینده نزدیک به سرعت توسعه خواهد یافت.