конспект лекций, вопросы к экзамену

корпусная и компьютерная лингвистика

Корпусная лингвистика

Под корпусной лингвистикой понимается раздел лингвистики, занимающийся разработкой и использованием лингвистических корпусов данных. Прежде, чем говорить о собственно корпусной лингвистике как о научной дисциплине, необходимо определить понятие корпуса. Как такового общепринятого определения пока выделено не было, поэтому приведём несколько наиболее популярных:

  • корпус — это организованное определённым образом словесное единство, элементами которого являются тексты или специальным образом отобранные отрывки из текстов
  • корпус – это набор лингвистических данных из определённого языка в форме записанных высказываний или письменных текстов, доступный для анализа
  • корпус — это набор естественных текстов на любом языке, устных или письменных, который хранится в электронном виде и позволяет организовать компьютеризированный поиск

В целом, корпус данных представляет собой сформированную по определенным правилам выборку данных из т.н. проблемной области, т.е. по сути, корпус данных представляет собой результат отображения про­блемной области. Под проблемной областью понимается область реализаций языковой системы, содержащая феномены, подлежащие лин­гвистическому описанию. Проблемная область для конкретного корпуса данных может быть сколь угодно велика или мала — все определяется выбранным объектом анализа. В идеале, проблемная область имеет два измерения — языковое и речевое. Рече­вое измерение представлено речевыми высказываниями, или реализациями, а языковое измерение проявляется в существовании потенциальной возможности по­явления других употреблений, дополняющих массив имеющихся реализа­ций. Как правило, корпусная лингвистика практически полностью игнорирует языковой аспект, поскольку изначально в исследованиях в рамках этой дисциплины фиксируются именно реализации языковой системы. Такой подход обусловлен тем, что зафиксировать возможно только реально существующие единицы, а не «потенциальной возможности» их по­явления. Однако для регулярно изменяемых корпусов данных языковой аспект проблемной области дает о себе знать на стадии разработки принципов модификации корпуса. Кроме того, для лингвистического исследования в целом (кроме специально оговариваемых случаев) в центре внимания стоит именно языковое измерение, поскольку именно его следует реконструировать в результате анализа. С чисто практической точки зрения проблемную область можно определить как множество данных, обработка которых затруднена из-за того, что языковых реализаций слишком много.

В отличие от проблемной области, корпус данных имеет только одно измерение — речевое, поскольку сам по себе он не обла­дает возможностью производства своих составляющих. Это, однако, не означает, что корпус данных не может использоваться для реконструк­ции языка как системы. Напротив — это одна из основных задач лингви­стического исследования корпуса. Выводы о функционировании языка как системы делаются исследователями-лингвистами на основе отдельных результатов деятельности языка.  

Отдельного обсуждения заслуживает проблема выделения единиц хранения корпуса данных. Единица хра­нения — это некоторая совокупность естественно-языковых выражений проблемной области, которой сопоставляется одно описание на не­котором метаязыке, определяемом процедурой формирования корпуса. Поскольку корпус данных представляет собой выборку из проблемной области, сформированную по некоторым опре­деленным принципам, единица хранения непосредственно зависит от оснований, по которым осуществлялась выборка. В зависимости от этих оснований и от цели исследования, единицами хранения корпуса могут быть отдельные слова, короткие фразы, предложения, слово­сочетания (синтагмы). Если корпус предполагается для синтаксического анализа, то он должен включать целые тексты или достаточно большие их фрагменты. На основании описания единицы хранения можно судить о том, какая часть проблемной области представлена в корпусе. Например, еди­ница хранения корпуса рекламных слоганов, созданного в Отделе экспе­риментальной лексикографии Института русского языка РАН, включает следующие характеристики: слоган: Для мужчин, которые любят женщин, которые любят мужчин; фирма: «Louis Azzaro»; предмет: туалетная вода Azzaro pour Homme; область: косметика и парфюмерия; вид слогана: перевод с французского; оригинал: Pour les hommes qui aiment les femmes qui aiment les homes; источник: Космополитен. Таким образом, выражение естественного языка «Для мужчин, которые любят женщин, которые любят мужчин» и сопоставленные ему характеристики вместе образуют единицу хранения, которая может вводиться в базу данных или включаться в обычный файл текстового формата.

Виды корпусов данных: Исследовательский корпус – т.е. корпус, который предназначен для изучения раз­личных аспектов функционирования языковой системы. Такие корпуса строятся не post factum - т.е. после проведения какого-либо исследования, а до его проведения. Иллюстративный корпус – т.е. корпус, который создается после проведения научного исследования: целью здесь является не столько выявить новые факты, сколько подтвердить и обосновать уже полученные результаты. Такие корпусы не являются статистически правильным отображением проблемной области, т.к. они включают лишь то, что достаточно для иллюстрации описываемого феномена. Статический корпус – корпус, отражающий опреде­ленное временное состояние языковой системы. Типичными представи­телями этого вида корпусов являются авторские корпусы — т.е. коллекции текстов писателей. Динамический (мониторный) корпус – отличается от статического тем, что не предполагает раз и навсегда заданно­го набора текстов. В течение заранее фиксированного промежутка време­ни происходит обновление и/или дополнение множества текстов корпуса с целью мониторинга состояния проблемной области и динамики её изменения. Специфика эксплуатации динамического корпуса состоит в том, что пользователь при проведении исследования может выделить из об­щего генерального корпуса рабочий корпус, включающий лишь часть текстов генерального корпуса.

Важнейшие свойства корпуса: репрезентативность по отношению к проблемной области – т.е. способность корпуса текстов отражать все релевантные для данного исследования свой­ства проблемной области в определенной пропорции, которая определяется частотой встречаемости данного явления в проблемной области. Т.е., частота появления некоторого явления в лингвистическом кор­пусе должна быть близка частоте появления этого явления в соответствующей проблемной области; полнота – требует учета релевантных явлений в корпусе, даже если это не соответствует идее пропорционального сужения между корпусом и проблемной областью. Требова­ние полноты совершенно необходимо в тех случаях, когда лингвист-конструктор корпуса лишь приблизительно знает, что ему необходимо искать. В такой си­туации исследовательский корпус может приобрести те или иные черты иллюстративного корпуса; экономность – корпус текстов должен экономить усилия иссле­дователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством текстов проблемной области, но, по возможности, существенно отличаться от нее по объему (с сторону уменьшения). Корпус считается тем более «экономичным», чем выше порог отображения явлений; структурированность хранимого материала.

Основные задачи корпусной лингвистики: первичной задачей корпусной лингвистики считается объективное лингвистическое описание языковой системы, причём к этому описанию корпусная лингвистика подходит, отталкиваясь от изучения конкретной человеческой коммуникации, от реальных текстов. В качестве вторичной задачи рассматривается выработка особого способа отражения речевого материала в корпусе текстов. Этот способ, в свою очередь, может использоваться другими лингвистическими дисциплинами. Ещё одна часто выделяемая задача корпусной лингвистики заключается в изучении вероятности лингвистических явлений (в отличие от традиционной лингвистики, которая изучает их (явлений) возможность; Так, например, традиционная лингвистика скажет, что конструкция I'm not в литературном английском возможна, а конструкция I ain't – нет. Корпусная же лингвистика не скажет, что конструкция «I ain't» невозможна – она скажет, что эта конструкция маловероятна).

Основные направления научной деятельности в рамках корпусной лингвистики: Во-первых, это лексикографические исследования, создание словарей. Практически все современные словари английского языка (Collins, Webster, MacMillan и т.д.) издаются на основе огромных корпусов, которые позволяют сделать словарь репрезентативным. То есть, словарь может быть верным или не верным относительно данного корпуса. Во-вторых, изучение корпусов позволяет получать точные данные о лексическом составе языков, об относительных частотах употребления тех или иных слов. В частности, при помощи корпусной лингвистики был окончательно доказан так называемый закон Ципфа, утверждающий, что если в любом естественном языке все слова упорядочить по убыванию частоты их использования, то частота любого слова в таком списке окажется приблизительно обратно пропорциональной его порядковому номеру (так называемому рангу этого слова). Например второе по частоте слово встречается примерно в два раза реже, чем первое, третье — в три раза реже, чем первое, и так далее. В-третьих, корпусная лингвистика изучает и изменения в лексическом составе языков, различные его вариации (например, появление и исчезновение неологизмов). В-четвертых, корпусная лингвистика изучает грамматики естественных языков, в частности – сочетаемости тех или иных грамматических явлений друг с другом. Естественно, что данные, полученные из живой речи, гораздо более актуальны, чем умозрительные грамматики традиционной лингвистики. В-пятых, корпусная лингвистика занимается изучением текстов. Например, используя корпусы текстов, можно научиться определять функциональный стиль текста через его статистические характеристики – среднюю длину слова и предложения, характерные сочетания слов и т.д. Такие методы уже существуют и используются в автоматическом реферировании и тематическом поиске. В-шестых, корпусная лингвистика активно используется в лингводидактике, то есть, в обучении иностранным языкам. Чтобы знать, чему, учить, необходимы точные количественные данные о преподаваемом языке — состав наиболее частотной лексики, вероятности употребления тех или иных грамматических конструкций и т. д. В-седьмых, корпусная лингвистика занимается проблемами машинного перевода, для чего строятся и используются т.н. многоязычные выровненные (параллельные) корпусы, в которых каждой фразе на одном языке сопоставлен её эквивалент на другом языке. Кроме машинного перевода, такой корпус можно использовать для исследований, связанных со сравнением оригинальных и переводных текстов.

Соотношение корпусной и компьютерной лингвистики. Как уже упоминалось выше, компьютерной лингвистикой называется ветвь лингвистики, занимающаяся моделированием языка с использованием компьютерной техники. Корпусная лингвистика занимается примерно тем же, так что можно сказать, что эти дисциплины дополняют друг друга. Компьютерная лингвистика, например, создаёт инструменты (то есть, программы) для корпусной лингвистики. Например, исследователям в области корпусной лингвистики необходимы средства для автоматической разметки классов слов в корпусах. А если имеется корпус на, скажем 100 миллионов словоупотреблений и необходимо отметить часть речи у каждого слова, то вручную это сделать совершенно нереально. Тут и понадобится специализированное программное обеспечение. Кроме того, очень активно в современном мире используются программы морфологического и синтаксического анализа. Их обучение также происходит на основе корпусов текстов. Кроме того, для исследования корпуса бывает важно сначала снять лексическую неоднозначность, то есть, выделить слова-омонимы (лук, кисть). В большом корпусе сделать это вручную затруднительно, поэтому компьютерная лингвистика создаёт программы семантического анализа текстов, которые способны в автоматическом режиме определять, в каком значении употреблено то или иное слово. И, наконец, компьютерная лингвистика активно занимается вопросами создания параллельных корпусов, о которых говорилось выше.

04.02.2015; 20:24
просмотров: 6790