конспект лекций, вопросы к экзамену

Морфологический анализ, его виды.

Морфологический анализ – процедура, в результате которой из формы внешнего оформления слова в тексте получают информацию о его внутренней структуре. Существуют несколько десятков алгоритмов морфологического анализа для разных языков. Направления морфологического анализа:

  1. Анализ путем разделения словоформы на основу и предполагаемое окончание с последующей проверкой их проверкой на совместимость.
  2. Морфологический анализ по конечному буквосочетанию
  3. Для морфологического анализа могут использоваться универсальные математические модели морфологии в форме открытых систем уравнений, позволяющих путем вычислений осуществлять нормализацию словоформ, получение грамматической информации и синтез словоформ.

В основу построения алгоритмов морфологического анализа поло­жено разбиение всех слов на классы, определяющие характер изменения буквенного состава форм слова. Эти классы называются морфологическими. Изменения форм слов могут носить различный характер. Они могут быть связаны как с изменением основы слова, так и с изменением его окончания. Изменение букв состава основы слова имеет место, например, в парах: сижу - сидишь, шел — шли, тренировка - тренировок, человек-люди и т.д.. Изменение окончаний является ос­новным способом образования различных форм слов. А, например, в русском языке используется как изменение окончаний, так и изменение основ слов. Морфологические классы слов делятся на два вида: основоизменительные (характеризующие систему изменения основ слов) и флективные (характеризующие систему изменения окончаний).

Виды морфологического анализа:

  1. Морфологический анализ со словарем словоформ – используется для языков с бедной морфологией. Никакого членения слов при анализе не происходит. Здесь основную проблему представляет анализ слов, не найденных в словаре (например, если в словаре нет нашли данного слова, то, по крайней мере, нужно попытаться определить его часть речи, чтобы не исключать возможности грамматического анализа на следующем уровне (синтаксическом)), а также явление омонимии.
  2. Морфологический анализ со словарем основ. Этот вид МА используется для большинства европейских языков. В этом виде морфологического анализа используется словарь основ и вспомогательные таблицы. В словаре, соответственно, содержатся основы простых и сложных слов без внутренней флексии. Если слово имеет несколько форм основ, то все они включаются в словарь. Каждой основе ставится в соответствие сочетание кода соединительного класса и кода флективного класса, а основе, омонимичной с другими – серия сочетаний таких кодов. Морф анализ слова начинается с его флективного анализа, который производится с целью правильного выделения основы слова, замены букв состава основы ее порядковым номером по словарю и определения грамматической информации.
  3. Особое положение занимает способ автоматического морф анализа методом логического умножения, начало которому было положено в трудах Сергея Яковлевича Фитиалова. Основное понятие здесь – понятие словарной функции. Словарная функция - это функция, определенная на словоформах и сопоставляющая каждой словоформе некоторую информацию. Всегда имеется возможность задать значения сло­варной функции через таблицу значений, т.е. словарь словоформ. Однако существуют более экономичные способы задания этой функции. Так, ее можно представить в виде последовательности 4 операций: членение словоформы как цепочки букв на морфемные сегменты; замена словоформы как цепочки морфемных сегментов не­упорядоченным множеством новых элементов - морфем; приписывание словоформе как множеству морфем некоторая информация; преобразование этой информации в требуемую окончательную ин­формацию о словоформе.Каждой морфеме можно сопоставить информацию, получаемую в результате объединения информации о словоформах, в которые вхо­дит данная морфема. Такого рода объединение информации соответствует дизъюнкции в логике. Информация о словоформе получается как пересечение, или логическая конъюнкция, информации о морфемах, входящих в данную словоформу. Тем самым функция, определенная на морфемах-множествах, заменяется функци­ей, определенной на морфемах-элементах.Морф анализ методом логического умножения при­меняется к флективным языкам и предусматривает наличие словаря основ. Сущность метода и применение его к конкретным языкам можно видеть на примере алгоритма анализа русских словоформ, предложенного венгерским специалистом Д. Варгой. Сначала производится поиск слова в словаре основ. Если слово, имеющее флексию, отсутствует в словаре, то от него отбрасывается одна буква справа и поиск повторя­ется. При отрицательном ответе отбрасывается следующая буква и т.д. Отброшенные буквы образуют окончание и фиксируются. Каж­дая отброшенная буква считается элементарной единицей морф анализа. Ей приписывается булевый вектор – совокупность нулей и единиц, компонентов этого вектора. Число компонентов этого вектора равно числу грамматических категорий, которые могут быть выражены окончанием, частью кот является данная буква. Поскольку предварительно был произведен по­иск по словарю основ и установлена часть речи анализируемого слова, имеется возможность приписывать одинаковым буквам, входящим в окон­чания разных частей речи (напр, буква -м в окончании суще­ствительного и прилагательного) приписывать разные векторы.
  4. Морф анализ без словаря («не­зависимый» анализ) - производится без обращения к словарю, толь­ко за счет использования таблиц аффиксов и особого списка  слов, не имеющих грамматического значения. Этот способ используется достаточно редко.
08.08.2014; 09:44
просмотров: 5976