link1048 link1049 link1050 link1051 link1052 link1053 link1054 link1055 link1056 link1057 link1058 link1059 link1060 link1061 link1062 link1063 link1064 link1065 link1066 link1067 link1068 link1069 link1070 link1071 link1072 link1073 link1074 link1075 link1076 link1077 link1078 link1079 link1080 link1081 link1082 link1083 link1084 link1085 link1086 link1087 link1088 link1089 link1090 link1091 link1092 link1093 link1094 link1095 link1096 link1097 link1098 link1099 link1100 link1101 link1102 link1103 link1104 link1105 link1106 link1107 link1108 link1109 link1110 link1111 link1112 link1113 link1114 link1115 link1116 link1117 link1118 link1119 link1120 link1121 link1122 link1123 link1124 link1125 link1126 link1127 link1128 link1129 link1130 link1131 link1132 link1133 link1134 link1135 link1136 link1137 link1138 link1139 link1140 link1141 link1142 link1143 link1144 link1145 link1146 link1147 link1148 link1149 link1150 link1151 link1152 link1153 link1154 link1155 link1156 link1157 link1158 link1159 link1160 link1161 link1162 link1163 link1164 link1165 link1166 link1167 link1168 link1169 link1170 link1171 link1172 link1173 link1174 link1175 link1176 link1177 link1178
конспект лекций, вопросы к экзамену

Морфологический анализ, его виды.

Морфологический анализ — процедура, в результате которой из формы внешнего оформления слова в тексте получают информацию о его внутренней структуре. Существуют несколько десятков алгоритмов морфологического анализа для разных языков. Направления морфологического анализа:

  1. Анализ путем разделения словоформы на основу и предполагаемое окончание с последующей проверкой их проверкой на совместимость.
  2. Морфологический анализ по конечному буквосочетанию
  3. Для морфологического анализа могут использоваться универсальные математические модели морфологии в форме открытых систем уравнений, позволяющих путем вычислений осуществлять нормализацию словоформ, получение грамматической информации и синтез словоформ.

В основу построения алгоритмов морфологического анализа поло­жено разбиение всех слов на классы, определяющие характер изменения буквенного состава форм слова. Эти классы называются морфологическими. Изменения форм слов могут носить различный характер. Они могут быть связаны как с изменением основы слова, так и с изменением его окончания. Изменение букв состава основы слова имеет место, например, в парах: сижу - сидишь, шел — шли, тренировка - тренировок, человек-люди и т.д.. Изменение окончаний является ос­новным способом образования различных форм слов. А, например, в русском языке используется как изменение окончаний, так и изменение основ слов. Морфологические классы слов делятся на два вида: основоизменительные (характеризующие систему изменения основ слов) и флективные (характеризующие систему изменения окончаний).

Виды морфологического анализа:

  1. Морфологический анализ со словарем словоформ — используется для языков с бедной морфологией. Никакого членения слов при анализе не происходит. Здесь основную проблему представляет анализ слов, не найденных в словаре (например, если в словаре нет нашли данного слова, то, по крайней мере, нужно попытаться определить его часть речи, чтобы не исключать возможности грамматического анализа на следующем уровне (синтаксическом)), а также явление омонимии.
  2. Морфологический анализ со словарем основ. Этот вид МА используется для большинства европейских языков. В этом виде морфологического анализа используется словарь основ и вспомогательные таблицы. В словаре, соответственно, содержатся основы простых и сложных слов без внутренней флексии. Если слово имеет несколько форм основ, то все они включаются в словарь. Каждой основе ставится в соответствие сочетание кода соединительного класса и кода флективного класса, а основе, омонимичной с другими — серия сочетаний таких кодов. Морф анализ слова начинается с его флективного анализа, который производится с целью правильного выделения основы слова, замены букв состава основы ее порядковым номером по словарю и определения грамматической информации.
  3. Особое положение занимает способ автоматического морф анализа методом логического умножения, начало которому было положено в трудах Сергея Яковлевича Фитиалова. Основное понятие здесь — понятие словарной функции. Словарная функция - это функция, определенная на словоформах и сопоставляющая каждой словоформе некоторую информацию. Всегда имеется возможность задать значения сло­варной функции через таблицу значений, т.е. словарь словоформ. Однако существуют более экономичные способы задания этой функции. Так, ее можно представить в виде последовательности 4 операций: членение словоформы как цепочки букв на морфемные сегменты; замена словоформы как цепочки морфемных сегментов не­упорядоченным множеством новых элементов - морфем; приписывание словоформе как множеству морфем некоторая информация; преобразование этой информации в требуемую окончательную ин­формацию о словоформе.Каждой морфеме можно сопоставить информацию, получаемую в результате объединения информации о словоформах, в которые вхо­дит данная морфема. Такого рода объединение информации соответствует дизъюнкции в логике. Информация о словоформе получается как пересечение, или логическая конъюнкция, информации о морфемах, входящих в данную словоформу. Тем самым функция, определенная на морфемах-множествах, заменяется функци­ей, определенной на морфемах-элементах.Морф анализ методом логического умножения при­меняется к флективным языкам и предусматривает наличие словаря основ. Сущность метода и применение его к конкретным языкам можно видеть на примере алгоритма анализа русских словоформ, предложенного венгерским специалистом Д. Варгой. Сначала производится поиск слова в словаре основ. Если слово, имеющее флексию, отсутствует в словаре, то от него отбрасывается одна буква справа и поиск повторя­ется. При отрицательном ответе отбрасывается следующая буква и т.д. Отброшенные буквы образуют окончание и фиксируются. Каж­дая отброшенная буква считается элементарной единицей морф анализа. Ей приписывается булевый вектор — совокупность нулей и единиц, компонентов этого вектора. Число компонентов этого вектора равно числу грамматических категорий, которые могут быть выражены окончанием, частью кот является данная буква. Поскольку предварительно был произведен по­иск по словарю основ и установлена часть речи анализируемого слова, имеется возможность приписывать одинаковым буквам, входящим в окон­чания разных частей речи (напр, буква -м в окончании суще­ствительного и прилагательного) приписывать разные векторы.
  4. Морф анализ без словаря («не­зависимый» анализ) - производится без обращения к словарю, толь­ко за счет использования таблиц аффиксов и особого списка слов, не имеющих грамматического значения. Этот способ используется достаточно редко.