конспект лекций, вопросы к экзамену

11.Синтаксический уровень

Синтаксический анализ – это процесс определения того, принадлежит ли некоторая входная последовательность лексем данному языку. Синтаксический анализ имеет целью с помощью алгоритмов автоматического синтаксического разбора получить в явном виде представление синтаксической структуры предложения. Синтаксическая структура предложения может быть наглядно представлена в виде: скобочной записи (в этом случае разные части предложения заключаются в скобки), стрелочной записи (все слова в предложении связываются между собой при помощи стрелок-отношений, наглядно отражающих зависимости между элементами предложения), дерева зависимостей (представление синтаксической структуры в виде графа). При описании синтаксической структуры предложения может использоваться грамматика зависимостей (для изображения которой используются скобочная и стрелочная записи), либо грамматика непосредственно составляющих (изображается при помощи графа).

Под грамматикой зависимостей, в узком смысле, понимается теория синтаксической структуры предложения, в которой: 1) все связи между словами в предложении рассматриваются как подчинительные, 2) вершинами дерева разбора считаются все составляющие предложение слова, 3) корневой вершиной предложения признаётся сказуемое или его знаменательная часть, 4) а предлоги описываются как управляющие связанными с ними формами существительных. Современная грамматика зависимостей во многом основывается на идеях французского лингвиста Луи Теньера. К преимуществам грамматики зависимостей относятся: её приспособленность для языков со свободным порядком слов; относительная простота семантической интерпретации получаемого дерева разбора. Недостатки: трудности с представлением рядов однородных членов предложения; трудности с анализом знаков пунктуации, в частности – ролей запятых.

В рамках грамматики зависимостей существует несколько критериев выявления синтаксической зависимости: 1) критерий грамматической связности - две словоформы считаются синтаксически связанными, если они вместе подчиняются какому-либо синтаксическому правилу (согласованию, управлению и т.д.); 2) критерий линейной позиции – две словоформы считаются синтаксически связанными, если линейная позиция (позиция в предложении, словосочетании) одной словоформы определяется линейной позицией другой словоформ; 3) критерий фонетической слитности – две словоформы считаются синтаксически связанными, если они могут образовывать единый фонетический комплекс (в стороне от дороги - оддороги).

Для выделения главных слов также существует несколько критериев: 1) критерий эндоцентричности –  для синтаксически связанных словоформ А и В, А будет зависеть от В, если пассивные валентности пары А+В совпадают с пассивными валентностями В (например: (на него) больно смотреть); 2) критерий морфологического локуса – для синтаксически связанных словоформ А и В, А будет зависеть от В, если В является морфологическим локусом словосочетания, т.е. той словоформой, через которую выражается связь данного словосочетания с внешним контекстом (В может изменять свою форму под воздействием контекстуальной вершины).

Другой способ представления синтаксической структуры высказывания — это метод непосредственно составляю­щих, разработанный в рамках американской генеративной лингвистики и подробно описанный в трудах Н. Хомского и его последователей. Исходные положения грамматики непосредственно составляющих отличаются от грамматики зависимостей. Так, в качестве вершины графа здесь используется символ S, соответствующий исходному представлению о высказывании как цельной коммуникативной еди­нице. Дальнейший анализ производится путем последовательного расщепления каждой синтаксической единицы на две или несколько более мелких, именуемых непосредственно составляющими (т.е., по сути, непосредственно составляющие – это группы из одного или нескольких идущих друг за другом и синтаксически друг с другом связанных слов). Ветвление произво­дится до тех пор, пока на концах цепочек не будут получены терминальные (конечные, минимальные) синтаксические единицы, т.е. любое слово, как знаменательное, так и служебное (на письме за такую единицу принимается последовательность букв ограниченная с двух сторон пробелами). Главный и зависимый члены среди непосредственно состав­ляющих не выделяются, так что связь между узлами носит нена­правленный характер. Ветвление начального символа S в дереве НС соответствует делению на т.н. именную и глагольную группы (т. е., в традиционных терминах, на состав подлежащего и состав сказуемого). Дальнейшие шаги анализа по­следовательно расчленяют эти группы на более мелкие составляющие. В целом, правила развертывания дерева НС дают лишь упрощенное представление о структуре высказывания. Они, напри­мер, не могут разграничить такие внешне подобные конструкции, как Стол накрыт скатертью и Стол накрыт официантом.

Разрешение неоднозначностей при разборе

Существуют и применяются на практике 2 основных подхода к разрешению неоднозначностей: 1) Формально-грамматический подход предполагает построение сложных синтаксических правил, позволяющих системе анализа текста в каждом конкретном случае принимать решения в пользу той или иной синтаксической структуры; 2) Вероятностно-статистический подход предполагает учет статистики встречаемости различных синтаксических структур в определенном контексте.

Один из наиболее эффективных критериев определения истинности синтаксической структуры – т.н. принцип проективности. Синтаксическая структура называется проективной, если ни одна из стрелок – отношений между словами не пересекает другую (пример: Морским привезенный офицером стол).

Программы, выполняющие автоматический синтаксический анализ состоят из двух основных модулей: модуль сегментации предложения и модуль установления связей-отношений между словами. Модуль сегментации выделяет простые предложения в составе сложного, а также любые разрывающие их обособленные обороты (причастные, деепричастные, придаточные предложения и т.д.). Анализ всегда происходит слева направо. Второй модуль, соответственно, занимается установлением связей зависимости между словами.

04.02.2015; 20:41
просмотров: 4013