link655 link656 link657 link658 link659 link660 link661 link662 link663 link664 link665 link666 link667 link668 link669 link670 link671 link672 link673 link674 link675 link676 link677 link678 link679 link680 link681 link682 link683 link684 link685 link686 link687 link688 link689 link690 link691 link692 link693 link694 link695 link696 link697 link698 link699 link700 link701 link702 link703 link704 link705 link706 link707 link708 link709 link710 link711 link712 link713 link714 link715 link716 link717 link718 link719 link720 link721 link722 link723 link724 link725 link726 link727 link728 link729 link730 link731 link732 link733 link734 link735 link736 link737 link738 link739 link740 link741 link742 link743 link744 link745 link746 link747 link748 link749 link750 link751 link752 link753 link754 link755 link756 link757 link758 link759 link760 link761 link762 link763 link764 link765 link766 link767 link768 link769 link770 link771 link772 link773 link774 link775 link776 link777 link778 link779 link780 link781 link782 link783 link784 link785
конспект лекций, вопросы к экзамену

11.Синтаксический уровень

Синтаксический анализ — это процесс определения того, принадлежит ли некоторая входная последовательность лексем данному языку. Синтаксический анализ имеет целью с помощью алгоритмов автоматического синтаксического разбора получить в явном виде представление синтаксической структуры предложения. Синтаксическая структура предложения может быть наглядно представлена в виде: скобочной записи (в этом случае разные части предложения заключаются в скобки), стрелочной записи (все слова в предложении связываются между собой при помощи стрелок-отношений, наглядно отражающих зависимости между элементами предложения), дерева зависимостей (представление синтаксической структуры в виде графа). При описании синтаксической структуры предложения может использоваться грамматика зависимостей (для изображения которой используются скобочная и стрелочная записи), либо грамматика непосредственно составляющих (изображается при помощи графа).

Под грамматикой зависимостей, в узком смысле, понимается теория синтаксической структуры предложения, в которой: 1) все связи между словами в предложении рассматриваются как подчинительные, 2) вершинами дерева разбора считаются все составляющие предложение слова, 3) корневой вершиной предложения признаётся сказуемое или его знаменательная часть, 4) а предлоги описываются как управляющие связанными с ними формами существительных. Современная грамматика зависимостей во многом основывается на идеях французского лингвиста Луи Теньера. К преимуществам грамматики зависимостей относятся: её приспособленность для языков со свободным порядком слов; относительная простота семантической интерпретации получаемого дерева разбора. Недостатки: трудности с представлением рядов однородных членов предложения; трудности с анализом знаков пунктуации, в частности — ролей запятых.

В рамках грамматики зависимостей существует несколько критериев выявления синтаксической зависимости: 1) критерий грамматической связности - две словоформы считаются синтаксически связанными, если они вместе подчиняются какому-либо синтаксическому правилу (согласованию, управлению и т.д.); 2) критерий линейной позиции — две словоформы считаются синтаксически связанными, если линейная позиция (позиция в предложении, словосочетании) одной словоформы определяется линейной позицией другой словоформ; 3) критерий фонетической слитности — две словоформы считаются синтаксически связанными, если они могут образовывать единый фонетический комплекс (в стороне от дороги - оддороги).

Для выделения главных слов также существует несколько критериев: 1) критерий эндоцентричности — для синтаксически связанных словоформ А и В, А будет зависеть от В, если пассивные валентности пары А+В совпадают с пассивными валентностями В (например: (на него) больно смотреть); 2) критерий морфологического локуса — для синтаксически связанных словоформ А и В, А будет зависеть от В, если В является морфологическим локусом словосочетания, т.е. той словоформой, через которую выражается связь данного словосочетания с внешним контекстом (В может изменять свою форму под воздействием контекстуальной вершины).

Другой способ представления синтаксической структуры высказывания — это метод непосредственно составляю­щих, разработанный в рамках американской генеративной лингвистики и подробно описанный в трудах Н. Хомского и его последователей. Исходные положения грамматики непосредственно составляющих отличаются от грамматики зависимостей. Так, в качестве вершины графа здесь используется символ S, соответствующий исходному представлению о высказывании как цельной коммуникативной еди­нице. Дальнейший анализ производится путем последовательного расщепления каждой синтаксической единицы на две или несколько более мелких, именуемых непосредственно составляющими (т.е., по сути, непосредственно составляющие — это группы из одного или нескольких идущих друг за другом и синтаксически друг с другом связанных слов). Ветвление произво­дится до тех пор, пока на концах цепочек не будут получены терминальные (конечные, минимальные) синтаксические единицы, т.е. любое слово, как знаменательное, так и служебное (на письме за такую единицу принимается последовательность букв ограниченная с двух сторон пробелами). Главный и зависимый члены среди непосредственно состав­ляющих не выделяются, так что связь между узлами носит нена­правленный характер. Ветвление начального символа S в дереве НС соответствует делению на т.н. именную и глагольную группы (т. е., в традиционных терминах, на состав подлежащего и состав сказуемого). Дальнейшие шаги анализа по­следовательно расчленяют эти группы на более мелкие составляющие. В целом, правила развертывания дерева НС дают лишь упрощенное представление о структуре высказывания. Они, напри­мер, не могут разграничить такие внешне подобные конструкции, как Стол накрыт скатертью и Стол накрыт официантом.

Разрешение неоднозначностей при разборе

Существуют и применяются на практике 2 основных подхода к разрешению неоднозначностей: 1) Формально-грамматический подход предполагает построение сложных синтаксических правил, позволяющих системе анализа текста в каждом конкретном случае принимать решения в пользу той или иной синтаксической структуры; 2) Вероятностно-статистический подход предполагает учет статистики встречаемости различных синтаксических структур в определенном контексте.

Один из наиболее эффективных критериев определения истинности синтаксической структуры — т.н. принцип проективности. Синтаксическая структура называется проективной, если ни одна из стрелок — отношений между словами не пересекает другую (пример: Морским привезенный офицером стол).

Программы, выполняющие автоматический синтаксический анализ состоят из двух основных модулей: модуль сегментации предложения и модуль установления связей-отношений между словами. Модуль сегментации выделяет простые предложения в составе сложного, а также любые разрывающие их обособленные обороты (причастные, деепричастные, придаточные предложения и т.д.). Анализ всегда происходит слева направо. Второй модуль, соответственно, занимается установлением связей зависимости между словами.