конспект лекций, вопросы к экзамену

Корпус нац. языка. Основные принципы работы с ним.

Корпус – это собрание текстов в электронной форме, в котором можно осуществлять поиск слов, словосочетаний, грамматических форм, значений слов с помощью определенной поисковой системы. Разберем основные принципы работы на примере национального корпуса русского языка. 

  1. Поиск может осуществляться в основном корпусе (содержит литературную прозу (художественную, нехудожественную, письменную, устную), параллельном корпусе (текст оригинала и его перевод на какой-либо язык), поэтическом, диалектном, акцентологическом, историческом и газетном.
  2. Также можно задать подкорпус, в котором указываются название произведения, автор, пол, год рождения, год создания работы, жанр (фантастика, детектив и др.), тип текста (отзыв, очерк интервью), тематику (путешествия, медицина, филология)
  3. Как известно, в русском языке одна и та же словоформа может выражать разные грамматические значения. Например, словоформа «сапог» может обозначать и. п. ед. ч. И р. П. мн. Ч. Это явление называется омонимией (его можно задать в подкорпусе) 
  4. Подкорпус можно сохранить для дальшейшей работы 
  5. Чтобы найти словоформу в корпусе, необходимо заполнить графу «поиск точных форм» 
  6. Для поиска отдельной лексемы используется лексико-грамматический поиск, где можно найти сразу несколько слов на определенном расстоянии друг от друга, а также задать различные грамматические и семантические признаки (части тела, инструменты, мебель) 
  7. Чтобы найти все лексемы, имеющие одинаковую конечную часть, нужно в зоне «Лексико-грамматический поиск» набрать эту конечную часть после знака «звездочка» 
  8. Также в корпусе можно найти n-граммы – словосочетания из 2,3,4,5 слов
29.08.2018; 17:00
просмотров: 650