Группа авторов, связанная с лингвистической базой данных Grambank, занялась давним вопросом языковых универсалий и решила прояснить его статистическими методами. Исследователи проверили на имеющемся у них материале 191 импликационную универсалию (универсалию типа если A, то B) из проекта Universals Archive. Большинство универсалий вроде бы получили подтверждение. Но далее исследователи провели повторный анализ с поправкой на родство (благодаря которому у языков могут сохраняться общие черты) и географическую близость языков (благодаря которой общие черты могут заимствоваться). Оказалось, что с такой поправкой проверку проходят меньше половины всех испытанных универсалий, причем доля подтверждений для универсалий разных типов очень разная — от 25% до 80%. Однако 89 подтвержденных универсалий из 191 — это всё равно значительное количество нетривиальных общих закономерностей в морфологии и синтаксисе. И это вновь приводит к вопросу о причинах и механизмах сходства между языками в основных принципах их организации.
Одним из основных вопросов лингвистической типологии — раздела лингвистики, связанного с наиболее общими закономерностями в языке — является вопрос о языковых универсалиях. Под ними понимаются закономерности, которые (в идеале) имеют место во всех языках мира — или хотя бы соблюдаются значительно чаще, чем нарушаются. Проще говоря, универсальные законы языка.
Все языковые универсалии представляют собой строго сформулированные проверяемые утверждения об особенностях языка. И по своей форме они делятся на абсолютные и импликативные. Абсолютная универсалия выражается простым предложением — например, во всех языках есть гласные и согласные. А импликативные универсалии представляют собой утверждения формата если ..., то ... и напоминают тем самым математические теоремы.
Пример импликативной универсалии: если язык имеет порядок слов «подлежащее — дополнение — сказуемое», то в нём есть послелоги. Именно так обстоит дело в японском языке: в нём такой порядок слов в предложении, и в нём используются послелоги вместо предлогов. Так, по-японски говорят 桜のために (sakura no tame ni) — в буквальном переводе сакуры для, в то время как по-русски и по-английски говорят для сакуры. Но справедливо ли это утверждение для большинства языков?
Существуют большие списки предполагаемых языковых универсалий — например, Universals Archive. Однако было непонятно, насколько они на самом деле распространены — и насколько часто нарушаются. Для ответа на этот вопрос важно статистическое исследование большой репрезентативной выборки языков со всего мира. До недавнего времени качественных исследований на эту тему не было: исследовались слишком малые выборки языков, да ещё и методами с ограниченной статистической мощностью.
Преодолеть эти ограничения решила международная команда исследователей, ранее разработавшая базу данных Grambank. Эта база данных содержит информацию по морфологическим и синтаксическим особенностям 2430 языков со всех континентов, кроме Антарктиды (рис. 1). Помимо этого, в базе содержатся данные о локализации языков на карте мира (из базы Glottolog) и оценки степени их родства (из глобального исследования языков методами компьютерной филогенетики).
Идея исследования универсалий с использованием собственной базы данных (как отмечают сами авторы в популярном синопсисе) родилась на одной из планёрок Grambank. Для этого авторы отобрали из уже упоминавшейся базы Universals Archive 191 импликационную универсалию, для которых есть соответствия в базе Grambank. Эти универсалии были разделены на 4 группы.
Эргативный строй означает отсутствие в языке винительного падежа в привычном для нас смысле слова — для выделения объекта действия. Вместо этого в предложении с переходным глаголом особым падежом выделяется активный деятель. А объект действия при этом стоит в нейтральном падеже — в том же самом, в котором стоит подлежащее при непереходных глаголах.
Такие конструкции распространены, например, в баскском языке:
В русском языке волк стоит в разных падежах — именительном, если он бежит, и винительном, если его ловят. Когда волк является объектом ловли, мы маркируем его отдельным падежом (винительным, или аккузативом). А вот в баскском и бегущий волк, и волк как объект ловли стоят в одном и том же нейтральном падеже с окончанием -а, который иногда называют именительным, но чаще абсолютивом. А отдельным косвенным падежом (который называется эргативом) выделяется охотник, когда он является активным деятелем — например, ловит волка. Для индоевропейских языков эта логика необычна, но в мире в целом она распространена. Далеко ходить не надо: таких языков много на Кавказе — например, чеченский язык устроен так же, а в грузинском такие конструкции используются в прошедшем времени. Пример из грузинского языка — тоже с участием волка — разбирается в лингвистической задаче «Lupus homini amicus est».
Строй, обратный эргативному, называется аккузативным. Таковы все индоевропейские языки, включая русский, а также, например, тюркские и уральские.
Для проверки универсалий была использована байесовская смешанная обобщённая линейная модель — разновидность обобщённой линейной модели (обобщения линейной регрессии на случаи, где распределение данных отличается от нормального). Таким образом, у исследователей была и репрезентативная выборка за счёт базы Grambank, и мощный статистический метод.
Применение метода без поправок на генетическую и географическую близость привело к тому, что подавляющее большинство предполагаемых универсалий — 91% — были подтверждены (рис. 2). Подтверждение универсалии не означает, что она выполнялась для всех языков (из наличия в языке признака A всегда следовало наличие B), но во всяком случае связь между A и B оказывалась статистически значимой — то есть вероятность того, что она возникла случайно, была совсем небольшой.
Однако, такой наивный подход — не совсем правильный. Как мы уже писали в одной из предыдущих заметок, контакты между языками приводят к их статистически значимому сближению — в типологическом плане они становятся более сходными. Примером могут служить языки Кавказа: они относятся к разным семьям, но зачастую имеют общие черты вроде большого количества согласных фонем и того самого эргативного строя из врезки выше.
Рис. 2. Количество подтверждённых универсалий (синяя заливка — подтверждённые, серая — неподтверждённые). На каждой диаграмме верхняя строка — без корректировки, нижняя — с корректировкой на географическую близость и генетическое родство языков. Обратите внимание, насколько сильно падает процент подтверждённых универсалий при введении корректировки. a — все универсалии, b — иерархические универсалии, с — широкие синтаксические универсалии, d — узкие синтаксические универсалии, e — другие универсалии. Рисунок из обсуждаемой статьи
К сходному смещению приводит и генетическое родство языков: родственные языки ожидаемо типологически близки друг к другу. Индоевропейские языки аккузативные и обычно флективные; уральские — агглютинативные; во многих (но не всех!) афразийских языках корень состоит из одних согласных, а форма слов образуется гласными, встраивающимися между ними. Такое наследование типологии от общего праязыка языками-потомками может существенно повлиять на наши выводы о «языке вообще» — а ведь именно их мы хотим сделать, изучая языковые универсалии.
Поэтому в типологических исследованиях рационально вводить поправку на родство и генетическую близость языков, чтобы исключить их влияние на общую статистику. Что-то типа такой поправки ввели и авторы уже упоминавшейся статьи о языковых контактах: они просто не рассматривали пары языков из одной семьи.
Авторы из проекта Grambank тоже скорректировали расчёт с учётом генетической и географической близости языков, внеся эти два фактора в модель как две дополнительные переменные. И результаты резко изменились. Более строгий анализ подтвердил менее половины универсалий во всей выборке. Самыми живучими оказались иерархические универсалии: из 30 в этом классе устояли 24. Также была подтверждена заметная часть узких синтаксических универсалий — 36 из 65. А вот широкие синтаксические и другие универсалии оказались... в большинстве своём не универсальными.
Исследование в очередной раз подтвердило, что языки мира гораздо разнообразнее, чем казалось ранее — даже в своих основных принципах. И что далеко не всё то универсалия, что ею кажется на первый взгляд.
Какие конкретно универсалии оказались наиболее сильными? Статистическую оценку (коэффициент Байеса) для каждой из подтверждённых универсалий (и некоторых неподтверждённых) можно увидеть на рис. 3. Как и на рис. 2, голубым цветом обозначены подтверждённые универсалии.
Коэффициент Байеса — это количественное выражение поддержки одной гипотезы (в данном случае — о наличии связи между двумя признаками) по сравнению с другой гипотезой (об отсутствии связи) в байесовской статистике. С точки зрения размерности это отношение правдоподобия, поэтому он может быть и меньше единицы, и больше тысячи. Но обычно значительной поддержка считается при значении коэффициента Байеса от 10 и выше.
На рис. 2 выше используется не коэффициент Байеса, а другой показатель — статистическая оценка с фиксированными эффектами — поэтому в легенде к нему упоминается порог 0 (а не 10, как в случае коэффициента Байеса).
Рис. 3. Доверительные интервалы коэффициента Байеса (КБ) для каждой подтверждённой универсалии и некоторых отвергнутых универсалий. Универсалии с КБ > 10 считались подтверждёнными и обозначены синим цветом (как на рис. 2 выше). Каждая универсалия представлена сокращённым обозначением — их полный список можно найти в дополнительных материалах к обсуждаемой статье, для некоторых избранных универсалий они даны в тексте. Рисунок из обсуждаемой статьи
В числе явных лидеров среди узких синтаксических универсалий, коэффициент Байеса у которых явно далёк от пороговой «десятки», — упоминавшаяся выше универсалия в языках с порядком слов SOV используются послелоги; на рис. 3 она обозначена SOV > Ν-Adp.
По статистической поддержке её опережает другая универсалия: если сказуемое, выраженное переходным глаголом, ставится перед подлежащим, то сказуемое, выраженное непереходным глаголом, также будет предшествовать подлежащему, VS (tr. verb) > VS (intr. verb.). Также в числе лидеров в «узком синтаксическом» классе — универсалия если в языке числительное ставится после существительного, то прилагательное также следует за существительным, N-Num > N-Adj.
Несмотря на низкую поддержку класса в целом, в классе широких синтаксических универсалий есть несколько закономерностей с высокой статистической поддержкой. Например, если в языке глагол ставится в конце предложения или порядок слов свободный, то в этом языке есть послелоги или падежные аффиксы, V-final | free > N-Adp | case. В принципе, эта универсалия с некоторой натяжкой верна и для русского — если его порядок слов почти свободным считать. Но всё-таки японский или грузинский иллюстрируют её лучше.
Ещё одна лидирующая широкая синтаксическая универсалия — SVO > not ergative — выполняется, например, для русского языка. Она гласит, что языки с порядком слов «подлежащее — сказуемое — дополнение» (SVO) не эргативные. Эта универсалия эквивалентна упоминавшейся выше, согласно которой языки с эргативным строем имеют порядок слов со сказуемым в начале (VSO) или конце предложения (SOV), но не между подлежащим и сказуемым (SVO).
Возможная связь порядка слов в предложении и эргативного строя обсуждается в лингвистической задаче «Как по-какчикельски?». В ней также рассматриваются нейрокогнитивные корреляты порядка слов в предложении, полученные в исследовании методом фМРТ. Однако это исследование прямо не подтверждает и не опровергает связь эргативности с обработкой того или иного порядка слов в мозге, оставляя этот вопрос открытым.
А вот интересная универсалия, связывающая приставки и суффиксы, не подтвердилась. Предполагалось, что если в языке используются только суффиксы и нет приставок, то в нём не будет и предлогов — только послелоги. И наоборот — если в языке есть только приставки и нет суффиксов, то послелогов в нём быть не должно. Эта идея (как и многие другие из анализируемых в обсуждаемой статье) была выдвинута известным американским лингвистом Джозефом Гринбергом (Joseph Greenberg), но статистический анализ её надежно не подтвердил — коэффициент Байеса близок к десяти для обеих формулировок универсалии. В переводе на простой язык это означает, что между предпочтениями языка в плане предлогов/послелогов и в плане морфемики нет подтверждённой связи. Видимо, развиваются они либо по-разному, либо в разные эпохи.
Подтверждённые исследованием иерархические универсалии включают в себя такие признаки, как наличие склонения местоимений по падежам при наличии склонения существительных, Case Nouns > Case PronN; согласование прилагательных с существительными по числу при наличии согласования по роду, gender Adj > number Adj. Эти универсалии наверняка покажутся читателям интуитивно понятными: ведь в русском языке всё так и устроено. Наконец, подтверждение получила ещё одна универсалия, упомянутая во введении: наличие в языке множественного числа при наличии двойственного, Dual > Plural.
Из числа подтверждённых универсалий в группе «Другие» лидирует любопытная закономерность, которая покажется смутно знакомой всем англоговорящим: чем меньше в языке падежей у существительных, тем больше в нём глагольных времён, Less case > more tense. Английский язык является, можно сказать, предельным случаем этой закономерности: у существительных нет падежей вообще, но система времён очень развитая и сложная. Любопытно, что в обратную сторону эта закономерность не работает: универсалия More case > less tense статистической поддержки не получила. Видимо, языки тяготеют к развитию сложной временной системы глагола, если теряют падежи (или если их нет изначально). Но вот наличие большого количества времён не обязывает язык терять падежи. Например, в латыни система времён очень напоминала английскую, за исключением разве что отсутствия длительных (континуальных) времён. Но это не помешало латинскому языку сохранить свои шесть падежей.
Так как авторы сделали поправки на близость между языками, можно с уверенностью утверждать, что подтверждённые закономерности действуют во многих языках мира при их независимом развитии и не могут быть объяснены контактами или общим прошлым. Значит, существуют какие-то внутренние механизмы, которые обеспечивают зависимость одних структур и подсистем языка от других. Какие именно механизмы — пока до конца не ясно. Версий так много, что в основную статью они не поместились, и их пришлось выносить в приложения, что в практике научных публикаций встречается не так часто: обычно в приложениях оказываются данные и расчёты, но не обсуждение. Это показывает масштаб нашего незнания тех причин, которые делают наши языки похожими друг на друга.
В общем и целом, если передавать все обсуждения в двух словах, то глубинные причины универсалий могут крыться в когнитивных процессах или в механизмах развития языка. Не случайно редакционная коллегия журнала Nature Human Behaviour, где опубликована обсуждаемая статья, написала на неё короткий публичный отзыв, где указала на «непосредственное отношение» языковых универсалий «к пониманию природы человеческого языка». Сама тематика исследования может показаться сложной или узкоспециальной — но на самом деле подобные работы позволяют глубже понять, на чём строится наша способность говорить.
Источник: A. Verkerk, O. Shcherbakova, H. J. Haynie, H. Skirgård, C. Rzymski, Q. D. Atkinson, S. J. Greenhill & R. D. Gray. Enduring constraints on grammar revealed by Bayesian spatiophylogenetic analyses // Nature Human Behaviour, 17.11.2025.
Георгий Куракин
Это ж вроде как математики при расчетах друг дружке кивали бы с умным видом: "да, шестью восемь сорок восемь, я согласен, да так и все говорят" - и никто ни разу не пересчитал!Не только говорят, но хором поют!




Рис. 1. 2226 проанализированных языков из базы данных Grambank на карте мира. Чем темнее цвет точки, тем на большее число универсалий проверялся язык. Рисунок из дополнительных материалов к обсуждаемой статье