Александр Пиперски
«Квантик» №2, 2022
В «Квантике» №1 за 2022 год в одной из задач Турнира имени М. В. Ломоносова была дана таблица из 18 словосочетаний с названиями цветов, с указанием, сколько раз они встречаются в корпусе текстов на американском английском языке с 1990 по 2009 год:
Требовалось узнать, какое словосочетание встречается в тех же текстах чаще другого: black and pink или pink and black; blue and white или white and blue; green and red или red and green; pink and white или white and pink; red and white или white and red.
Давайте разбираться. В каком порядке перечислять элементы, порядок которых не важен? Можно подумать, что в случайном, но в реальности это не так. Например, на сайте problems.ru в условиях нескольких сотен геометрических задач встречается выражение «в треугольнике ABC», но нет ни одной задачи, где сказано «в треугольнике ACB», «в треугольнике BAC» и т. п. Здесь действует алфавитный принцип, а что ещё бывает в таких ситуациях в языке?
Пары цветов — отличный пример того же рода: какая разница, называть ли футболистов «Спартака» красно-белыми или бело-красными, футболистов ЦСКА — красно-синими или сине-красными, а футболистов «Динамо» — бело-голубыми или голубо-белыми? Но мы почему-то говорим красно-белые и красно-синие, а голубо-белый как-то даже и не скажешь.
Такие предпочтения удобно изучать с помощью лингвистических корпусов — больших собраний текстов, по которым можно посчитать, что встречается чаще, а что реже. Строгих правил мы не выведем (и так, и так можно!), но найдём какие-то закономерности. Одна из них и представлена в задаче: не то чтобы по-английски нельзя было сказать green and pink «зелёно-розовый», но pink and green употребительнее. В итоге прилагательные выстраиваются в шкалу: pink > red > black > blue > green > white. Если цвет X на этой шкале левее, чем цвет Y, то сочетание X and Y частотнее, чем Y and X. Ответы: pink and black, blue and white, red and green, pink and white, red and white.
Задача решена, но остаётся вопрос: откуда берётся эта закономерность? Это следствие того, что лингвисты называют четвёртым законом Бехагеля в честь немецкого лингвиста Отто Бехагеля (1854 — 1936) или законом Панини в честь древнеиндийского лингвиста Панини (около VI — IV вв. до н. э.): при прочих равных более короткие члены предложения ставятся раньше более длинных. К примеру, по-русски мы скажем Я подарил ей бусы, но Я подарил их Марине: в первом случае сперва «кому?», а затем «что?», а во втором сперва «что?», а затем «кому?». Дополнения в дательном и винительном падеже можно расположить в любом порядке, но естественнее звучит, когда сперва стоит короткое местоимение, а за ним уже длинное существительное. А теперь попробуйте произнести английские слова из условия задачи и послушайте, какие в них звучат гласные. В pink, red и black они краткие, в blue и green — долгие, а в white ещё длиннее, там и вовсе дифтонг (сочетание двух гласных звуков — [а] и краткого [и]): это как раз и соответствует нашей шкале.
А в итальянском языке в слове bianco «белый» в корне произносится краткий гласный [а], а в слове nero ‘чёрный’ — долгий гласный [э], и поэтому ‘чёрно-белый’ по-итальянски будет bianconero, а не nerobianco. В русском языке ударные гласные не различаются по долготе, но мы смотрим на количество слогов: односложные корни идут раньше двусложных. Мы скорее скажем красно-зелёный, а не зелёно-красный; бело-голубой, а не голубо-белый (слово голубой не ставят в начале ещё и потому, что у него ударение на окончании, и в голубо-белый пришлось бы сдвигать его на у, чтобы оно не попало на соединительный гласный).
Если вы внимательно решали задачу, то наверняка заметили, что в условии дано 9 комбинаций цветов, а в задании — 5, то есть пропущена одна комбинация из 15 возможных. Дело в том, что для слов black ‘чёрный’ и green ‘зелёный’ закономерность нарушается: black and green — 65 раз, green and black — 74 раза. Можно, конечно, сказать, что этот контрпример разрушает всё, и не пытаться предсказывать более распространённый порядок цветов с помощью шкалы, но всё же простая модель, описывающая абсолютное большинство случаев, — это хорошо, а с небольшим шумом можно и смириться: примерно как когда мы говорим, что Земля имеет форму шара, мы понимаем, что это не совсем правда, но предпочитаем не переусложнять.
В любом случае, статистика по текстам не может быть идеальной по разным причинам:
Вот сколько разных сложностей порой скрывается за небольшой лингвистической задачей!
Художник Мария Усеинова
Словарь: and — «и»; black — «чёрный»; blue — «синий, голубой»; green — «зелёный»; pink — «розовый»; red — «красный»; white — «белый».