Лингвистическая эволюция сходна с биологической

18.10.2007 • Александр Бердичевский, Александр Марков • Лингвистика, Биология, Эволюция • 15 комментариев

Эволюционное древо индоевропейских языков из популярного синопсиса, которым сопровождаются две обсуждаемые статьи в журнале Nature. Этот рисунок особенно интересен забавной опечаткой (редкий случай для столь уважаемого журнала!) — на одной из ветвей вместо «Slavic» (славянский) написано по ошибке «Islamic» (исламский)

Применив к анализу индоевропейских языков методики, разработанные для изучения эволюции видов, биологи подтвердили хорошо известную лингвистам закономерность, что слова в языке изменяются тем быстрее, чем реже они используются. Аналогичная закономерность справедлива и для биологической эволюции: наименее важные для организма морфологические признаки и участки генома обычно подвержены самым быстрым эволюционным изменениям.

Впервые на параллели между эволюцией биологических видов и человеческих языков указал Чарльз Дарвин в книге «Происхождение человека». Сегодня это мнение подтверждается строгими статистическими методами.

В журнале Nature сразу две статьи посвящены изучению темпов лингвистической эволюции в зависимости от частоты словоупотребления. Ведущие авторы обеих статей — биологи.

В первой статье, написанной американскими эволюционистами-теоретиками и математиками, показано, что скорость «превращения» английских неправильных глаголов в правильные зависит от частоты использования конкретного глагола. В древнеанглийском языке, бывшем в употреблении около 800 г. н. э. (язык «Беовульфа»), существовало несколько классов глаголов, различающихся по способу образования прошедшего времени. В течение последующих 1200 лет шел процесс «регуляризации»: все эти классы постепенно «пожирались» самым распространенным, в котором прошедшее время и причастие прошедшего времени образуется путем прибавления к глаголу суффикса -(e)d.

В современном английском все прочие классы сохранились лишь в виде рудиментов — так называемых «неправильных» глаголов. Класс правильных глаголов является единственным продуктивным, то есть все новые глаголы, появляющиеся в английском языке, автоматические попадают в него и спрягаются по аналогии с другими правильными глаголами (так, «молодой» глагол to google со значением «пользоваться поисковиком Google» имеет форму прошедшего времени и причастия googled).

Авторы изучили историческую судьбу 177 глаголов, которые имелись в древнеанглийском (и все были неправильными) и сохранились поныне. В среднеанглийском (язык «Кентерберийских рассказов» Чосера, бывший в употреблении около 1200 года) из этих глаголов остались неправильными 145, а в современном — 98. Некоторые из них могут спрягаться и как правильные глаголы, и как неправильные, но «регуляризовавшиеся» 79 — только как правильные.

Авторы разделили глаголы на 6 классов по частоте их встречаемости в современных английских текстах. С этой целью был проанализирован большой корпус текстов CELEX, включающий в общей сложности 17,9 млн английских слов. В первый класс попали два наиболее часто используемых глагола (be «быть», have «иметь»); оба по сей день остаются неправильными. Во втором классе оказалось 11 глаголов, и все они сегодня тоже неправильные. Из 37 глаголов третьего класса все оставались неправильными в среднеанглийском, но 4 стали правильными в современном английском (help «помогать», reach «достигать», walk «ходить», work «работать»). В четвертом классе из 65 глаголов были неправильными в среднеанглийском 57, в современном — 37. Соответствующие цифры для пятого класса — 50, 29, 14; для шестого — 12, 9, 1.

Анализируя эти данные, авторы пришли к заключению, что для глаголов 3-6 классов довольно точно выполняется следующее соотношение: «период полураспада» для данного частотного класса глаголов прямо пропорционален квадратному корню из частоты встречаемости. Например, если один глагол используется в 100 раз чаще другого, то можно ожидать, что он будет оставаться неправильным в 10 раз дольше. Для глаголов 1-2 класса провести подсчет не удается, поскольку ни один из них еще не стал правильным (период полураспада слишком велик).

Экстраполируя свои результаты в будущее, авторы предсказывают, что, если выявленные тенденции сохранятся, к 2500 году еще 15 глаголов из исследованной выборки станут правильными, причем первым скорее всего «регуляризуется» самый редкий из них (to wed «сочетаться браком»). Строго говоря, он уже отчасти регуляризован: словари разрешают спрягать его также и как правильный глагол (наряду с «неправильной» формой прошедшего времени wed в словарях приводится «правильная» wedded).

Микроисследование этапов регуляризации английских неправильных глаголов

Проверим данные авторов собственным, очень маленьким, исследованием. Глагол не может изменить спряжение мгновенно, это постепенный процесс. Люди начинают делать ошибки (в данном случае — спрягать неправильный глагол как правильный), ошибок становится всё больше, и в какой-то момент они перестают считаться ошибками и становятся нормой, при этом старая норма уходит. С одной стороны, мы находимся в фиксированной точке этого процесса и весь его обозреть не можем, с другой, для глаголов из разных классов частотности он находится на разных стадиях: для 6-го класса этот процесс уже зашел далеко, для второго — только начинается.

«Моментальным снимком» состояния языка нам послужит интернет. Он ценен именно тем, что тексты в нём никем не отобраны (в отличие от многих языковых корпусов) и есть много ошибочных употреблений слов. Выберем по одному глаголу из классов 2-6 и проверим, насколько часто встречается глагол и насколько часто он спрягается неверно (как «правильный»). Если гипотеза авторов верна, то чем популярней глагол, тем меньше будет отношение количества ошибочных употреблений к общему числу употреблений.

В качестве поисковой машины воспользуемся Google. Для определения общего количества употреблений (N) глагола зададим на поиск форму настоящего времени с личным местоимением (I give, you give, he gives) — это ограничение нужно, чтобы отсечь омонимичные формы прилагательных и существительных, которые для некоторых глаголов могут сильно исказить картину. Для определении количества ошибочных употреблений прошедшего времени (P) просто задаем «правильную» форму (gived, в данном случае ошибочную); никаких ограничений не ставится. Данные, возвращаемые поисковиком, «принимаются на веру» и никак не корректируются (предполагаем, что уровень шума во всех случаях будет одинаков и не повредит результатам).

Из классов частотности 2-6 выбраны по одному глаголу. Для них с помощью Google посчитано общее число употреблений, число ошибочных употреблений и относительная частота ошибок (P/N)

Результаты представлены в таблице и на графике. Как можно видеть, наше микроисследование подтверждает общие выводы авторов: классы частотности совпадают (хотя между пятым и шестым классами разницы почти нет), относительная частота ошибок (отношение P/N) возрастает. Как видно, у глагола slink количество регулярных форм прошедшего времени (slinked) резко возрастает, то есть процесс регуляризации зашел очень далеко (собственно, словари уже разрешают говорить slinked наряду со slunk).

Для удобства представления по осям отложены логарифмы соответствующих величин. График подтверждает выводы: чем реже встречается глагол, тем больше относительная частота ошибок в употреблении прошедшего времени

* * *

Авторы второго исследования, биологи из Университета Рединга (Великобритания) и Института Санта-Фе (Нью-Мексико, США) ставят перед собой гораздо более глобальные задачи, поэтому их исследование, с одной стороны, интересней, с другой, вызывает больше критических замечаний.

Авторы стремятся выяснить общие закономерности эволюции языков, ее скорость, а также древность расхождения (и, следовательно, степень родства) различных языков.

Метод, который используют авторы, фактически является разновидностью глоттохронологии (лексикостатистики), созданной американским лингвистом Моррисом Сводешем в середине XX века.

Сводеш выделил базовый словарь: список из 100 (впоследствии из 200) универсальных понятий, которые важны для всех культур и потому предположительно встречаются во всех языках мира. Лексика (словарный состав) языка всё время меняется, одни слова заменяются другими, но слова, обозначающие понятия из списка Сводеша, обладают особенной устойчивостью. Тем не менее постепенно заменяются они. Сравнивая списки Сводеша для родственных языков и подсчитывая, какое количество понятий обозначается разными словами, можно определить степень родства языков (чем больше совпадений, тем ближе языки). Так, очевидно, что для русского и польского совпадений будет гораздо больше, чем для русского и английского, но меньше, чем для русского и украинского. Если же определить еще и скорость замены слов из базового списка, то можно с высокой точностью датировать расхождение языков.

На практике глоттохронология сталкивается с рядом серьезных технических и методологических проблем. Например, не всегда очевидно, являются ли два слова родственных языков потомками одного слова, то есть считать ли, что понятие обозначается одинаково или нет. Искажают картину, в частности, слова, заимствованные одним языком у другого, вовсе необязательно родственного (получается, что понятие обозначается одним и тем же словом, но причина на самом деле лежит не в родстве языков, а в их тесном контакте). Не всегда понятно, что делать, если понятие может обозначаться несколькими синонимами. Тем не менее глоттохронология активно применяется в современной лингвистике. Значительно развил и дополнил идеи Сводеша российский лингвист Сергей Анатольевич Старостин, основавший, в частности, на базе Института Санта-Фе проект «Вавилонская башня», посвященный фундаментальным исследованиям родства языков. Старостин и его последователи проанализировали множество мировых языков и во многих случаях пришли к интересным выводам, некоторые из которых, правда, вызывают у части лингвистов серьезные сомнения.

Авторы проанализировали обозначения понятий из 200-словного списка Сводеша для 87 индоевропейских языков. Список понятий (значений) охватывает разные части речи («всё», «и», «животное», «плохо», «потому что», «лежать», «он», «черный», «резать», «огонь», «два» и т. д.; полный список см. в дополнительных материалах к статье, PDF, 1,2 Мб). Данные по языкам исследователи брали из описанной в работе I. Dyen, J. B. Kruskal, P. Black (1992). An Indo-European classification, a lexicostatistical experiment лексической базы, на нее же, видимо, опирались во всех сложных с точки зрения этимологии (происхождения слов) случаях.

Слова из разных языков, обозначающие одно и то же понятие и являющиеся потомками одного и того же слова, объединялись в «родственные группы». Например, слово, выражающее значение «два» во всех индоевропейских языках относится к одной и той же родственной группе (англ. two, нем. zwei, исп. dos, фр. deux, русск. два и т. д.), тогда как, например, значение «хвост» представлено в исследованных 87 языках 28 группами (греч. ουρά, нем. Schwanz, фр. queue, англ. tail — примеры слов, относящихся к разным группам). Общее число родственных групп для 200 значений в 87 языках оказалось равным 4049.

Для каждого из 200 понятий была определена частота встречаемости. С этой целью авторы проанализировали большой массив данных по устной и письменной речи для четырех языков: английского, испанского, русского и греческого (от 20 до 100 млн слов для каждого языка). Эти языки представляют далекие друг от друга ветви индоевропейской семьи. Выяснилось, что частота употребления различных понятий в четырех языках весьма сходна, иначе говоря, понятия, часто употребляемые в одном из языков, скорее всего и в других языках употребляются часто, и наоборот.

Следующим шагом было построение эволюционного древа 87 индоевропейских языков. Основой для построения древа послужила таблица из 87*4049 нулей и единиц, отражающая наличие или отсутствие каждой из 4049 словесных групп в каждом из 87 языков. При этом были использованы сложные математические методики построения эволюционных деревьев, разработанные биологами-эволюционистами.

Эволюционное древо индоевропейских языков. Разными цветами обозначены основные подразделения (группы) индоевропейской языковой семьи, стрелками — 4 языка, использованные для подсчета частоты словоупотребления. Цифры отражают надежность (статистическую достоверность) различных фрагментов древа. Рис. из дополнительных материалов к статье Pagel et al.

Для «калибровки» древа (определения абсолютной длины ветвей в годах) была использована усредненная оценка времени начала дивергенции (расхождения) индоевропейских языков — 8700 лет назад (имеющиеся оценки варьируют от 6 до 10 тысяч лет, изменение даты расхождения повлияет на абсолютные длины ветвей древа, но не на их соотношение). На основе построенного древа были вычислены средние скорости замены слов (родственных групп) для каждого из двухсот понятий. Эту скорость можно выразить как «период полураспада» (half-life), то есть как время, в течение которого данное понятие с вероятностью 50% станет обозначаться другим словом (точнее, словом, относящимся к другой родственной группе). Оказалось, что для 200 исследованных понятий это время варьирует от 750 до 10 000 лет.

Легко заметить, что получившееся древо отличается от общепринятого (см. в начале статьи). Любопытно, что в новом древе украинский и белорусский ближе к польскому, чем к русскому (русский ответвляется от польско-украино-белорусской группы, которая затем разделяется на три языка), в то время как по традиционным представлениям сначала расходятся западнославянская (включающая польский) и восточнославянская (русский, белорусский, украинский) группы. Причин несовпадений может быть много, результаты построения деревьев во многом зависят от того, как исследователи решают возникающие проблемы (см. выше некоторые примеры). Авторы статьи не описывают подробно лингвистическую часть своей методики, поэтому мы затрудняемся точнее проанализировать причины различия деревьев.

Зависимость скорости изменения слов (вертикальная ось) от частоты их употребления (горизонтальная ось) в четырех языках (a — английский, b — испанский, c — русский, d — греческий). Серый цвет — союзы, голубой — предлоги, красный — прилагательные, синий — глаголы, зеленый — существительные, желтый — так называемые «специальные наречия» (special adverbs): «что», «где», «когда», «как», «здесь», «там», «не»; оранжевый — местоимения, фиолетовый — числительные, черный — все слова вместе. Рис. из статьи Pagel et al.

Затем авторы построили графики зависимости скорости словоизменения от частоты словоупотребления в английском, русском, испанском и греческом языках (см. рис). Оказалось, что для каждой части речи в отдельности и для всех понятий в целом между этими двумя показателями наблюдается хорошо выраженная обратная зависимость. Чем чаще употребляется слово, тем медленнее оно изменяется.

По мнению авторов, эта зависимость может объясняться двумя причинами:
1) Люди реже ошибаются при произнесении, запоминании и восприятии на слух часто употребляемых слов. Это предположение подтверждается эмпирическими данными.
2) Люди (популяция носителей языка) реже соглашаются принять новшество, если речь идет о часто употребляемом слове.

Вполне возможно, что работают одновременно оба механизма. Легко заметить, что они полностью аналогичны ключевым факторам биологической эволюции, а именно скорости мутирования и эффективности стабилизирующего («очищающего») отбора. Авторы предполагают, что «мутации» в наиболее важных словах чаще отсекаются «отбором», потому что такие мутации ведут к наибольшему риску взаимного непонимания. Возможно, именно поэтому из всех частей речи медленнее всего изменяются как раз те, «мутации» в которых почти всегда ведут к полной потере или искажению смысла фразы (числительные, местоимения и «специальные наречия»).

Обнаруженная закономерность, скорее всего, справедлива и для других языковых семей. Теми же авторами в 2006 году было показано, что понятия, характеризующиеся высокой частотой словоизменения в индоевропейских языках, обладают тем же свойством и в языках банту.

Авторы отмечают, что найденная закономерность позволяет сделать любопытные прогнозы. Во-первых, можно ожидать, что при расхождении двух языков, имеющих общего «предка», различия будут накапливаться сначала в менее важных словах, и поэтому два языка будут оставаться взаимно понятными намного дольше, чем следовало бы ожидать, исходя из предположения о случайном распределении возникающих изменений по всему лексикону. Во-вторых, исследование показало, что часто употребляемые слова могут сохраняться в узнаваемом виде 10 000 лет и более; это значит, что в культурной эволюции возможны «репликаторы» (мемы), почти сопоставимые по надежности своей репликации (передачи, воспроизведения) с некоторыми генами.

Хотелось бы обратить внимание читателей на примечательную таблицу, приведенную в «дополнительных материалах» (PDF, 1,2 Мб) к статье, где перечислены аналогии между лингвистической и биологической эволюцией (ниже дан ее сокращенный перевод):

Биологическая эволюция	Эволюция языков
Дискретные единицы наследственности (генетический код, морфология, поведение)	Дискретные единицы наследственности (лексикон (словарный запас), синтаксис, фонология)
Гомология	Группы родственных слов
Мутации (например, замены нуклеотидов)	Инновации (например, изменения звуков в слове)
Дрейф	Дрейф языков
Естественный отбор	Социальный отбор
Кладогенез (эволюция путем расхождения линий) — аллопатрическое видообразование (географическое разделение) и симпатрическое видообразование (экологическое/репродуктивное разделение)	Расхождение языков за счет географического и социального разделения
Анагенез (эволюционные изменения без разделения линий)	Изменение без расхождения
Горизонтальный обмен генами (например, при гибридизации)	Заимствование
Гибриды	Креольские языки (например, суринамский, он же сранантонга, он же таки-таки)
Ископаемые	Древние тексты
Вымирание видов	Вымирание языков

В целом сами идеи авторов не обладают принципиальной новизной. Однако несомненно ново применение в глоттохронологии конкретных статистических методов, опробированных на биологическом материале. Жаль только, что авторы не делают попытку сравнить свои результаты с тем, что уже наработано лингвистами.

Сравнение лингвистической эволюции с биологической также встречалось ранее во многих работах (назовем A. Wedel. Exemplar models, evolution and language change // The Linguistic Review. 2006. V. 23. P. 247–274) и, несомненно, имеет право на существование, однако проводить аналогию между словами и живыми особями, языками и биологическими видами следует с известной осторожностью. Механизмы возникновения, развития и исчезновения биологических и лингвистических объектов всё же достаточно разные. Тем не менее есть основания полагать (и рассмотренные работы это подтверждают), что некоторые общие механизмы обоих типов эволюции могут описываться одними и теми же методами, что, разумеется, чрезвычайно интересно и с практической, и с теоретической точки зрения.

Источники:
1) Erez Lieberman, Jean-Baptiste Michel, Joe Jackson, Tina Tang, Martin A. Nowak. Quantifying the evolutionary dynamics of language // Nature. 2007. V. 449. P. 723–716.
2) Mark Pagel, Quentin D. Atkinson, Andrew Meade. Frequency of word-use predicts rates of lexical evolution throughout Indo-European history // Nature. 2007. V. 449. P. 717–720.

Александр Марков, Александр Бердичевский

Показать комментарии (15)

Свернуть комментарии (15)

AAKozlov 19.10.2007 15:50 Ответить

Я вот не понимаю, почему сравнивают слова и не сравнивают правила?
Ведь слова могут как угодно мигрировать, а вот правила - более консервативны.
Например, сколько тысяч лет потребовалось, чтобы закрепить за прошедшим временем одинаковое окончание "ed" ? А вот в русском, судя по всему, этот процесс давно уже завершился и даже охватил и будущее и настоящие времена и ещё создал кучу всяких правил с окончаниями, предлогами и пр.
И ,судя по правилам, между русским и английским вообще нет ничего общего и они ,даже, не дальние родственники и русский ,по крайней мере, тысячь на сто лет старше...

Ответить
- britvin AAKozlov 19.10.2007 23:54 Ответить
  
  "Я вот не понимаю, почему сравнивают слова и не сравнивают правила?"
  
  Наверное, потому, что слова - как и участки генома - конкретны, а правила абстрактны. Так что, корректным такое сравнение вряд ли будет. Это, как говорится, "один трамвай - в парк, а другой - зелёный". Наверное, так...
  
  Ответить
  - PavelS britvin 20.10.2007 04:15 Ответить
    
    Ну, сказать что правила менее конкретны чем слова - это ИМХО не правда. Правда в том, что правил слишком мало, чтобы их статистически обрабатывать.
    
    Ответить
    - britvin PavelS 20.10.2007 12:50 Ответить
      
      Я имел в виду, что, проводя аналогию между лингвистической и биологической эволюциями, корректно было бы сравнивать в этих процессах сходные по функциям и масштабу элементы...Ну, а правила, согласен с Вами, это вещь "чисто конкретная":)...
      
      Ответить
- astro AAKozlov 20.10.2007 17:47 Ответить
  
  Замечание очень кстати. Надо бы наконец взять и воспользоватся уже имеющимся аппаратом Объектно-ориентированного программирования. Там все классы обьектов имеют кроме своиств, также и методы их применения. В большинстве современных язиков программирования имеет место наследование дочерным классом как свойства, так и функции (методы)материнского. Если данная работа не берет в расчете возможности наследования методов, она приведет к ошибочным выводам. Оно и видно, например болгарский и русский язики имеют порядка 80% общих слов, а украинский и русский всего 60%. Однако правила (методы) употребления этих слов в украинском и русском почти одинаковы, поэтому они легко понимают друг друга. Наоборот, болгарский язык не имеет падежей, имеет артикль на подобие английского the, который однако ставится в конце слова и имеет огромное количество времен, даже в некоторой мере превосходящее английского. Таким образом, как определить когда разошлись украинский, русский и болгарский - по количеству одинаковых слов или по строению языка.
  
  Ответить
- Анархист AAKozlov 25.03.2015 02:14 Ответить
  
  Почти такое же окончание, как "ed" в английском, есть и в прочих германских. В Русском языке окончание прошедшего времени "л" раньше было окончанием причастий, типа "загорел есть" - сложное прошедшее со вспомогательным глаголом; от этого причастия происходит прилагательное загорелый. Славянские личные окончания настоящего времени не очень отличаются от тех же латинских: video-вижу, vides-видишь, videt-видит, videmus-видим, videtis-видите, vident-видят. Английский происходит от прагерманского, где спряжение тоже было похожим: *berō «несу», *beriz «несёшь», *beriþ «несёт», *beromiz «несём», *beriþ «несёте», *beranþ «несут». Касательно падежей - в латыни склонение было развито не хуже русского, в романских же, почти во всех - падежей нету. Из славянских, в болгарском и македонском языках - также нету падежей. Ну есть общий падеж :*wulfamiz - волкам.
  
  Ответить
mhorn 20.10.2007 12:19 Ответить

Если авторы статей правы, то остаётся сделать ещё один шаг и признать, что эволюция языка непредсказуема. То есть что-то там про слова сами по себе ещё можно что-то предположить, а вот про сам язык - уже нет

Ответить
- britvin mhorn 20.10.2007 13:03 Ответить
  
  Само собой, непредсказуема - тут и статья не нужна...
  Такие раскидистые деревья рисуются только с натуры - задним, то бишь, числом (да и то не без осечек:)).
  
  Ответить
PavelS 20.10.2007 16:59 Ответить

Сугубо ИМХО для языков деревья вообще не очень уместны, т.к. языки не делятся на виды. У животных есть видовая обособленность, т.е. кита с селёдкой не скрестить, а в языках даже Pascal можно перевести на русский - чего уж говорить про то, что естественные языки смешиваются.

Ответить
Pollinator 20.10.2007 17:10 Ответить

У меня тут мысль возникла (не претендующая на оригинальность), что в лингвистической эволюции гораздо большее значение должны иметь заимствования. Ведь если виды давно разошлись, то никакого генного потока между ними уже никогда не будет (если только "горизонтальный перенос"), а если вовсе не родственные языки волею судеб оказались вместе - то заимствования между ними вполне возможны (на мой любительский взгляд).
Может, именно в силу долгого близкого сосуществования польский выделился на дендрограмме в один кластер с украинским и белорусским?

Ответить
- zemleroi Pollinator 27.10.2007 19:45 Ответить
  
  Помимо заимствований есть ещё грамматические явления с определённым ареалом. Существует такое понятие в лингвистике - языковой союз. Это языки, распространённые на смежных территориях, не родственные между собой, но структурно схожие (например, греческий, албанский и болгарский - балканский союз).
  
  Ответить
поручик Киже 26.10.2007 13:34 Ответить

Точнее, эволюция языков очень похожа на микроэволюцию, в частности, на образование географических рас, и совершенно не похожа на макроэволюцию, именно по причине отсутствия в систематике языков аналога биологического вида и феномена пола. Однако бесполые организмы вроде коловраток, скорее всего, эволюционируют подобно языкам.

Ответить
- wormball поручик Киже 17.09.2011 13:40 Ответить
  
  Об макроэволюции мы вообще очень мало знаем, так что я бы так не стал судить. Лично по моему мнению макроэволюцией в отношении языка можно считать эволюцию человеческой культуры (в широком смысле).
  
  Ответить
- Rattus поручик Киже 22.02.2015 17:02 Ответить
  
  Или на эволюцию одноклеточных. Короче везде где нет строгой репродуктивной изоляции (и как следствие - видов в канонiческом понимании).
  
  Ответить
поручик Киже 26.10.2007 13:48 Ответить

Очевидно, что имеется в виду нейтральная эволюция вроде синонимических замен нуклеотидов или адаптивно нейтральных признаков, т.е. фактически генетический дрейф, а не направленная эволюция. "Важный" в этом контексте означает не нейтральный, а подверженный действию отбора (преимущественно консервативного фактора).

Ответить