Новости науки > Психология

Подростки лучше учатся на положительном опыте, чем на отрицательном

Дизайн эксперимента по оценке успешности обучения

Рис. 1. Дизайн эксперимента. A — варианты выбора, B — последовательность событий в ходе единичного акта обучения. Испытуемому показывали в случайном порядке четыре пары абстрактных символов, из которых нужно было выбрать один. Каждую пару показывали в общей сложности 20 раз, случайным образом меняя положение символов на экране. Каждая пара символов соответствовала одному из четырех обучающих «контекстов». В первом случае (Reward/Partial) один из символов приносил игроку 1 очко с вероятностью 75%, другой — с вероятностью 25%; после принятия решения испытуемый получал информацию о своем выигрыше, но не о том, что он получил бы, выбрав другой символ (B, верхний ряд изображений). Во втором случае (Reward/Complete) всё было так же, за исключением того, что испытуемого информировали еще и том, каков был бы результат в случае принятия альтернативного решения (B, нижний ряд). В третьем и четвертом контекстах вместо награды использовалось наказание: при «правильном» выборе испытуемый терял 1 очко с вероятностью 25%, при «неправильном» — с вероятностью 75%. Рисунок из обсуждаемой статьи в PLoS Computational Biology

Известно, что подростки более склонны к принятию рискованных решений, чем взрослые. Согласно одной из гипотез, это может быть связано с тем, что подростки используют иные (более простые) алгоритмы обработки информации о результатах своих поступков. Эксперимент, проведенный британскими и итальянскими психологами и нейроэкономистами, подтвердил эту гипотезу. Оказалось, что подростки не хуже взрослых учатся на положительном опыте, но сильно уступают им в способности учиться на отрицательном. Кроме того, взрослые эффективно используют доступную информацию о том, к какому результату привело бы альтернативное решение, а подростки учитывают только реальные результаты своих поступков. Возможно, эти различия связаны с тем, что отделы мозга, отвечающие за обучение на положительном опыте, созревают раньше отделов, обеспечивающих более сложные алгоритмы обучения.

С точки зрения нейробиологии, обучение на положительном и отрицательном опыте — процессы совершенно разные. В первом центральную роль играют «эмоциональные» подкорковые структуры (такие как прилежащее ядро), а второе не обходится без участия отделов коры, связанных с сознательным контролем (дорзальные и дорзолатеральные области префронтальной коры, островок, ростральная часть поясной коры).

С точки зрения алгоритмов, лежащих в основе обучения, картина аналогичная: на положительном опыте учиться проще. Простейший алгоритм обучения с подкреплением — так называемое Q-обучение (Q-learning) — оценивает результат принятых решений по единой шкале в зависимости от благоприятности результата. Этот алгоритм не требует понимания ситуации: для его использования не нужно создавать модель реальности и учитывать контекст, в котором принимается решение. Из-за своей простоты данный алгоритм обеспечивает обучение на положительном опыте эффективнее, чем на отрицательном. Он не может «понять», что в одной ситуации получить ноль очков — это так же хорошо, как в другой ситуации получить одно очко (так будет, например, если в первом случае альтернативой является потеря очка, а во втором — получение нуля очков). Результат оценивается по абсолютной шкале, на которой единица всегда лучше, чем ноль, и поэтому решения, приносящие очко, выучиваются надежнее, чем решения, позволяющие не потерять очко.

Чтобы эффективно учиться избегать неприятностей, нужны более изощренные калькуляции. Здесь уже желательно понимать контекст задачи и оценивать полученный результат не «вообще», а по отношению к тому, что произошло бы в данной конкретной ситуации в случае принятия альтернативного решения.

Группа британских и итальянских психологов и нейроэкономистов опубликовала в журнале PLoS Computational Biology результаты остроумного эксперимента, проливающего свет на механизмы обучения у подростков и взрослых людей. Гипотеза, которую проверяли авторы, состояла в том, что склонность подростков к рискованному поведению объясняется более поздним развитием тех отделов мозга, которые необходимы для сложных алгоритмов обучения, и поэтому подростки полагаются в основном на более примитивный, но зато рано формирующийся алгоритм, близкий к Q-обучению.

В эксперименте приняли участие 18 подростков (каковыми считались лица в возрасте 12–17 лет) и 20 взрослых (от 18 до 32 лет). Схема опыта представлена на рисунке 1. Каждому участнику показывали пары символов, из которых нужно было выбрать один. Символов было всего 8, а пар, соответственно, 4. В каждой паре один символ приносил удачу с вероятностью 75%, а другой — с вероятностью 25%. Каждая пара символов соответствовала одному из четырех «контекстов», различающихся характером подкрепления (награда или наказание) и доступностью дополнительной информации о том, к какому результату привел бы альтернативный выбор. Эффективность обучения оценивалась по частоте, с которой испытуемые выбирали «правильные» символы после обучающей сессии.

Результаты подтвердили ожидания исследователей. Взрослые участники продемонстрировали одинаковую эффективность обучения на положительном и отрицательном опыте. После обучения они уверенно предпочитали символ, приносящий одно очко, спаренному с ним символу, приносящему ноль очков, и столь же уверенно выбирали символ, приносящий ноль очков, если в паре с ним находился символ, отнимающий очко. У подростков результаты обучения оказались разными в этих двух ситуациях. В первом случае, когда выбор делался между 1 и 0, подростки научились делать правильный выбор не хуже взрослых, а во втором, когда выбирать нужно было между 0 и −1, эффективность обучения подростков оказалась заметно ниже.

Кроме того, взрослые извлекли пользу из дополнительной информации о результате альтернативного решения: в вариантах с дополнительной информацией обучение прошло успешнее. Подростки же не смогли использовать эти сведения: эффективность их обучения оказалась одинаковой в вариантах с полной и неполной информацией (рис. 2).

Рис. 2. Рост частоты «правильных» решений в ходе обучения

Рис. 2. Рост частоты «правильных» решений в ходе обучения. По горизонтальной оси — порядковый номер испытания (от 1 до 20, так как каждая пара символов демонстрировалась 20 раз). По вертикальной оси — доля правильных решений. Слева подростки (Adolescents), справа взрослые (Adults). Разными цветами обозначены четыре «контекста»; цветовые обозначения те же, что на рис. 1 (зеленый: положительное подкрепление, неполная информация; коричневый: отрицательное подкрепление, неполная информация; сине-зеленый: положительное подкрепление, полная информация; фиолетовый: отрицательное подкрепление, полная информация). Сплошные линии с затененными областями — экспериментальные данные ± стандартная ошибка; линии с доверительными интервалами — результаты моделирования. Для имитации обучения подростков использовалась самая простая модель 1 (см. рис. 3), для взрослых — более сложная модель 3. Рисунок из обсуждаемой статьи в PLoS Computational Biology

Авторы попытались интерпретировать полученные результаты в рамках представлений об алгоритмах обучения. Для этого они сделали три компьютерные модели (рис. 3). Первая модель соответствует простейшему Q-обучению. Вторая способна учитывать также дополнительные сведения о результатах альтернативного (не выбранного) решения для уточнения представлений о «ценности» этого решения. Третья модель, вдобавок к тому, что умеют две первые, использует данные о результатах обоих решений для того, чтобы поставить полученный выигрыш в адекватный контекст. Эта процедура позволяет алгоритму «понять», что получить ноль очков в ситуации, когда вам грозила потеря очка, это точно так же хорошо, как получить 1 очко в ситуации, когда альтернативой было получение нуля очков.

Рис. 3. Три модели обучения, с которыми сравнивались полученные результаты

Рис. 3. Три модели обучения, с которыми сравнивались полученные результаты. Модели состоят из трех модулей. Первый из них (Factual module) соответствует простейшему алгоритму обучения с подкреплением — Q-обучению. Он модифицирует величину Q(sc) — «ценность» или «удачность» выбранного решения c в ситуации s — в зависимости от полученного результата R(c). Второй модуль (Counterfactual module) использует данные о результате альтернативного (не выбранного) решения u для того, чтобы уточнить величину Q(su). Третий модуль (Contextual module) использует данные о результатах обоих решений, выбранного (c) и не выбранного (u), чтобы поставить полученный выигрыш в адекватный контекст, соотнеся его с тем, что в принципе можно было получить в данной ситуации s (V(s) — средняя ценность контекста, или усредненная ценность решений c и u). Использование третьего модуля ведет к замене абсолютной шкалы оценки выигрыша на относительную. Из этих трех модулей были составлены три модели. Первая модель включает только модуль 1, вторая — модули 1 и 2, третья — все три модуля. Рисунок из обсуждаемой статьи в PLoS Computational Biology

Эти три модели прошли точно такой же сеанс «обучения», как и живые участники эксперимента. Оказалось, что ход и конечный результат обучения подростков точнее всего описывается самой простой, первой моделью (Q-обучение). Что касается взрослых, то их обучение точнее всего воспроизводится самой сложной моделью №3.

Таким образом, полученные результаты согласуются с предположением о том, что подростки используют простейший алгоритм обучения с подкреплением, близкий к Q-обучению. Это объясняет, почему подростки хуже учатся на отрицательном подкреплении, чем на положительном. Взрослые используют более сложный алгоритм обучения, включающий дополнительные модули. Это позволяет, во-первых, использовать дополнительную информацию о ценности не выбранного решения, во-вторых, интерпретировать полученный выигрыш в адекватном контексте, оценивая его не «вообще», а по отношению к тому, что в принципе можно было получить в данной ситуации. Благодаря этому взрослые учатся на отрицательном опыте так же эффективно, как и на положительном.

Упрощенный алгоритм обучения, характерный для подростков, согласуется с данными о более позднем созревании отделов мозга, необходимых для реализации более сложных и эффективных алгоритмов. С другой стороны, использование детьми и подростками именно этого простого алгоритма, скорее всего, имеет важный адаптивный смысл. Очень точно прокомментировала обсуждаемую статью в моем блоге одна молодая мама, заметив, что если бы ее ребенок сразу переставал делать всё, на чем он набивает шишки, он бы даже ходить не научился.

Источник: Stefano Palminteri, Emma J. Kilford, Giorgio Coricelli, Sarah-Jayne Blakemore. The Computational Development of Reinforcement Learning during Adolescence // PLoS Computational Biology. V. 12. P. e1004953.

См. также:
1) Склонность к наркомании и азартным играм связана с неспособностью учиться на своих ошибках, «Элементы», 10.12.2007.
2) Дофаминовые нейроны нужны мухам, чтобы учиться на ошибках, «Элементы», 10.09.2012.
3) В «системе вознаграждения» найдены нейроны, возбуждающиеся от хороших предчувствий, «Элементы», 10.02.2012.
4) Мыши-мутанты не становятся наркоманами, «Элементы», 26.05.2008.

Александр Марков


25
Показать комментарии (25)
Свернуть комментарии (25)

  • napa3um  | 28.06.2016 | 22:20 Ответить
    Не обязательно различия связаны с развитием мозга, возможно, они связаны с развитием информационной картины мира (взрослые и дети ведут себя так как ведут в том числе потому, что от них обществом ожидается определённое поведение).
    Ответить
    • Promat > napa3um | 29.06.2016 | 10:52 Ответить
      На сегодняшний день ещё полным-полно обществ, где от детей ожидают вполне взрослого поведения - начиная от тяжкого ежедневного труда, и заканчивая физическими наказаниями за проступки. Хотите сказать, если провести подобный эксперимент в таких странах - никаких различий обнаружено не будет?
      Ответить
      • napa3um > Promat | 29.06.2016 | 11:28 Ответить
        "Ожидания социума" - это не формально выраженные мотивы отдельных его представителей, а вся динамика взаимоотношений в обществе, сознательных и бессознательных, наделяющих явными и неявными ролями своих участников. Даже если ребёнок работает на взрослой работе, он всё равно ребёнок - с маленьким туловищем, с ограниченным возрастом кругозором и т.д.

        Я говорю о том, что многие шаблоны поведения накладываются лишь поверх других, и это не всегда связано с развитием мозга, но с развитием моделируемой мозгом картины мира.
        Ответить
        • ArtieFinnigan > napa3um | 30.06.2016 | 10:14 Ответить
          Полностью поддерживаю замечание!
          Ответить
  • chastnik  | 28.06.2016 | 22:44 Ответить
    Обучение на отрицательном опыте в быту называется "делать выводы из ошибок". А неумение учиться на ошибках (своих или чужих) называется глупостью. Получается, что в статье представлены формализованные данные, показывающие процесс избавления от юношеской дури, да еще и предложены нейрофизиологические иллюстрации этого процесса. Красиво.
    Ответить
  • Роман Пехов  | 28.06.2016 | 22:45 Ответить
    > прокомментировала обсуждаемую статью в моем блоге одна молодая мама.

    Александр, а где Ваш блог?  На macroevolution.livejournal.com этой статьи нет.
    Ответить
    • Марков Александр > Роман Пехов | 28.06.2016 | 23:42 Ответить
      Статьи нет, а обсуждение есть :)
      http://macroevolution.livejournal.com/215013.html#comments
      Ответить
  • Олег Чечулин  | 29.06.2016 | 12:42 Ответить
    То есть, наказывать детей бесполезно? Метод кнута и пряника не работает?
    Ответить
    • Nycticorax > Олег Чечулин | 29.06.2016 | 13:23 Ответить
      Ну судя по статье - пряника работает, а вот кнута - не слишком.
      Ответить
      • Olexa > Nycticorax | 23.07.2016 | 09:27 Ответить
        Тем не менее, интересно, способствует ли постепенное накопление отрицательного опыта развитию способности учиться на нём?..
        Ответить
  • Влад  | 29.06.2016 | 14:55 Ответить
    Спасибо за статью, очень интересная.
    Для себя выделил один момент, не знаю, в какой степени он в оригинальной статье, а в какой - результат перевода.

    Не совсем удачно использование термина "хуже учиться". В машинном обучении в таких случаях говорят не о лучше-хуже, а о разных метапараметрах алгоритма обучения. И то что в подростковом возрасте параметр "учиться на ошибках" уменьшен (не до нуля) скорее всего не плохо а хорошо, и является результатом долгой и тонкой настройки. Рискну предположить, что эволюция специально замедляла развитие некоторых областей мозга, чтобы получить такой результат.

    Мне сразу пришло на ум как минимум два объяснения почему именно такая настройка метапараметров выгодна:
    1) При обучении в подростковом возрасте велик шанс ложноотрицательных результатов, когда алгоритм выучивается в принципе правильный, но столкновение с обучающей ситуацией произошло или слишком рано, когда физические возможности ещё не позволяют достичь устойчивого результата, или просто для обучения правильному поведению нужно сначала много раз попробовать. Если ребёнок не сумевший встать на ножки пять раз подряд сделает из этого "взрослые" выводы ходить он вообще никогда не научится. То же верно и для подростка и социального поведения.
    2) Вторая причина более хитрая. Взрослые при оценке возможных отрицательных результатов используют сложившуюся картину мира, которая, вообще говоря, меняется в их головах медленно. Но за время поколения картина мира могла измениться, и подростковый возраст отводится особи для того, чтобы поискать иные варианты картины мира, отличные от известной взрослым и такой, которую можно у них перенять без получения непосредственного отрицательного опыта.

    Пока писал родилась ещё и третья возможная причина, связанная с нейросетевыми автоэнкодерами. Вполне вероятно, что правильными являются все три и ещё штук пять.
    Ответить
    • glioma > Влад | 29.06.2016 | 18:58 Ответить
      Прям мои мысли описали, хотя я так умно сказать не смогу. Эволюционно те социумы, где подростки поступали так же как и взрослые, не повторяя их ошибок, проиграли тем обществам, где подростки пытались обходить запреты взрослых и получали, в результате выгоду. Кстати, в мультики "Семейка Крудс" показаны именно два таких подростка, в результате чего семья и выжила, хотя отрицательный опыт говорил, что гулять по ночам нельзя.
      Ответить
      • Olexa > glioma | 23.07.2016 | 09:02 Ответить
        "Семейка Крудз" — это _художественный_ мультфильм. Делать на его основании какие-то выводы в отношении _реальности_ — мягко говоря, непоследовательно. :)
        Ответить
    • Kyu > Влад | 04.07.2016 | 09:25 Ответить
      В научных занятиях шансы "ложноотрицательных" и отрицательных результатов также велики, даже необходимы. Но упрямые научные работники, независимо от возраста, продолжают ... (подставить нужное). Развитие каких областей в их мозгах замедлила эволюция? Ограничивание малым числом параметров в целях "упрощения" приводит лишь к курьёзам.
      Ответить
      • Влад > Kyu | 04.07.2016 | 13:15 Ответить
        Метеорология
        Ответить
    • pestilent > Влад | 10.07.2016 | 03:41 Ответить
      По этому поводу возникла мысль. Не может ли быть, что некоторые виды аутизма развиваются из-за аномально раннего включения «взрослых» алгоритмов?
      Ответить
  • SysAdam  | 29.06.2016 | 21:26 Ответить
    Судя по разбиению по возрасту в эксперименте, то те, кому 17 лет, демонстрировали примитивные модели обучения,а те, кому 18, сразу сложные?
    Где проверка на три группы: 12-15, 16-20,31-30?Если их гипотеза верна, то тогда для групп 1 и 3 еще более четко различие должно быть.

    А в целом,не вызывают у меня доверия все эти опыты.Если бы подростки не усваивали отрицательный опыт, то в ранешние времена родители ремнем бы не наказывали.
    взял денег без спроса - хорошо, неделю после этого сидеть не можешь - плохо. Какое решение примет подросток?
    Ответить
    • pestilent > SysAdam | 10.07.2016 | 03:38 Ответить
      Есть такая штука, как регрессия к среднему. Если что-то сделал лучше обычного, вероятность в следующий раз сделать еще лучше будет низкой. Если сделал что-то хуже обычного, вероятность в следующий раз сделать еще хуже опять же будет низкой. Если награждать ребенка, когда он делает хорошо, и наказывать, когда он делает плохо, возникает иллюзия, что от наград он становится хуже, а от наказаний лучше. Отсюда и вера в эффективность ремня.
      Хотя иногда ремень, наверное, реально нужен. Но в целом, если ребенок сделал А и получил пряник, он усвоит, что делать А — хорошо. А если ребенок сделал Б и получил кнутом, он усвоит, что получать кнутом — плохо :)
      Ответить
  • kover_mw  | 30.06.2016 | 02:38 Ответить
    Швохнев. Я не об вас буду говорить. Но вообще у стариков есть это: например, если они на чем-нибудь обожглись, они твердо уверены — другой непременно обожжется на том же. Если они пошли какой-нибудь дорогою да, зазевавшись, шлепнулись о гололедь, — они уж кричат и выдают правило, что по такой-то дороге никому нельзя ходить, потому что на ней есть в одном месте гололедь и всякий непременно на ней шлепнется лбом, никак не принимая в уваженье того, что другой, может быть, не зазевается и сапоги у него не на скользкой подошве. Нет, у них для этого нет соображенья. Собака укусила человека на улице — все кусаются собаки, и потому никому нельзя выходить на улицу.


    Глов. Так, батюшка. Оно, точно, с одной стороны, есть тот грех. Да ведь зато ж и молодые! Ведь уж слишком много рыси: того и смотри, что сломит шею!


    Николай Гоголь. «Игроки» явление X
    Ответить
  • yngr  | 30.06.2016 | 11:46 Ответить
    Здравствуйте. А у меня такая гипотеза. Природа специально сделала так, чтобы подростки рисковали, чтобы наименее приспособленные отсеивались ещё до того, как успеют дать потомство. Все подростки рискуют. Но те, кто при этом ещё и доживают до взрослого состояния, и есть лучшие. Они-то и дают потомство. Улучшается генофонд.

    Правда, здесь возможен эволюционный паразитизм - доживают до взрослого состояния не только лучшие, но и те, кто просто проявляет осторожность. Хотя, это может компенсироваться половым отбором: подростки, которые рискуют, более привлекательны для противоположного пола, чем эти "хитрые" осторожные подростки, которые в результате, хоть и доживают до взрослого состояния, но потомства не оставляют.
    Ответить
    • Malcolm > yngr | 01.07.2016 | 10:08 Ответить
      как бы осторожные и хитрые могут иметь больший мозг
      Ответить
      • Stels_Rus > Malcolm | 02.07.2016 | 20:19 Ответить
        А что может значить больший мозг? Ресурсов он потребляет больше, а эффективность определяется не размером и не массой, а нейронными связями.
        Ответить
        • Kyu > Stels_Rus | 04.07.2016 | 09:31 Ответить
          Эффективность определяется в зависимости от приложения, а не ТТХ.
          Ответить
  • Даша  | 07.07.2016 | 19:23
    Комментарий скрыт
    • Olexa > Даша | 23.07.2016 | 09:23 Ответить
      Даша, когда биологи говорят "кто-то использует что-то", они вовсе не имеют в виду, что этот кто-то обязательно использует это что-то _сознательно_. Биологи точно также могут сказать "деревья используют то-то". Более формально они могли бы сказать "в подростках работает такой-то механизм, а во взрослых работает такой же механизм, и ещё вот такой", но это было бы слишком сухо-научно для данного научно-популярного ресурса.

      Обратите внимание, что в статье во втором абзаце прямо написано, что обучение на положительном опыте использует структуры мозга, работающие на эмоциональном (а не сознательном) уровне, а обучение на отрицательном опыте задействует уже и структуры, связанные с сознательным контролем. То есть, в статье почти прямо написано то, что Вы сказали — подростки учатся скорее интуитивно, чем сознательно (и именно так принимают решения).
      Ответить
  • Anonymous  | 26.07.2016 | 21:30 Ответить
    С т.з. эволюции/теории игр рискуя жизнью особь ставит на кон свои шансы дожить до репродуктивного возраста и вырастить потомство - чем взрослее особь тем больше шансы, которые она может потерять (при том же потенциальном выигрыше) - а значит тем реже выгоден риск.
    Ответить
Написать комментарий
Элементы

© 2005–2025 «Элементы»