Большой адронный коллайдер > Новости LHC

Попробуйте силы в онлайн-соревновании по поиску бозона Хиггса

01.06.2014 • Игорь Иванов • Хиггсовский бозон, Методы обработки данных, ЦЕРН • 17 комментариев

Даже если вы не знакомы с физикой элементарных частиц, но любите программировать и умеете разрабатывать алгоритмы интеллектуальной обработки больших массивов данных — у вас есть реальный шанс помочь ЦЕРНу в изучении бозона Хиггса! Несколько дней назад под эгидой ЦЕРНа и нескольких других организаций стартовало открытое онлайн-соревнование Higgs Boson Machine Learning Challenge. Его задача — придумать наиболее прозорливый алгоритм, позволяющий компьютеру отличить событие рождения и распада бозона Хиггса от фоновых (то есть нехиггсовских) событий, которые в изобилии регистрируются на Большом адронном коллайдере.

Для этого участнику сначала выдается порция «тренировочных» событий — массив из 250 тысяч векторов, содержащих по 30 кинематических параметров каждый. Про каждое событие известно, является ли оно «хиггсовским» или нет. Участник должен придумать и реализовать такой алгоритм, который обнаружил бы в массиве кинематических параметров закономерности и на их основании стал бы надежно классифицировать события как «хиггсовские» или «фоновые».

После того как алгоритм натренируется на тестовых данных, пользователю выдается массив из 550 тысяч контрольных событий. Его задача — «натравить» разработанный им алгоритм на эти данные и обнаружить в них хиггсовский бозон с как можно большей статистической значимостью. Менять свой алгоритм, пытаясь подогнать его под данные, на этом этапе уже нельзя — такова философия слепого анализа данных, общепринятая сейчас в физике элементарных частиц. Чем больше статистическая значимость обнаружения хиггсовского бозона в этих данных — тем выше положение участника в итоговой таблице. Некоторые впечатления об этом соревновании см. в блоге Томмасо Дориго.

В настоящее время в соревновании принимают участие уже свыше 400 команд, но к нему в любой момент может присоединиться каждый желающий. Участник не слишком ограничен в количестве попыток (не более пяти в день), поэтому есть широкий простор для поиска и настройки новых алгоритмов. Времени еще предостаточно — соревнование продлится до 15 сентября. Тройка победителей получит денежные призы вплоть до 7 тысяч долларов. Ну а если алгоритм будет признан по-настоящему удачным, физики возьмут его на вооружение при обработке новой порции экспериментальных данных, которая будет набрана в следующем году.

Показать комментарии (17)

Свернуть комментарии (17)

samara 01.06.2014 09:29 Ответить

а нейронные сети такие закономерности не видят?

Ответить
- Игорь Иванов samara 02.06.2014 11:55 Ответить
  
  Нейронные сети надо как-то строить и тренировать. Сами по себе они не поймуть, что искать.
  
  Ответить
kbob 01.06.2014 17:33 Ответить

Для тех кто хочет поучаствовать, есть форум для новичков.
https://www.kaggle.com/c/higgs-boson/forums

Простые алгоритмы на различных языках для начинающих участников (в качестве примеров).
http://higgsml.lal.in2p3.fr/software/

Документация по формату входных данных
http://higgsml.lal.in2p3.fr/files/2014/04/documentation_v1.5.pdf

Ответить
kbob 02.06.2014 07:29 Ответить

Почему в выборке даны только распады?
H -> (tau -> mu/e) + (tau -> hadrons)
http://www.hep.man.ac.uk/theses/MarkOwen.pdf (Chapter 7)

Распады
H -> (tau -> hadrons) + (tau -> hadrons)
H -> (tau -> mu/e) + (tau -> mu/e)
запрещены или их труднее зафиксировать?

Ответить
- Игорь Иванов kbob 02.06.2014 11:55 Ответить
  
  Видимо, только из соображений простоты задачи. В принципе, поиск ведется по всем каналам распадам двух тау. Таких каналов 6: ee, mumu, emu, eh, muh, hh (e - электрон + 2 нейтрино, mu — мюон + 2 нейтрино, h — адроны + нейтрино). Данные у обеих коллабораций есть по всем каналам:
  ATLAS https://atlas.web.cern.ch/Atlas/GROUPS/PHYSICS/CONFNOTES/ATLAS-CONF-2013-108/
  CMS http://arxiv.org/abs/1401.5041
  Пишут, однако, что лептон+адроны более чувствителен, чем два лептона или только адроны. Видимо, поэтому для этой задачи взяли только их.
  
  Ответить
- yuriT kbob 03.06.2014 19:20 Ответить
  
  Насколько я понял из технической документации, массивы данных, предложенные в этом соревновании - это вовсе не реальные данные, полученные на LHC, а СИМУЛИРОВАННЫЕ данные, полученные в компьютерных экспериментах. Видимо, там попросту симулировались только такие типы распадов.
  
  Ответить
  - Игорь Иванов yuriT 03.06.2014 23:14 Ответить
    
    Так симулирогвать они что угодно могут, вопрос в том, почему именно такие распады были выбраны.
    
    Ответить
    - yuriT Игорь Иванов 04.06.2014 16:20 Ответить
      
      В documentation_v1.5.pdf они вроде бы и поясняют, почему. Но поскольку физическую часть я представляю весьма поверхностно, то в сами аргументы не вникал.
      
      Ответить
  - kbob yuriT 04.06.2014 14:21 Ответить
    
    Откуда вы такое поняли, процитируйте если не сложно.
    
    Ответить
    - yuriT kbob 04.06.2014 16:18 Ответить
      
      documentation_v1.5.pdf, п.3.3:
      "For the Challenge, we provide simulated events using the official ATLAS full detector simulator. The simulator has two parts. In the first, random proton-proton collisions are simulated based on all the knowledge that we have accumulated on particle physics. It reproduces the random microscopic explosions resulting from the proton-proton collisions. In the second part, the resulting particles are tracked through a virtual model of the detector
      .....
      The weights are an artifact of the way the simulation works and so they are not part of the input to the classifier. They will be provided in the training set so the AMS (7) can be properly evaluated. We do not provide it in the qualifying set since the weight distribution of the signal and background sets are very different and so they would give away the label immediately."
      
      Ответить
yuriT 03.06.2014 18:48 Ответить

Создается впечатление, что в предложенной постановке это соревнование выявит совсем не то, что хотелось бы физикам: оно даст не критерий, позволяющий эффективно отделять "хиггсовские" и фоновые события в ОБЩЕМ случае, а алгоритм, который за счет многократных прогонов сумеет наилучшим образом адаптироваться к КОНКРЕТНОМУ ПРЕДЛОЖЕННОМУ массиву контрольных событий. А на любом другом массиве событий этот алгоритм уже вовсе не будет оптимальным.
Вот если бы вместо бинарной функции хиггсовское/фоновое там нужно было выдать ДОВЕРИТЕЛЬНУЮ ВЕРОЯТНОСТЬ того, что событие хиггсовское, плюс для оценивания использовался не один и тот же массив данных, а разные - вот тогда этот алгоритм уже действительно мог бы выдавать что-то объективное и его можно было бы попытаться использовать на практике.

Ответить
- Игорь Иванов yuriT 03.06.2014 23:19 Ответить
  
  Во-первых, алгоритмов, годящихся в совершенно общем случае, и не бывает. Для разного класса задач есть свои типы алгоритмов. Тут ситуация, когда, с одной стороны, есть лептоны и потерянный поперечный импульс — а это уэе немало, — но с другой стороны много конечных адронов (а значит, можно составить много кинематических переменных). С третьей стороны, адронов еще не так много, чтоб приходилось с необходимостью прибегать к таким грубым объектам как струи. Пока что можно работать и с отдельными адронами.
  
  А во-вторых, вы как-то многое сразу требуете. Они не просят посторонних людей решить за них задачу, т.к. сами сдались — они предлагают полусерьезно поиграть. Может быть, результаты этой игры наведут и их на новые мысли. Разве это плохо? Если дело заладится, может быть, они и более реалистичное соревнование запустят, по аналогии с FoldIt.
  
  Ответить
  - yuriT Игорь Иванов 04.06.2014 16:26 Ответить
    
    Да нет, не плохо, конечно. И вполне возможно, что они сделали так вполне сознательно (в техдоке действительно есть кое-какие пояснения в этом плане).
    Просто если подходить к задаче чисто абстрактно - то кажется совсем не очевидным, что такой подход действительно даст то, что нужно. Но вполне возможно, что авторам действительно виднее.
    
    Ответить
    - kbob yuriT 04.06.2014 16:55 Ответить
      
      Понимаете, тут важен не сколько конкретный результат, а скорее новый подход в обработке данных.
      
      Например "simple naive Bayes" дает очень посредственные результаты, eXtreme Gradient Boosting гораздо лучше. Причем указанные выше алгоритмы применяются для более широкого круга задач, что чем поиск распадов Хиггса. Возможно кто-то использует алгоритм распознавания вывесок на зданиях, который может подойти и для анализа распадов элементарных частиц.
      Вообще я заметил, что знание физики элементарных частиц совсем не обязательно, что бы найти эффективных алгоритм.
      
      Ответить
      - yuriT kbob 04.06.2014 17:33 Ответить
        
        По идее это типичная задача кластерного анализа (или что-то подобное - у специалистов, вероятно, должны быть специальные термины для таких задач). И для них наверняка должны существовать стандартные, давным-давно отработанные алгоритмы.
        Но в любом случае здесь на пространстве параметров должны быть как "хорошие" области, в которых представленный набор параметров достаточен и позволяет надежно отделять нужные эвенты от ненужных, и "плохие" области, в которых представленный набор параметров просто в принципе недостаточен, так что максимум, что можно там сделать - это вычислить ВЕРОЯТНОСТЬ того, что событие является нужным.
        Вот как раз эти-то "плохие" области и влияют самым критическим образом на результаты подобных соревнований. А поскольку число "хигсовских" событий в представленном массиве данных мало, то результат будет зависеть главным образом от того, насколько удачно удалось УГАДАТЬ "правильные" события вот в таких "плохих" областях. И для такого угадывания многократные сабмиты (которых по условиям можно сделать почти 150) дают гораздо больше, чем доводка самого алгоритма. Так что и победить в итоге могут не те, у кого сам алгоритм лучше, а те, кто на этой сотне проб смог лучше всего "подогнать" свои результаты под ответ.
        
        Ответить
        
        xolod yuriT 06.06.2014 17:18 Ответить
        
        адаптироваться за какие-то 150 попыток к тестовому массиву(результаты по которому кроме общей оценки неизвестны) из 550 тысяч примеров?
        
        Ответить
prometey21 07.04.2015 12:36 Ответить

ping

Ответить