CMS выложил в свободный доступ 300 ТБ своих данных

Пару лет назад ЦЕРН принял решение время от времени выкладывать в открытый доступ порции данных, накопленных на Большом адронном коллайдере. В рамках этой инициативы был открыт сайт CERN Open Data, на котором, кроме непосредственно данных, выложены и инструменты для их визуализации и исследования. Это не сырые, а минимально предобработанные данные, которые позволяют всем желающим самостоятельно прошерстить миллиарды столкновений в поисках интересующих их эффектов.

В ноябре 2014 года коллаборация CMS выложила первый 27-терабайтный пакет данных, накопленных в 2010 году. Сейчас речь уже идет про 300 терабайт данных. Как сообщается на сайте CMS, эта выборка включает в себя непосредственно экспериментальные данные 2011 года, а также большой массив результатов моделирования. Напомним, что эти «псевдоданные» играют важнейшую роль при интерпретации результатов коллайдера: когда экспериментаторы проверяют, не скрываются ли в данных намеки на Новую физику, они сопоставляют реальные данные с результатами моделирования и ищут статистически значимые отличия.


17
Показать комментарии (17)
Свернуть комментарии (17)

  • folks  | 25.04.2016 | 09:12 Ответить
    Вот забавно читать, когда умные люди продолжают повторять глупости. Мол, открыть все данные - путь к открытости. Вывалить на головы огорошенным обывателям очередные террабайты информационных отходов связано с открытостью и честностью чуть более, чем никак.
    Ответить
    • Игорь Иванов > folks | 25.04.2016 | 12:18 Ответить
      Открытые данные плюс проги для обработки и визуализации — это одновременно и в образовательных целях, и для недоверчивых физиков, которые хотят попробовать поискать что-то самостоятельно. В астрофизике есть очень известный пример Fermi-LAT, которые свои данные открыл, и сейчас ими активно пользуются все желающие и ищут в них особенности, которые сама коллаборация не увидела или не довела до публикации.

      Так что не надо бурчать. Люди понимают, что они делают, и делают они это не от фонаря, а потому что есть запрос.
      Ответить
    • Fireman > folks | 25.04.2016 | 12:27 Ответить
      Самый простой пример проект GalaxyZoo:

      Сначала были выложены данные по Слоановскому цифровому небесному обзору, затем специалисты создали проект, где обычные биороботы могли помочь с распознаванием галактик, определения их характеристик и т.д., то что нельзя сделать было автоматически или усилиями одних ученых. В итоге было получено много интересных научных открытий, включая новый тип звезды или туманности (уже не помню).

      Поэтому на мой взгляд выкладывать в общий доступ данные с крупных экспериментов нужно, но еще желательно, дать средство работы с данными, пусть на примитивной уровне - типа "найди новую частицу: определи пик на распределении".

      P.S.
      упас, виноват, подобные проекты уже есть
      https://www.higgshunters.org/
      Ответить
      • PavelS > Fireman | 25.04.2016 | 20:48 Ответить
        Боюсь, чисто технически это всё сложно. Т.е. надо держать рейд на кучу терабайт, где-то размещать, он ещё жруч до энергии, кто-то будет качать данные - захламит весь интернет-канал. А если пройти и прошуршать скриптом, работающим на сервере, если более 2 человек будут это делать одновременно и если не писать крутой софт по составлению пакетов обработок, то будет адсший трешинг жестких дисков (всё время уйдёт на позиционирование магнитных головок). Короче, тут много и технических, и программных проблем.
        Ответить
        • prometey21 > PavelS | 25.04.2016 | 21:43 Ответить
          Фактически, если бы не было мощных грид-систем по всему миру, то ни о каком открытии Хиггса не могло быть и речи! Все эти тера лишь подтверждение того, что без современных компьютеров это было бы невозможно!!!
          Ответить
          • Fireman > prometey21 | 25.04.2016 | 23:30 Ответить
            Опять же практически не встречал распределённые вычисления для ФЭЧ, а ведь можно было бы наверное ту же КХД на решетке использовать, погонять годик у пользователей на компах (если возможно такое распараллеливание) и получить очень хорошие результаты, уж думаю, гораздо лучше и целесообразнее чем SETI@Home
            Ответить
            • PavelS > Fireman | 25.04.2016 | 23:54 Ответить
              У SETI были другие задачи. Не научные, а пиар самой технологии. Сейчас же сети скорее отвлекает людей от науки, т.к. за прошедшие 15 лет появилась уйма действительно научных проектов, которым были бы полезны эти вычислительные мощности. Я одно время было участвовал в SETI, но потом выяснил, что 99% времени вычислений программа тратит на красивые картиночки на экране.
              Ответить
          • niki > prometey21 | 26.04.2016 | 07:27 Ответить
            Реклама компьютеров?
            Ответить
            • PavelS > niki | 26.04.2016 | 18:56 Ответить
              Реклама того, что можно собраться и ставить рекорды вычислений ради рекордов вычислений.
              Ответить
        • Кошка Туркале > PavelS | 26.04.2016 | 20:38 Ответить
          Сейчас не проблема на пару часов или дней поднять здоровеннейший кластер в Azure/AWS/Google Cloud с SSD дисками и GPGPU, скачать туда данные, прогнать нужные вычисления и погасить всё, заплатив незначительные сотню-другую баксов.
          Ответить
          • PavelS > Кошка Туркале | 26.04.2016 | 23:38 Ответить
            С какой скоростью вы закачаете на облако данные? Чтобы 300ТБ. Со скоростью 100мегабит качать год. Гооод! Если же хочешь за несколько часов, надо уже 100гигабит. У тебя много межконтинентальных каналов интернет на такую скорость? А до дома, где у тебя данные на кассетном стриммере, тоже проведёно такое окончание от провайдера? Нет, всё-таки тут реально много данных. Ну и главное, повторю - как согласовать доступ к данным, чтобы сразу много людей могли делать нужные вычисления? Это уже нетривиальный софт, который надо отладить. А софт - это всегда дорого. Очень.
            Ответить
    • VeNOO > folks | 25.04.2016 | 23:20 Ответить
      А при чем здесь вообще какие-то обыватели?
      Ответить
      • folks > VeNOO | 26.04.2016 | 09:42 Ответить
        Потому что целью этой пиар-акции являются ничего не смыслящие в происходящем обыватели, а вовсе не "научный мир". Последний и так всё про это знает. Известно же, что он делится на две неравные части: одни из карьеристских соображений занимаются бессовестной фальсификацией по генерации этих массивов мусорных данных либо активно в этом участвуют, а вторые, прекрасно видя это всё, стыдливо молчат.
        Ответить
        • VeNOO > folks | 26.04.2016 | 10:31 Ответить
          И не говорите! Гнуснейший заговор, поражающий масштабом и цинизмом! Чую масонский след... Ладно, пойду что ли стыдливо молчать.
          Ответить
        • Kokont > folks | 26.04.2016 | 11:44 Ответить
          Уважаемый. Вы ошиблись сайтом. Вам надо в 'скандалы. Интриги. Расследования' на рентв или куда ещё.
          Ответить
        • mrbus > folks | 03.05.2016 | 20:08 Ответить
          К какой категории вы относите себя?
          Могу предположить, что к "а есть еще я, самый честный и правильный", но интересно будет услышать ваш ответ.
          Ответить
    • 3g430 > folks | 26.04.2016 | 13:48 Ответить
      Ваша гипотеза звучала бы более убедительно, если бы CMS НЕ выложили бы исходные данные. А так получается, не выложили - скрывают, не дают проверить, выложили - огорашивают...
      Ваша гипотеза вообще принципиально фальсифицируема?
      Ответить
Написать комментарий
Элементы

© 2005–2025 «Элементы»