CMS выложил в свободный доступ 300 ТБ своих данных

25.04.2016 • Детектор CMS, Методы обработки данных, Образовательные проекты • 17 комментариев

Пару лет назад ЦЕРН принял решение время от времени выкладывать в открытый доступ порции данных, накопленных на Большом адронном коллайдере. В рамках этой инициативы был открыт сайт CERN Open Data, на котором, кроме непосредственно данных, выложены и инструменты для их визуализации и исследования. Это не сырые, а минимально предобработанные данные, которые позволяют всем желающим самостоятельно прошерстить миллиарды столкновений в поисках интересующих их эффектов.

В ноябре 2014 года коллаборация CMS выложила первый 27-терабайтный пакет данных, накопленных в 2010 году. Сейчас речь уже идет про 300 терабайт данных. Как сообщается на сайте CMS, эта выборка включает в себя непосредственно экспериментальные данные 2011 года, а также большой массив результатов моделирования. Напомним, что эти «псевдоданные» играют важнейшую роль при интерпретации результатов коллайдера: когда экспериментаторы проверяют, не скрываются ли в данных намеки на Новую физику, они сопоставляют реальные данные с результатами моделирования и ищут статистически значимые отличия.

Показать комментарии (17)

Свернуть комментарии (17)

folks 25.04.2016 09:12 Ответить

Вот забавно читать, когда умные люди продолжают повторять глупости. Мол, открыть все данные - путь к открытости. Вывалить на головы огорошенным обывателям очередные террабайты информационных отходов связано с открытостью и честностью чуть более, чем никак.

Ответить
- Игорь Иванов folks 25.04.2016 12:18 Ответить
  
  Открытые данные плюс проги для обработки и визуализации — это одновременно и в образовательных целях, и для недоверчивых физиков, которые хотят попробовать поискать что-то самостоятельно. В астрофизике есть очень известный пример Fermi-LAT, которые свои данные открыл, и сейчас ими активно пользуются все желающие и ищут в них особенности, которые сама коллаборация не увидела или не довела до публикации.
  
  Так что не надо бурчать. Люди понимают, что они делают, и делают они это не от фонаря, а потому что есть запрос.
  
  Ответить
- Fireman folks 25.04.2016 12:27 Ответить
  
  Самый простой пример проект GalaxyZoo:
  
  Сначала были выложены данные по Слоановскому цифровому небесному обзору, затем специалисты создали проект, где обычные биороботы могли помочь с распознаванием галактик, определения их характеристик и т.д., то что нельзя сделать было автоматически или усилиями одних ученых. В итоге было получено много интересных научных открытий, включая новый тип звезды или туманности (уже не помню).
  
  Поэтому на мой взгляд выкладывать в общий доступ данные с крупных экспериментов нужно, но еще желательно, дать средство работы с данными, пусть на примитивной уровне - типа "найди новую частицу: определи пик на распределении".
  
  P.S.
  упас, виноват, подобные проекты уже есть
  https://www.higgshunters.org/
  
  Ответить
  - PavelS Fireman 25.04.2016 20:48 Ответить
    
    Боюсь, чисто технически это всё сложно. Т.е. надо держать рейд на кучу терабайт, где-то размещать, он ещё жруч до энергии, кто-то будет качать данные - захламит весь интернет-канал. А если пройти и прошуршать скриптом, работающим на сервере, если более 2 человек будут это делать одновременно и если не писать крутой софт по составлению пакетов обработок, то будет адсший трешинг жестких дисков (всё время уйдёт на позиционирование магнитных головок). Короче, тут много и технических, и программных проблем.
    
    Ответить
    - prometey21 PavelS 25.04.2016 21:43 Ответить
      
      Фактически, если бы не было мощных грид-систем по всему миру, то ни о каком открытии Хиггса не могло быть и речи! Все эти тера лишь подтверждение того, что без современных компьютеров это было бы невозможно!!!
      
      Ответить
      - Fireman prometey21 25.04.2016 23:30 Ответить
        
        Опять же практически не встречал распределённые вычисления для ФЭЧ, а ведь можно было бы наверное ту же КХД на решетке использовать, погонять годик у пользователей на компах (если возможно такое распараллеливание) и получить очень хорошие результаты, уж думаю, гораздо лучше и целесообразнее чем SETI@Home
        
        Ответить
        
        PavelS Fireman 25.04.2016 23:54 Ответить
        
        У SETI были другие задачи. Не научные, а пиар самой технологии. Сейчас же сети скорее отвлекает людей от науки, т.к. за прошедшие 15 лет появилась уйма действительно научных проектов, которым были бы полезны эти вычислительные мощности. Я одно время было участвовал в SETI, но потом выяснил, что 99% времени вычислений программа тратит на красивые картиночки на экране.
        
        Ответить
      - niki prometey21 26.04.2016 07:27 Ответить
        
        Реклама компьютеров?
        
        Ответить
        
        PavelS niki 26.04.2016 18:56 Ответить
        
        Реклама того, что можно собраться и ставить рекорды вычислений ради рекордов вычислений.
        
        Ответить
    - Кошка Туркале PavelS 26.04.2016 20:38 Ответить
      
      Сейчас не проблема на пару часов или дней поднять здоровеннейший кластер в Azure/AWS/Google Cloud с SSD дисками и GPGPU, скачать туда данные, прогнать нужные вычисления и погасить всё, заплатив незначительные сотню-другую баксов.
      
      Ответить
      - PavelS Кошка Туркале 26.04.2016 23:38 Ответить
        
        С какой скоростью вы закачаете на облако данные? Чтобы 300ТБ. Со скоростью 100мегабит качать год. Гооод! Если же хочешь за несколько часов, надо уже 100гигабит. У тебя много межконтинентальных каналов интернет на такую скорость? А до дома, где у тебя данные на кассетном стриммере, тоже проведёно такое окончание от провайдера? Нет, всё-таки тут реально много данных. Ну и главное, повторю - как согласовать доступ к данным, чтобы сразу много людей могли делать нужные вычисления? Это уже нетривиальный софт, который надо отладить. А софт - это всегда дорого. Очень.
        
        Ответить
- VeNOO folks 25.04.2016 23:20 Ответить
  
  А при чем здесь вообще какие-то обыватели?
  
  Ответить
  - folks VeNOO 26.04.2016 09:42 Ответить
    
    Потому что целью этой пиар-акции являются ничего не смыслящие в происходящем обыватели, а вовсе не "научный мир". Последний и так всё про это знает. Известно же, что он делится на две неравные части: одни из карьеристских соображений занимаются бессовестной фальсификацией по генерации этих массивов мусорных данных либо активно в этом участвуют, а вторые, прекрасно видя это всё, стыдливо молчат.
    
    Ответить
    - VeNOO folks 26.04.2016 10:31 Ответить
      
      И не говорите! Гнуснейший заговор, поражающий масштабом и цинизмом! Чую масонский след... Ладно, пойду что ли стыдливо молчать.
      
      Ответить
    - Kokont folks 26.04.2016 11:44 Ответить
      
      Уважаемый. Вы ошиблись сайтом. Вам надо в 'скандалы. Интриги. Расследования' на рентв или куда ещё.
      
      Ответить
    - mrbus folks 03.05.2016 20:08 Ответить
      
      К какой категории вы относите себя?
      Могу предположить, что к "а есть еще я, самый честный и правильный", но интересно будет услышать ваш ответ.
      
      Ответить
- 3g430 folks 26.04.2016 13:48 Ответить
  
  Ваша гипотеза звучала бы более убедительно, если бы CMS НЕ выложили бы исходные данные. А так получается, не выложили - скрывают, не дают проверить, выложили - огорашивают...
  Ваша гипотеза вообще принципиально фальсифицируема?
  
  Ответить