Как работать с большим объемом данных

-----:::----- Актуальные вакансии АО "ГосМКБ "Радуга" им. А.Я.Березняка" -----:::----- Наша газета в ВКонтакте -----:::----- Готовить инженерные кадры -----:::----- Целевое обучение - гарантия будущего -----:::----- Школа для педагогов -----:::-----

19.02.2015 10:13

Совместный научный семинар «Проблемы обработки и управления большими данными в экспериментах класса мега-сайенс» проходил 29–31 января в Национальном исследовательском центре «Курчатовский институт» в Москве и в Объединенном институте ядерных исследований в Дубне.

В 2014 году в НИЦ КИ образована Лаборатория технологий больших данных для развития научных направлений, связанных с мега-сайенс проектами. Как отметил начальник лаборатории Алексей Климентов, это первое рабочее совещание, на котором обсуждались вопросы анализа, обработки сверхбольших объемов научных данных и управления ими. Для участия в нем приехали представители европейских стран, России, США, Тайваня, ученые ЦЕРН и ОИЯИ. Первый день проходил на базе «Курчатовского института», где были проведены секционные заседания, в Лаборатории информационных технологий проходила пленарная часть совещания.

Директор ЛИТ Владимир Кореньков рассказал, что один из важных вопросов в повестке дня – создание единой платформы, которая объединяет как грид, так и суперкомпьютерные ресурсы для мегапроектов. Кроме того, обсуждались построение гридсистемы уровня Tier1 для анализа данных с Большого адронного коллайдера в «Курчатнике» и ОИЯИ, а также опыт создания Tier1 в Тайване. В том числе учитывая опыт организации обработки данных в ЦЕРН и GSI (Дармштадт, Германия), в ходе таких совещаний будет выработано решение по созданию компьютерной инфраструктуры для ускорительного комплекса NICA.

«После модернизации Большого адронного коллайдера, – рассказал профессор Геннадий Ососков, – нагрузки возрастут в 2,5 раза, причем объем поступающей информации тоже увеличится. Поэтому придется усовершенствовать гридсистему, для этого решено применять так называемую облачную структуру. Потому что гридовская структура рассчитана только на имеющееся оборудование, а «облака» – это новые технологии, где все виртуализировано, возможностей гораздо больше. Использованию облачных вычислений в физике и была посвящена часть обсуждений. В одном из моих докладов я рассказал, каким образом можно предварительно рассчитать оборудование, нагрузки, стоимость, все заранее оптимизировать».

Несколько докладов были посвящены системе PanDA. Подробнее о ней рассказал инженерпрограммист ЛИТ Данила Олейник: «Система была предложена в США, разрабатывалась в Брукхейвенской национальной лаборатории и в университете Техаса в Арлингтоне. В 2000 году был построен первый прототип, и в 2005 году PanDA во всем эксперименте ATLAS была принята как единая система управления задачами. Система характеризуется тем, что обеспечивает очень высокий уровень автоматизации рутинных задач при относительно небольших операционных расходах. Соответственно, несколько сотрудников могут поддерживать обработку данных более чем на 150 сайтах.

После 2010 года интерес к таким системам стал существенно повышаться, поскольку пошли большие данные с LHC. Объем данных с Большого адронного коллайдера за год сравним с большими социальными сетями, такими как Фейсбук, и объем этот будет увеличиваться. Поскольку интерес к системе PanDA стали проявлять в других научных коллаборациях, не только в физике высоких энергий, было решено сделать ее более универсальной. PanDA уже используется, например, для биологических исследований в «Курчатовском институте». Я занимаюсь интеграцией системы PanDA с высокопроизводительными вычислительными системами, с суперкомпьютерами. Эта система хорошо подходит для комплекса NICA. Дело в том, что она гибкая, адаптирована как для больших коллабораций, так и для экспериментов средних масштабов. К тому же в ОИЯИ уже есть специалисты, которые смогут поддерживать ее работу».

Галина Мялковская

<	Февраля 2015					>
П	В	С	Ч	П	С	В
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28


		Телефонный справочник
		Расписание транспорта
		Вакансии

Данные с ЦБР временно не доступны. Приносим свои извинения за неудобство.