Big Data
Почему data, а не datas, ведь «данные» — их много? Отвечаем: слово data является заимствованием из латинского языка, где множественное и единственное число образуются не так, как в английском, и data — это как раз форма множественного числа от datum. В общем, говорить «дата» можно, а «датас/дэйтас» нет. Русский эквивалент — «большие данные» — тоже уверенно вошёл в оборот, хоть он и в два раза длиннее.
«Большие данные — это когда больше терабайта», «большие данные — это объём информации, который невозможно обработать на одном компьютере», «большие данные — это новая нефть». Сколько людей, столько и определений big data. Формальной дефиниции не существует: неясно, где проходит граница между большими и просто данными.
Изначально понятие big data описывалось через три V: объём (volume) — очень много информации; скорость (velocity) — данные быстро увеличиваются и обрабатываются; многообразие (variety) — в работу идут и числа, и тексты, и графические образы, и другие виды данных, в том числе неструктурированных.
Потом количество V увеличилось: аналитики предложили добавить veracity — достоверность; viability — жизнеспособность; value — ценность для экономики, науки и общества; variability — переменчивость; visualization — возможность образного представления.
Ясно одно: речь идёт не просто о горах данных, которыми зачем-то забивают сервера научные лаборатории и коммерческие компании. Люди стремятся не только накапливать терабайты информации, но и извлекать из них пользу. Поэтому big data — это не столько про объём, сколько про подходы, инструменты, методы обработки данных, которые помогают добыть из тонн цифровой «руды» грамм «золота». Например, в квинтиллионах информации, собираемой телескопами NASA, найти следы новой планеты.
Data science
Это наука о методах анализа данных и извлечения из них ценной информации. Data science как академическая дисциплина формируется с начала 2010-х. Чтобы стать специалистом в этой области, необходимо прежде всего быть отличным математиком — знать матмоделирование, матстатистику, комбинаторику, теорию графов и многое другое. Ну и, конечно, уметь программировать. Надо заметить, пока спрос на дата-сайентистов сильно превышает предложение (особенно в России).
Машинное обучение
«Именно благодаря машинному обучению поисковая машина понимает, какие результаты (и рекламу) показывать в ответ на ваш запрос. Когда вы просматриваете почту, большая часть спама проходит мимо вас, потому что он был отфильтрован с помощью машинного обучения. Если вы решили что-нибудь купить на Amazon.com или заглянули на Netflix в поисках фильма, система машинного обучения услужливо предложит варианты, которые могут прийтись вам по вкусу. С помощью машинного обучения Facebook решает, какие новости вам показывать, а Twitter подбирает подходящие твиты» — с этих слов начинается книга «Верховный алгоритм» исследователя искусственного интеллекта Педро Домингоса.
Data mining
Датамайнингом называют как технологии, так и процесс обнаружения в сырых данных неизвестной и полезной информации. Основу data mining составляют всевозможные методы классификации, моделирования и прогнозирования.
В научный обиход термин ввёл израильский математик Григорий Пятецкий-Шапиро — ещё в 1989 году.
Облака
Держать в голове все задачи на день, месяц, год не очень-то удобно, поэтому мы записываем их в блокнот или заносим на виртуальную доску. Точно так же наш компьютер не может хранить на своём диске сотни гигабайт видео, фоток и музыки — их приходится закачивать на такие сервисы, как Google Drive или Яндекс.Диск.
Мы имеем постоянный доступ к своим данным — через интернет, но физически они находятся на виртуальных серверах соответствующих компаний. При этом пользователь платит лишь за место в хранилище, а это гораздо дешевле аренды целого сервера. Естественно, для работы с большими данными «облака» просто необходимы.
Суперкомпьютер
Речь идёт о вычислительной машине, значительно превосходящей по техническим параметрам и скорости обработки данных обычные персоналки. Как правило, она представляет собой систему высокопроизводительных компьютеров. Используется для решения задач в самых разных областях науки и технологий: от разработки атомного оружия до моделирования новых лекарств. Самые мощные российские суперкомпьютеры — «Ломоносов» и «Ломоносов‑2» — находятся в Московском государственном университете им. М. В. Ломоносова.
Интернет вещей
Вслед за компьютерами и смартфонами в Сеть вышли фитнес-трекеры, чайники, стиральные машины, телевизоры, датчики и сенсоры. И всё же интернет вещей — это не включение света посредством брюк или удалённый спуск воды в унитазе через смартфон. Есть масса примеров внедрения технологий IoT в медицине, спорте, сельском хозяйстве, промышленности. Например, BigBelly — урна, которая предупреждает сотрудников городской службы по уборке мусора, что её пора опорожнить. Локальная сеть анализирует данные, полученные от каждой урны, что позволяет планировать частоту вывоза бытовых отходов.
В 1990 году выпускник Массачусетского технологического института, один из отцов протокола TCP/IP Джон Ромки создал первую в мире интернет-вещь. Он подключил к Сети свой тостер. Термин «интернет вещей» появился в 1999 году. Ожидается, что в 2020‑м IoT объединит более 30 млрд устройств.
Впервые опубликовано: «Кот Шрёдингера» (фестивальный спецвыпуск) октябрь 2017 г.
Shutterstock