Термины «визуализация данных» и «инфографика» часто считаются синонимами, однако специалисты в области представления информации проводят между ними различие.[2] В одном из подходов визуализация данных считается частью инфографики, которая, согласно этой точке зрения, представляет собой комбинацию собственно визуализации данных, иллюстраций, рисунков и текста, служащую для подачи целостного сообщения.[3]
Другой подход условно проводит разграничение между этими понятиями по методу создания, эстетическим качествам и количеству данных. Согласно этому подходу, инфографика относится к представлениям данных, которые: созданы при участии человека, специфичны по отношению к представляемой информации, высокоэстетичны и не содержат большого количества данных. Напротив, визуализация данных относится к представлениям, которые созданы алгоритмическим путём, легко воспроизводимы для разных выборок и схожих типов данных, не содержат излишних декоративных элементов, отражают большие объёмы данных.[4]
История
Истоки представления данных в виде таблиц, диаграмм и карт прослеживаются с древнейших времён.[5] Ощутимая потребность в качественном представлении информации стала возникать в эпоху Возрождения, с появлением больших количеств данных и визуальной информации из географии, астрономии, геометрии, статистики и других наук.[6]
В первой половине XIX века наблюдался значительный рост работ, в которых использовалось графическое отображение данных. К середине века были изобретены все основные типы представления данных: столбчатые и круговые диаграммы, гистограммы, линейные графики, графики временных рядов, контурные диаграммы и т. д.[7]
Тенденция роста пошла на спад в начале XX века, уступив место точной математике. Тем не менее, именно в этот период стали появляться учебники и курсы по графическим методам представления данных, а сами графики стали использоваться не только для представления результатов, но и для исследования информации и выдвижения гипотез в астрономии, физике, биологии и других науках.[8]
Новый виток визуализация получила в третьей четверти XX века. Этому способствовали три события[9]:
По цели представления данных визуализация делится на презентационную (англ.«presentation», «explanation») и исследовательскую (англ.«exploration»). Презентационная визуализация предназначена для представления данных некоторой аудитории (например, в рамках научной работы, доклада или аналитического обзора в новостях). Исследовательская визуализация предназначена для анализа и обработки набора данных, например, с целью обнаружения закономерностей в них.
Существуют также гибридные презентационно-исследовательские формы визуализации данных. В этом случае целью является всё та же презентация заложенной информации, однако человеку предоставляется возможность подробно изучать показываемый набор данных посредством интерактивных элементов, например, накладывая какие-либо ограничения на данные.[12]
Визуализация как этап анализа данных
Подсистема визуализации данных является важной составной частью качественных систем интеллектуального анализа данных, особенно ориентированных на обработку больших объёмов информации. В системах бизнес-аналитики визуализация может использоваться на всех этапах процесса обработки данных[13]:
Визуализация исходных данных. Этот этап полезен для оценки степени соответствия ожиданиям и пригодности данных к анализу, выдвижения гипотез о закономерностях и необходимых процедурах первичной обработки.
Визуализация выборки, загруженной в систему обработки.
Визуализация результатов первичной обработки.
Визуализация промежуточных результатов.
Визуализация окончательных результатов.
В отличие от обычного графического интерфейса, эти средства обеспечивают:
краткость (англ.concision) — способность одновременного отображения большого числа разнотипных данных;
относительность (англ.relativity) и близость (англ.proximity) — способность демонстрировать в результатах запроса кластеры, относительные размеры групп, схожесть и различие групп, выпадающие значения (англ.outliers);
концентрацию и контекст (англ.focus with context) — взаимодействие с некоторым выбранным объектом с возможностью просмотра его положения и связей с контекстом;
масштабируемость (англ.zoomability) — способность легко и быстро перемещаться между микро- и макропредставлением;
ориентацию на «правое полушарие» — предоставление пользователю не только заранее установленных методов работы с данными (обеспечивающими его намеренные и спланированные подходы к поиску нужной информации), но и поддержка его интуитивных, импровизационных когнитивных процессов идентификации закономерностей.
Паклин Н. Б., Орешков В. И.Визуализация данных // Бизнес-аналитика. От данных к знаниям. — 2-е изд. — СПб.: Питер, 2013. — С. 173—210. — ISBN 978-5-459-00717-6.
Английский перевод: Bertin J. Semiology of Graphics: Diagrams, Networks, Maps. — University of Wisconsin Press, 1983. — 415 p. — (Central Asia book series). — ISBN 9780299090609.