Новости
17.06.2025
Книга: «Масштабируемые данные. Высоконагруженные архитектуры, Data Mesh и Data Fabric. 2-е изд.»
Издательство Sprint book представляет второе издание книги Питхейна Стренгхольта «Масштабируемые данные» — фундаментальное руководство по построению современных архитектур данных в эпоху цифровой трансформации.
Время централизованного хранения информации, например, в хранилищах данных (data warehouse) уходит в прошлое. Сегодня компании сталкиваются с необходимостью обрабатывать огромные объемы информации в реальном времени, обеспечивая при этом гибкость, безопасность и согласованность данных. Датафикация происходит повсюду: в смартфонах, телевизорах, электронных книгах, промышленных машинах, автомобилях с автопилотами, роботах и т. д. Она стремительно меняет нашу жизнь. А темы, заложенные в книге Стренгхольта, становятся новым стандартом для организаций, стремящихся построить гибкую, безопасную и ориентированную на бизнес-ценности инфраструктуру данных.
Вместе с количеством генерируемых данных растет и их сложность. Облачные технологии, управление API, микросервисы, открытые данные, ПО как услуга (software-as-a-service, SaaS) и новые модели доставки программного обеспечения сегодня актуальны как никогда. Все эти тенденции фрагментируют ландшафт данных.
В этой книге Питхейн Стренгхольт объединяет многолетний практический опыт работы с крупными корпорациями и предлагает комплексный подход к созданию масштабируемых архитектур.
О научном редакторе русскоязычного издания
Дмитрий Бардин — ведущий разработчик, архитектор решений, один из авторов курса «Архитектор ПО» от «Яндекс Практикума». В настоящее время занимается разработкой бэкенда «КиноПоиска» с применением языков Go и Java. В прошлом руководитель службы продуктовой разработки и ресурс-менеджер. Опыт в ИТ — более 15 лет.
Об авторе
Питхейн Стренгхольт — директор по данным в отделении Microsoft в Нидерландах. В этой роли он выступает как партнер руководителей по цифровым технологиям крупных предприятий, помогает развивать сообщества и налаживать диалог с группами разработчиков продуктов. Питхейн также ведет свой блог, где регулярно рассказывает о последних тенденциях в управлении данными, включая концепцию сетки данных, управление данными и масштабирование стратегий.
Современные системы данных кардинально отличаются от решений прошлого десятилетия. Если раньше компании могли позволить себе пакетную обработку информации в конце рабочего дня, то сегодня бизнес требует мгновенного доступа к актуальным данным. Технологии усложнились: аналитические системы обрабатывают сложные запросы, стриминговые платформы обеспечивают непрерывный поток событий, а микросервисная архитектура требует новых подходов к интеграции. По мере развития технологий росли и ожидания пользователей. Пользователь часто подключается к множеству различных серверных систем, расположенных в разных частях компании, когда переходит с мобильной версии на настольную, меняет местоположение или запускает одно приложение за другим. В то же время ему важна бесперебойная работа в реальном времени.
Решение проблемы масштабируемости данных в LinkedIn привело к созданию Apache Kafka — платформы, объединившей обмен сообщениями, хранение и обработку событий. Этот опыт показал, что современные системы требуют принципиально нового подхода:
Децентрализованного управления данными.
Гибкой интеграции между сервисами.
Поддержки потоковой обработки в реальном времени.
Использование Kafka не только изменило инфраструктуру LinkedIn, но и повлияло на архитектурные принципы проектирования распределенных систем в целом.
«Питхейн придерживается определенных взглядов на архитектуру, которые основаны на хорошо продуманном наборе принципов. Эти принципы позволяют отделить пространство принятия решений с помощью логических границ, внутри которых должно уместиться множество практических решений. Я думаю, что этот подход будет очень ценным для архитекторов и инженеров, поскольку в своей предметной области они сталкиваются с разными компромиссами, описанными в этой книге. Действительно, Питхейн берет вас в путешествие, которое выходит за рамки данных и приложений и охватывает сложную материю взаимодействий, объединяющих целые компании».
Джей Крепс (Jay Kreps), соучредитель и генеральный директор Confluent
Концепция Data Mesh как описание социотехнического подхода к использованию данных, предложенная Жамаком Дехгани, стала логическим продолжением эволюции управления данными. Однако автор книги отмечает, что многие организации сталкиваются с трудностями при ее реализации:
Сложность адаптации к крупным корпоративным ландшафтам.
Отсутствие четких рекомендаций по моделированию продуктов данных.
Ограниченность подхода только аналитическими сценариями.
Во втором издании книги особое внимание уделяется практическим аспектам внедрения современных архитектур данных. Автор дополняет теорию реальными кейсами из своей практики в ABN AMRO и Microsoft.
Для кого эта книга?
Издание предназначено для профессионалов, работающих с данными в условиях высоких нагрузок. Особенной она окажется полезной:
Руководителям и архитекторам.
Директорам по обработке и анализу данных, техническим директорам, архитекторам предприятия и ведущим архитекторам данных.
Аналитическим группам.
Дата-сайентистам, дата-инженерам, аналитикам данных и руководителям аналитических отделов.
Команде разработчиков.
Дата-инженерам, BI-инженерам, разработчикам моделей и проектировщикам данных, а также другим специалистам по данным.
Группам контроля и управления.
Руководителям службы информационной безопасности, специалистам по защите данных, аналитикам информационной безопасности, руководителям по соблюдению нормативных требований, операторам баз данных и бизнес-аналитикам.
Структура и содержание
Книга построена по принципу постепенного погружения — от стратегических вопросов управления данными и архитектуры данных на абстрактном уровне до конкретных технических решений:
Основы современного управления данными, как оно влияет на цифровую трансформацию.
Управление данными в целом, исследуя методологии управления большими ландшафтами данных с применением предметно-ориентированных подходов и бизнес-архитектур.
Топология и область подготовки данных как способ структурирования архитектуры данных и ее согласования с предметными областями.
Продукты данных, разделение ответственности на команды и запросы.
Управление API.
Управление событиями и уведомлениями.
Объединяет сведения из предыдущих глав в общий обзор, дополненный рекомендациями по организации архитектуры и примерами из личного опыта.
«Масштабируемые данные» — это must-have для профессионалов, проектирующих системы обработки данных нового поколения. Второе издание существенно дополнено практическими примерами и актуальными рекомендациями для работы в современных условиях.
Ознакомьтесь с книгой «Масштабируемые данные. Высоконагруженные архитектуры, Data Mesh и Data Fabric. 2-е изд.» на нашем сайте.
Комментарии: 0
Пока нет комментариев