Построение бюджетной системы хранения данных. Системы хранения данных от серверного интегратора Системное хранилище

Дата: 21.09.2022

Отправить вопрос по решению По будням отвечаем
в течение часа

Андрей Оловянников, a.olovjannikov@сайт

Давайте договоримся….

Целью этой статьи является не подробное изучение различных систем хранения данных (СХД). Мы не будем анализировать всевозможные интерфейсы - программные и аппаратные - которые используются при создании разных способов хранения данных. Не будем рассматривать «узкие места» тех или иных разновидностей организации СХД. Здесь вы не увидите подробного рассмотрения протоколов iSCSI и их реализации в виде FC (Fibre Channel), SCSI и т.д.

Наша задача куда скромнее - просто «Договориться о терминологии» с нашим потенциальным покупателем. Так два физика перед началом обсуждения какой-либо проблемы, приходят к соглашению о том, какой процесс или явление они будут обозначать теми или иными словами. Это необходимо для того, чтобы сэкономить и время и нервные клетки друг друга, и проводить беседу более продуктивно и к взаимному удовольствию.

СХД или… СХД?

Начнем, как говорится, с начала.

Под СХД мы будем понимать все же Системы Хранения Данных как совокупность программно-аппаратных средств, служащих для надежного, максимально скоростного и простого способа хранения и доступа к данным для организаций разного уровня как финансовых, так и структурных особенностей. Сразу хотим обратить ваше внимание, что у различных фирм разные потребности в хранении информации в том или ином виде и разные финансовые возможности для их воплощения. Но в любом случае, хотим отметить, что сколько бы не было денег или специалистов того или иного уровня в распоряжении покупателя, мы настаиваем, что все их потребности укладываются в наше определение СХД - будь то обычный набор дисков большого объема, или сложная многоуровневая структура PCS (Parallels Cloud Storage). Это определение, по нашему мнению, включает в себя и другую широко применяющуюся аббревиатуру, переведенную на английский язык - СХД как Сеть Хранения Данных (Storage Area Network) - SAN. SAN мы немного проиллюстрируем ниже, когда будем рассказывать о типичных способах реализации СХД.

Наиболее типичный и понятный способ исполнения СХД это DAS - Direct Attached Storages - накопители, подключающиеся напрямую к компьтеру, который управляет работой этих накопителей.

Самый простой пример DAS - обычный компьютер с установленным в нем жестким диском или DVD (CD) приводом с данными. Пример посложнее (см. рис) - внешнее устройство-накопитель (внешний жесткий диск, дисковая полка, ленточный накопитель и т.д.), которые общаются с компьютером напрямую посредством того или иного протокола и интерфейса (SCSI, eSATA, FC и т.д.). Мы предлагаем в качестве устройств СХД DAS дисковые полки или Сервера Хранения Данных (еще одна аббревиатура СХД).

Сервер хранения данных в данном случае подразумевает некий компьютер с собственным процессором, ОС и достаточным количеством памяти для обработки больших массивов данных, хранящихся на многочисленных дисках внутри сервера.

Нужно отметить, что при таком воплощении СХД данные напрямую видит только компьютер с DAS, все остальные пользователи имеют доступ к данным только “с разрешения” этого компьютера.

Базовые конфигурации СХД DAS вы можете посмотреть в

Системы хранения NAS

Еще одна достаточно простая реализация СХД - NAS (Network Attached Storage) - Сетевое Хранилище Данных (опять та же аббревиатура СХД).

Как становится понятно, доступ к данным осуществляется посредством сетевых протоколов, как правило, через привычную нам компьютерную локальную сеть (хотя сейчас уже получили распространение и боле сложные доступы к данным, хранящимся на сетевых ресурсах). Самый понятный и простой пример СХД NAS - бытовое хранилище музыки и фильмов, к которому имеют доступ сразу несколько пользователей домашней сети.

NAS хранит данные в виде файловой системы и, соответственно, предоставляет доступ к ресурсам посредством сетевых файловых протоколов (NFS, SMB, AFP…).

Простой пример реализации СХД NAS см. на рис. 2.

Сразу хотим отметить, что NAS в принципе, может считаться любое интеллектуальное устройство, имеющее собственный процессор, память и достаточно быстрые сетевые интерфейсы для передачи данных по сети разным пользователям. Также особое внимание необходимо уделить схорости дисковой подсистемы. Наиболее типичные конфигурации устройств NAS вы можете посмотреть в

Storage Area Network - один из способов реализации СХД как Системы Хранения Данных - см. выше.

Это программно - аппаратное, а также архитектурное решение для подключения различных устройств хранения данных таким образом, что операционная система «видит» эти устройства как локальные. Это достигается посредством подключения этих устройств к соответствующим серверам. Сами устройства могут быть различными - дисковые массивы, ленточные библиотеки, массивы оптических накопителей.

С развитием технологий хранения данных различие между системами SAN и NAS стало весьма условным. Условно их можно различить по способу хранения данных: SAN - блочные устройства, NAS - файловая система данных.

Протоколы реализации систем SAN могут быть различные - Fibre Channel, iSCSI, AoE.

Один из архитектурных способов реализации SAN представлен на рис. 3.

Типичные примеры СХД SAN можно посмотреть в

В заключение, выразим надежду, что нам удалось «договориться о терминологии» с вами и осталось только обсудить варианты создания СХД для вашего бизнеса и подобрать решения, подходящие вам по надежности, простоте и бюджету.

Именно информация является движущей силой современного бизнеса и в настоящий момент считается наиболее ценным стратегическим активом любого предприятия. Объем информации растет в геометрической прогрессии вместе с ростом глобальных сетей и развитием электронной коммерции. Для достижения успеха в информационной войне необходимо обладать эффективной стратегией хранения, защиты, совместного доступа и управления самым важным цифровым имуществом - данными - как сегодня, так и в ближайшем будущем.

Управление ресурсами хранения данных стало одной из самых животрепещущих стратегических проблем, стоящих перед сотрудниками отделов информационных технологий. Вследствие развития Интернета и коренных изменений в процессах бизнеса информация накапливается с невиданной скоростью. Кроме насущной проблемы обеспечения возможности постоянного увеличения объема хранимой информации, не менее остро на повестке дня стоит и проблема обеспечения надежности хранения данных и постоянного доступа к информации. Для многих компаний формула доступа к данным «24 часа в сутки, 7 дней в неделю, 365 дней в году» стала нормой жизни.

В случае отдельного ПК под системой хранения данных (СХД) можно понимать отдельный внутренний жесткий диск или систему дисков. Если же речь заходит о корпоративной СХД, то традиционно можно выделить три технологии организации хранения данных: Direct Attached Storage (DAS), Network Attach Storage (NAS) и Storage Area Network (SAN).

Direct Attached Storage (DAS)

Технология DAS подразумевает прямое (непосредственное) подключение накопителей к серверу или к ПК. При этом накопители (жесткие диски, ленточные накопители) могут быть как внутренними, так и внешними. Простейший случай DAS-системы - это один диск внутри сервера или ПК. Кроме того, к DAS-системе можно отнести и организацию внутреннего RAID-массива дисков с использованием RAID-контроллера.

Стоит отметить, что, несмотря на формальную возможность использования термина DAS-системы по отношению к одиночному диску или к внутреннему массиву дисков, под DAS-системой принято понимать внешнюю стойку или корзину с дисками, которую можно рассматривать как автономную СХД (рис. 1). Кроме независимого питания, такие автономные DAS-системы имеют специализированный контроллер (процессор) для управления массивом накопителей. К примеру, в качестве такого контроллера может выступать RAID-контроллер с возможностью организации RAID-массивов различных уровней.

Рис. 1. Пример DAS-системы хранения данных

Следует отметить, что автономные DAS-системы могут иметь несколько внешних каналов ввода-вывода, что обеспечивает возможность подключения к DAS-системе нескольких компьютеров одновременно.

В качестве интерфейсов для подключения накопителей (внутренних или внешних) в технологии DAS могут выступать интерфейсы SCSI (Small Computer Systems Interface), SATA, PATA и Fibre Channel. Если интерфейсы SCSI, SATA и PATA используются преимущественно для подключения внутренних накопителей, то интерфейс Fibre Channel применяется исключительно для подключения внешних накопителей и автономных СХД. Преимущество интерфейса Fibre Channel заключается в данном случае в том, что он не имеет жесткого ограничения по длине и может использоваться в том случае, когда сервер или ПК, подключаемый к DAS-системе, находится на значительном расстоянии от нее. Интерфейсы SCSI и SATA также могут использоваться для подключения внешних СХД (в этом случае интерфейс SATA называют eSATA), однако данные интерфейсы имеют строгое ограничение по максимальной длине кабеля, соединяющего DAS-систему и подключаемый сервер.

К основным преимуществам DAS-систем можно отнести их низкую стоимость (в сравнении с другими решениями СХД), простоту развертывания и администрирования, а также высокую скорость обмена данными между системой хранения и сервером. Собственно, именно благодаря этому они завоевали большую популярность в сегменте малых офисов и небольших корпоративных сетей. В то же время DAS-системы имеют и свои недостатки, к которым можно отнести слабую управляемость и неоптимальную утилизацию ресурсов, поскольку каждая DAS-система требует подключения выделенного сервера.

В настоящее время DAS-системы занимают лидирующее положение, однако доля продаж этих систем постоянно уменьшается. На смену DAS-системам постепенно приходят либо универсальные решения с возможностью плавной миграции с NAS-системам, либо системы, предусматривающие возможность их использования как в качестве DAS-, так и NAS- и даже SAN-систем.

Системы DAS следует использовать при необходимости увеличения дискового пространства одного сервера и вынесения его за корпус. Также DAS-системы можно рекомендовать к применению для рабочих станций, обрабатывающих большие объемы информации (например, для станций нелинейного видеомонтажа).

Network Attached Storage (NAS)

NAS-системы - это сетевые системы хранения данных, непосредственно подключаемые к сети точно так же, как и сетевой принт-сервер, маршрутизатор или любое другое сетевое устройство (рис. 2). Фактически NAS-системы представляют собой эволюцию файл-серверов: разница между традиционным файл-сервером и NAS-устройством примерно такая же, как между аппаратным сетевым маршрутизатором и программным маршрутизатором на основе выделенного сервера.

Рис. 2. Пример NAS-системы хранения данных

Для того чтобы понять разницу между традиционным файл-сервером и NAS-устройством, давайте вспомним, что традиционный файл-сервер представляет собой выделенный компьютер (сервер), на котором хранится информация, доступная пользователям сети. Для хранения информации могут использоваться жесткие диски, устанавливаемые в сервер (как правило, они устанавливаются в специальные корзины), либо к серверу могут подключаться DAS-устройства. Администрирование файл-сервера производится с использованием серверной операционной системы. Такой подход к организации систем хранения данных в настоящее время является наиболее популярным в сегменте небольших локальных сетей, однако он имеет один существенный недостаток. Дело в том, что универсальный сервер (да еще в сочетании с серверной операционной системой) - это отнюдь не дешевое решение. В то же время большинство функциональных возможностей, присущих универсальному серверу, в файл-сервере просто не используется. Идея заключается в том, чтобы создать оптимизированный файл-сервер с оптимизированной операционной системой и сбалансированной конфигурацией. Именно эту концепцию и воплощает в себе NAS-устройство. В этом смысле NAS-устройства можно рассматривать как «тонкие» файл-серверы, или, как их иначе называют, файлеры (filers).

Кроме оптимизированной ОС, освобожденной от всех функций, не связанных с обслуживанием файловой системы и реализацией ввода-вывода данных, NAS-системы имеют оптимизированную по скорости доступа файловую систему. NAS-системы проектируются таким способом, что вся их вычислительная мощь фокусируется исключительно на операциях обслуживания и хранения файлов. Сама операционная система располагается во флэш-памяти и предустанавливается фирмой-производителем. Естественно, что с выходом новой версии ОС пользователь может самостоятельно «перепрошить» систему. Подсоединение NAS-устройств к сети и их конфигурирование представляет собой достаточно простую задачу и по силам любому опытному пользователю, не говоря уже о системном администраторе.

Таким образом, в сравнении с традиционными файловыми серверами NAS-устройства являются более производительными и менее дорогими. В настоящее время практически все NAS-устройства ориентированы на использование в сетях Ethernet (Fast Ethernet, Gigabit Ethernet) на основе протоколов TCP/IP. Доступ к устройствам NAS производится с помощью специальных протоколов доступа к файлам. Наиболее распространенными протоколами файлового доступа являются протоколы CIFS, NFS и DAFS.

CIFS (Common Internet File System System - общая файловая система Интернета) - это протокол, который обеспечивает доступ к файлам и сервисам на удаленных компьютерах (в том числе и в Интернет) и использует клиент-серверную модель взаимодействия. Клиент создает запрос к серверу на доступ к файлам, сервер выполняет запрос клиента и возвращает результат своей работы. Протокол CIFS традиционно используется в локальных сетях с ОС Windows для доступа к файлам. Для транспортировки данных CIFS использует TCP/IP-протокол. CIFS обеспечивает функциональность, похожую на FTP (File Transfer Protocol), но предоставляет клиентам улучшенный контроль над файлами. Он также позволяет разделять доступ к файлам между клиентами, используя блокирование и автоматическое восстановление связи с сервером в случае сбоя сети.

Протокол NFS (Network File System - сетевая файловая система) традиционно применяется на платформах UNIX и представляет собой совокупность распределенной файловой системы и сетевого протокола. В протоколе NFS также используется клиент-серверная модель взаимодействия. Протокол NFS обеспечивает доступ к файлам на удаленном хосте (сервере) так, как если бы они находились на компьютере пользователя. Для транспортировки данных NFS использует протокол TCP/IP. Для работы NFS в Интернeте был разработан протокол WebNFS.

Протокол DAFS (Direct Access File System - прямой доступ к файловой системе) - это стандартный протокол файлового доступа, который основан на NFS. Данный протокол позволяет прикладным задачам передавать данные в обход операционной системы и ее буферного пространства напрямую к транспортным ресурсам. Протокол DAFS обеспечивает высокие скорости файлового ввода-вывода и снижает загрузку процессора благодаря значительному уменьшению количества операций и прерываний, которые обычно необходимы при обработке сетевых протоколов.

DAFS проектировался с ориентацией на использование в кластерном и серверном окружении для баз данных и разнообразных Интернет-приложений, ориентированных на непрерывную работу. Он обеспечивает наименьшие задержки доступа к общим файловым ресурсам и данным, а также поддерживает интеллектуальные механизмы восстановления работоспособности системы и данных, что делает его привлекательным для использования в NAS-системах.

Резюмируя вышеизложенное, NAS-системы можно рекомендовать для использования в мультиплатформенных сетях в случае, когда требуется сетевой доступ к файлам и достаточно важными факторами являются простота установки администрирования системы хранения данных. Прекрасным примером является применение NAS в качестве файл-сервера в офисе небольшой компании.

Storage Area Network (SAN)

Собственно, SAN - это уже не отдельное устройство, а комплексное решение, представляющее собой специализированную сетевую инфраструктуру для хранения данных. Сети хранения данных интегрируются в виде отдельных специализированных подсетей в состав локальной (LAN) или глобальной (WAN) сети.

По сути, SAN-сети связывают один или несколько серверов (SAN-серверов) с одним или несколькими устройствами хранения данных. SAN-сети позволяют любому SAN-серверу получать доступ к любому устройству хранения данных, не загружая при этом ни другие серверы, ни локальную сеть. Кроме того, возможен обмен данными между устройствами хранения данных без участия серверов. Фактически SAN-сети позволяют очень большому числу пользователей хранить информацию в одном месте (с быстрым централизованным доступом) и совместно использовать ее. В качестве устройств хранения данных могут использоваться RAID-массивы, различные библиотеки (ленточные, магнитооптические и др.), а также JBOD-системы (массивы дисков, не объединенные в RAID).

Сети хранения данных начали интенсивно развиваться и внедряться лишь с 1999 года.

Подобно тому как локальные сети в принципе могут строиться на основе различных технологий и стандартов, для построения сетей SAN также могут применяться различные технологии. Но точно так же, как стандарт Ethernet (Fast Ethernet, Gigabit Ethernet) стал стандартом де-факто для локальный сетей, в сетях хранения данных доминирует стандарт Fibre Channel (FC). Собственно, именно развитие стандарта Fibre Channel привело к развитию самой концепции SAN. В то же время необходимо отметить, что все большую популярность приобретает стандарт iSCSI, на основе которого тоже возможно построение SAN-сетей.

Наряду со скоростными параметрами одним из важнейших преимуществ Fibre Channel является возможность работы на больших расстояниях и гибкость топологии. Концепция построения топологии сети хранения данных базируется на тех же принципах, что и традиционные локальные сети на основе коммутаторов и маршрутизаторов, что значительно упрощает построение многоузловых конфигураций систем.

Стоит отметить, что для передачи данных в стандарте Fibre Channel используются как оптоволоконные, так и медные кабели. При организации доступа к территориально удаленным узлам на расстоянии до 10 км используется стандартная аппаратура и одномодовое оптоволокно для передачи сигнала. Если же узлы разнесены на большее расстояние (десятки или даже сотни километров), применяются специальные усилители.

Топология SAN-сети

Типичный вариант SAN-сети на основе стандарта Fibre Channel показан на рис. 3. Инфраструктуру такой SAN-сети составляют устройства хранения данных с интерфейсом Fibre Channel, SAN-серверы (серверы, подключаемые как к локальной сети по интерфейсу Ethernet, так и к SAN-сети по интерфейсу Fiber Channel) и коммутационная фабрика (Fibre Channel Fabric), которая строится на основе Fibre Channel-коммутаторов (концентраторов) и оптимизирована для передачи больших блоков данных. Доступ сетевых пользователей к системе хранения данных реализуется через SAN-серверы. При этом важно, что трафик внутри SAN-сети отделен от IP-трафика локальной сети, что, безусловно, позволяет снизить загрузку локальной сети.

Рис. 3. Типичная схема SAN-сети

Преимущества SAN-сетей

К основным преимуществам технологии SAN можно отнести высокую производительность, высокий уровень доступности данных, отличную масштабируемость и управляемость, возможность консолидации и виртуализации данных.

Коммутационные фабрики Fiber Channel с неблокирующей архитектурой позволяют реализовать одновременный доступ множества SAN-серверов к устройствам хранения данных.

В архитектуре SAN данные могут легко перемещаться с одного устройства хранения данных на другое, что позволяет оптимизировать размещение данных. Это особенно важно в том случае, когда нескольким SAN-серверам требуется одновременный доступ к одним и тем же устройствам хранения данных. Отметим, что процесс консолидации данных невозможен в случае использования других технологий, как, например, при применении DAS-устройств, то есть устройств хранения данных, непосредственно подсоединяемых к серверам.

Другая возможность, предоставляемая архитектурой SAN, - это виртуализация данных. Идея виртуализации заключается в том, чтобы обеспечить SAN-серверам доступ не к отдельным устройствам хранения данных, а к ресурсам. То есть серверы должны «видеть» не устройства хранения данных, а виртуальные ресурсы. Для практической реализации виртуализации между SAN-серверами и дисковыми устройствами может размещаться специальное устройство виртуализации, к которому с одной стороны подключаются устройства хранения данных, а с другой - SAN-серверы. Кроме того, многие современные FC-коммутаторы и HBA-адаптеры предоставляют возможность реализации виртуализации.

Следующая возможность, предоставляемая SAN-сетями, - это реализация удаленного зеркалирования данных. Принцип зеркалирования данных заключается в дублировании информации на несколько носителей, что повышает надежность хранения информации. Примером простейшего случая зеркалирования данных может служить объединение двух дисков в RAID-массив уровня 1. В данном случае одна и та же информация записывается одновременно на два диска. Недостатком такого способа можно считать локальное расположение обоих дисков (как правило, диски находятся в одной и той же корзине или стойке). Сети хранения данных позволяют преодолеть этот недостаток и предоставляют возможность организации зеркалирования не просто отдельных устройств хранения данных, а самих SAN-сетей, которые могут быть удалены друг от друга на сотни километров.

Еще одно преимущество SAN-сетей заключается в простоте организации резервного копирования данных. Традиционная технология резервного копирования, которая используется в большинстве локальных сетей, требует выделенного Backup-сервера и, что особенно важно, выделенной полосы пропускания сети. Фактически во время операции резервного копирования сам сервер становится недоступным для пользователей локальной сети. Собственно, именно поэтому резервное копирование производится, как правило, в ночное время.

Архитектура сетей хранения данных позволяет принципиально по-иному подойти к проблеме резервного копирования. В этом случае Backup-сервер является составной частью SAN-сети и подключается непосредственно к коммутационной фабрике. В этом случае Backup-трафик оказывается изолированным от трафика локальной сети.

Оборудование, используемое для создания SAN-сетей

Как уже отмечалось, для развертывания SAN-сети требуются устройства хранения данных, SAN-серверы и оборудование для построения коммутационной фабрики. Коммутационные фабрики включают как устройства физического уровня (кабели, коннекторы), так и устройства подключения (Interconnect Device) для связи узлов SAN друг с другом, устройства трансляции (Translation devices), выполняющие функции преобразования протокола Fibre Channel (FC) в другие протоколы, например SCSI, FCP, FICON, Ethernet, ATM или SONET.

Кабели

Как уже отмечалось, для соединения SAN-устройств стандарт Fibre Channel допускает использование как волоконно-оптических, так и медных кабелей. При этом в одной SAN-сети могут применяться различные типы кабелей. Медный кабель используется для коротких расстояний (до 30 м), а волоконно-оптический - как для коротких, так и для расстояний до 10 км и больше. Применяют как многомодовый (Multimode), так и одномодовый (Singlemode) волоконно-оптические кабели, причем многомодовый используется для расстояний до 2 км, а одномодовый - для больших расстояний.

Сосуществование различных типов кабелей в пределах одной SAN-сети обеспечивается посредством специальных конверторов интерфейсов GBIC (Gigabit Interface Converter) и MIA (Media Interface Adapter).

В стандарте Fibre Channel предусмотрено несколько возможных скоростей передачи (см. таблицу). Отметим, что в настоящее время наиболее распространены FC-устройства стандартов 1, 2 и 4 GFC. При этом обеспечивается обратная совместимость более скоростных устройств с менее скоростными, то есть устройство стандарта 4 GFC автоматически поддерживает подключение устройств стандартов 1 и 2 GFC.

Устройства подключения (Interconnect Device)

В стандарте Fibre Channel допускается использование различных сетевых топологий подключения устройств, таких как «точка-точка» (Point-to-Point), кольцо с разделяемым доступом (Arbitrated Loop, FC-AL) и коммутируемая связная архитектура (switched fabric).

Топология «точка-точка» может применяться для подключения сервера к выделенной системе хранения данных. В этом случае данные не используются совместно с серверами SAN-сети. Фактически данная топология является вариантом DAS-системы.

Для реализации топологии «точка-точка», как минимум, необходим сервер, оснащенный адаптером Fibre Channel, и устройство хранения данных с интерфейсом Fibre Channel.

Топология кольца с разделенным доступом (FC-AL) подразумевает схему подключения устройств, при котором данные передаются по логически замкнутому контуру. При топологии кольца FC-AL в качестве устройств подключения могут выступать концентраторы или коммутаторы Fibre Channel. При использовании концентраторов полоса пропускания делится между всеми узлами кольца, в то время как каждый порт коммутатора предоставляет протокольную полосу пропускания для каждого узла.

На рис. 4 показан пример кольца Fibre Channel с разделением доступа.

Рис. 4. Пример кольца Fibre Channel с разделением доступа

Конфигурация аналогична физической звезде и логическому кольцу, используемым в локальных сетях на базе технологии Token Ring. Кроме того, как и в сетях Token Ring, данные перемещаются по кольцу в одном направлении, но, в отличие от сетей Token Ring, устройство может запросить право на передачу данных, а не ждать получения пустого маркера от коммутатора. Кольца Fibre Channel с разделением доступа могут адресовать до 127 портов, однако, как показывает практика, типичные кольца FC-AL содержат до 12 узлов, а после подключения 50 узлов производительность катастрофически снижается.

Топология коммутируемой связной архитектуры (Fibre Channel switched-fabric) реализуется на базе Fibre Channel-коммутаторов. В данной топологии каждое устройство имеет логическое подключение к любому другому устройству. Фактически Fibre Channel-коммутаторы связной архитектуры выполняют те же функции, что и традиционные Ethernet-коммутаторы. Напомним, что, в отличие от концентратора, коммутатор - это высокоскоростное устройство, которое обеспечивает подключение по схеме «каждый с каждым» и обрабатывает несколько одновременных подключений. Любой узел, подключенный к Fibre Channel-коммутатору, получает протокольную полосу пропускания.

В большинстве случаев при создании крупных SAN-сетей используется смешанная топология. На нижнем уровне применяются FC-AL-кольца, подключенные к малопроизводительным коммутаторам, которые, в свою очередь, подключаются к высокоскоростным коммутаторам, обеспечивающим максимально возможную пропускную способность. Несколько коммутаторов могут быть соединены друг с другом.

Устройства трансляции

Устройства трансляции являются промежуточными устройствами, выполняющими преобразование протокола Fibre Channel в протоколы более высоких уровней. Эти устройства предназначены для соединения Fibre Channel-сети с внешней WAN-сетью, локальной сетью, а также для присоединения к Fibre Channel-сети различных устройств и серверов. К таким устройствам относятся мосты (Bridge), Fibre Channel-адаптеры (Host Bus Adapters (HBA), маршрутизаторы, шлюзы и сетевые адаптеры. Классификация устройств трансляции показана на рис. 5.

Рис. 5. Классификация устройств трансляции

Наиболее распространенными устройствами трансляции являются HBA-адаптеры с интерфейсом PCI, которые применяются для подключения серверов к сети Fibre Channel. Сетевые адаптеры позволяют подключать локальные Ethernet-сети к сетям Fibre Channel. Мосты используются для подключения устройств хранения данных с SCSI интерфейсом к сети на базе Fibre Channel. Cледует отметить, что в последнее время практически все устройства хранения данных, которые предназначены для применения в SAN, имеют встроенный Fibre Channel и не требуют использования мостов.

Устройства хранения данных

В качестве устройств хранения данных в SAN-сетях могут использоваться как жесткие диски, так и ленточные накопители. Если говорить о возможных конфигурациях применения жестких дисков в качестве устройств хранения данных в SAN-сетях, то это могут быть как массивы JBOD, так и RAID-массивы дисков. Традиционно устройства хранения данных для SAN-сетей выпускаются в виде внешних стоек или корзин, оснащенных специализированным RAID-контроллером. В отличие от NAS- или DAS-устройств, устройства для SAN-систем оснащаются Fibre Channel-интерфейсом. При этом сами диски могут иметь как SCSI-, так и SATA-интерфейс.

Кроме устройств хранения на основе жестких дисков, в SAN-сетях широкое применение находят ленточные накопители и библиотеки.

SAN-серверы

Серверы для сетей SAN отличаются от обычных серверов приложений только одной деталью. Кроме сетевого Ethernet-адаптера, для взаимодействия сервера с локальной сетью они оснащаются HBA-адаптером, что позволяет подключать их к SAN-сетям на основе Fibre Channel.

Системы хранения данных компании Intel

Далее мы рассмотрим несколько конкретных примеров устройств хранения данных компании Intel. Строго говоря, компания Intel не выпускает законченных решений и занимается разработкой и производством платформ и отдельных компонентов для построения систем хранения данных. На основе данных платформ многие компании (в том числе и целый ряд российских компаний) производят уже законченные решения и продают их под своими логотипами.

Intel Entry Storage System SS4000-E

Система хранения данных Intel Entry Storage System SS4000-E представляет собой NAS-устройство, предназначенное для применения в небольших и средних офисах и многоплатформенных локальных сетях. При использовании системы Intel Entry Storage System SS4000-E разделяемый сетевой доступ к данным получают клиенты на основе Windows-, Linux- и Macintosh-платформ. Кроме того, Intel Entry Storage System SS4000-E может выступать как в роли DHCP-сервера, так и DHCP-клиента.

Система хранения данных Intel Entry Storage System SS4000-E представляет собой компактную внешнюю стойку с возможностью установки до четырех дисков с интерфейсом SATA (рис. 6). Таким образом, максимальная емкость системы может составлять 2 Тбайт при использовании дисков емкостью 500 Гбайт.

Рис. 6. Система хранения данных Intel Entry Storage System SS4000-E

В системе Intel Entry Storage System SS4000-E применяется SATA RAID-контроллер с поддержкой уровней RAID-массивов 1, 5 и 10. Поскольку данная система является NAS-устройством, то есть фактически «тонким» файл-сервером, система хранения данных должна иметь специализированный процессор, память и прошитую операционную систему. В качестве процессора в системе Intel Entry Storage System SS4000-E применяется Intel 80219 с тактовой частотой 400 МГц. Кроме того, система оснащена 256 Мбайт памяти DDR и 32 Мбайт флэш-памяти для хранения операционной системы. В качестве операционной системы используется Linux Kernel 2.6.

Для подключения к локальной сети в системе предусмотрен двухканальный гигабитный сетевой контроллер. Кроме того, имеются также два порта USB.

Устройство хранения данных Intel Entry Storage System SS4000-E поддерживает протоколы CIFS/SMB, NFS и FTP, а настройка устройства реализуется с использованием web-интерфейса.

В случае применения Windows-клиентов (поддерживаются ОС Windows 2000/2003/XP) дополнительно имеется возможность реализации резервного копирования и восстановления данных.

Intel Storage System SSR212CC

Система Intel Storage System SSR212CC представляет собой универсальную платформу для создания систем хранения данных типа DAS, NAS и SAN. Эта система выполнена в корпусе высотой 2 U и предназначена для монтажа в стандартную 19-дюймовую стойку (рис. 7). Система Intel Storage System SSR212CC поддерживает установку до 12 дисков с интерфейсом SATA или SATA II (поддерживается функция горячей замены), что позволяет наращивать емкость системы до 6 Тбайт при использовании дисков емкостью по 550 Гбайт.

Рис. 7. Система хранения данных Intel Storage System SSR212CC

Фактически система Intel Storage System SSR212CC представляет собой полноценный высокопроизводительный сервер, функционирующий под управлением операционных систем Red Hat Enterprise Linux 4.0, Microsoft Windows Storage Server 2003, Microsoft Windows Server 2003 Enterprise Edition и Microsoft Windows Server 2003 Standard Edition.

Основу сервера составляет процессор Intel Xeon с тактовой частотой 2,8 ГГц (частота FSB 800 МГц, размер L2-кэша 1 Мбайт). Система поддерживает использование памяти SDRAM DDR2-400 с ECC максимальным объемом до 12 Гбайт (для установки модулей памяти предусмотрено шесть DIMM-слотов).

Система Intel Storage System SSR212CC оснащена двумя RAID-контроллерами Intel RAID Controller SRCS28Xs с возможностью создания RAID-массивов уровней 0, 1, 10, 5 и 50. Кроме того, система Intel Storage System SSR212CC имеет двухканальный гигабитный сетевой контроллер.

Intel Storage System SSR212MA

Система Intel Storage System SSR212MA представляет собой платформу для создания систем хранения данных в IP SAN-сетях на основе iSCSI.

Данная система выполнена в корпусе высотой 2 U и предназначена для монтажа в стандартную 19-дюймовую стойку. Система Intel Storage System SSR212MA поддерживает установку до 12 дисков с интерфейсом SATA (поддерживается функция горячей замены), что позволяет наращивать емкость системы до 6 Тбайт при использовании дисков емкостью по 550 Гбайт.

По своей аппаратной конфигурации система Intel Storage System SSR212MA не отличается от системы Intel Storage System SSR212CC.

Зависимость бизнес-процессов предприятия от ИТ-сферы постоянно растет. На сегодня вопросу непрерывности работы ИТ-сервисов уделяют внимание не только крупные компании, но и представители среднего, а зачастую и малого бизнеса.

Одним из центральных элементов обеспечения отказоустойчивости является система хранения данных (СХД) - устройство на котором централизовано храниться вся информация. СХД характеризуется высокой масштабируемостью, отказоустойчивостью, возможностью выполнять все сервисные операции без остановки работы устройства (в том числе замену компонентов). Но стоимость даже базовой модели измеряется в десятках тысяч долларов. Например, Fujitsu ETERNUS DX100 с 12-ю дисками Nearline SAS 1Tb SFF (RAID10 6TB) стоит порядка 21 000 USD , что для небольшой компании очень дорого.

В нашей статье мы предлагаем рассмотреть варианты организации бюджетного хранилища , которое не проигрывает по производительности и надежности классическим системам. Для его реализации предлагаем использовать CEPH .

Что такое CEPH и как он работает?

CEPH – хранилище на базе свободного ПО, представляет из себя объединение дисковых пространств нескольких серверов (количество серверов на практике измеряется десятками и сотнями). CEPH позволяет создать легкомасштабируемое хранилище с высокой производительностью и избыточностью ресурсов. CEPH может использоваться как в качестве объектного хранилища (служить для хранения файлов) так и в качестве блочного устройства (отдача виртуальных жестких дисков).

Отказоустойчивость хранилища обеспечивается репликацией каждого блока данных на несколько серверов. Количество одновременно хранимых копий каждого блока называется фактором репликации, по умолчанию его значение равно 2. Схема работы хранилища показана на рисунке 1, как видим информация разбивается на блоки, каждый из которых распределяется по двум разным нодам.

Рисунок 1 - Распределение блоков данных

Если на серверах не используются отказоустойчивые дисковые массивы, для надежного хранения данных рекомендуется использовать более высокое значение фактора репликации. В случае выхода из строя одного из серверов CEPH фиксирует недоступность блоков данных (рисунок 2), которые на нем размещены, ожидает определенное время (параметр настраивается, по умолчанию 300 сек.), после чего начинает воссоздание недостающих блоков информации в другом месте (рисунок 3).

Рисунок 2 - Выход из строя одной ноды

Рисунок 3 - Восстановление избыточности

Аналогично, в случае добавления в кластер нового сервера происходит ребаллансировка хранилища с целью равномерного заполнения дисков на всех нодах. Механизм который контролирует процессы распределения блоков информации в кластере CEPH называется CRUSH.

Для получения высокой производительности дискового пространства в кластерах CEPH рекомендуется использовать функционал cache tiering (многоуровневое кэширование). Смысл его заключается в том, чтобы создать отдельный высокопроизводительный пул и использовать его для кэширования, основная же информация будет размещена на более дешевых дисках (рисунок 4).

Рисунок 4 - Логическое представление дисковых пулов

Многоуровневое кэширование будет работать следующим образом: запросы клиентов на запись будут записываться в самый быстрый пул, после чего перемещаться на уровень хранения. Аналогично по запросам на чтение – информация при обращении будет подниматься на уровень кэширования и обрабатываться. Данные продолжают оставаться на уровне кэша пока не становятся неактивными или пока не теряют актуальность (рисунок 5). Стоит отметить, что кэширование можно настроить только на чтение, в этом случае запросы на запись будут заноситься прямо в пул хранения.

Рисунок 5 - Принцип работы кэш-тирринг

Рассмотрим реальные сценарии использования CEPH в организации для создания хранилища данных. В качестве потенциального клиента рассматриваются организации малого и среднего бизнеса, где будет наиболее востребована эта технология. Мы рассчитали 3 сценария использования описанного решения:

Производственное или торговое предприятие с требованием к доступности внутренней ERP системы и файлового хранилища 99,98% в год, 24/7.
Организация, которой для ее бизнес-задач требуется развернуть локальное частное облако.
Очень бюджетное решение для организации отказоустойчивого блочного хранилища данных, полностью независимое от аппаратного обеспечения с доступностью 99,98% в год и недорогим масштабированием.

Сценарий использования 1. Хранилище данных на базе CEPH

Рассмотрим реальный пример применения CEPH в организации. Например, нам требуется отказоустойчивое производительное хранилище объемом 6 Тб, но затраты даже на базовую модель СХД с дисками составляют порядка $21 000 .

Собираем хранилище на базе CEPH. В качестве серверов предлагаем использовать решение Supermicro Twin (Рисунок 6). Продукт представляет собой 4 серверные платформы в едином корпусе высотой 2 юнита, все основные узлы устройства дублируются, что обеспечивает его непрерывное функционирование. Для реализации нашей задачи будет достаточно использовать 3 ноды, 4-я будет в запасе на будущее.

Рисунок 6 - Supermicro Twin

Комплектуем каждую из нод следующим образом: 32 Гб ОЗУ, 4-х ядерный процессор 2,5 Ггц, 4 SATA диска по 2 Тб для пула хранения объединяем в 2 массива RAID1, 2 SSD диска для пула кэширования также объединяем в RAID1 . Стоимость всего проекта указана в таблице 1.

Таблица 1. Комплектующие для хранилища на базе CEPH

Комплектующие	Цена, USD	Кол-во	Стоимость, USD
	4 999,28	1	4 999,28
	139,28	6	835,68
Процессор Ivy Bridge-EP 4-Core 2.5GHz (LGA2011, 10MB, 80W, 22nm) Tray	366,00	3	1 098,00
	416,00	12	4 992,00
	641,00	6	3 846,00
ИТОГО			15 770,96

Вывод: В результате построения хранилища получим дисковый массив 6Tb c затратами порядка $16 000 , что на 25% меньше чем закупка минимальной СХД, при этом на текущих мощностях можно запустить виртуальные машины, работающие с хранилищем, тем самым сэкономить на покупке дополнительных серверов. По сути – это законченное решение.

Серверы, из которых строится хранилище, можно использовать не только как вместилище жестких дисков, но в качестве носителей виртуальных машин или серверов приложений.

Сценарий использования 2. Построение частного облака

Задача состоит в том, чтобы развернуть инфраструктуру для построения частного облака с минимальными затратами.

Построение даже небольшого облака состоящего из например из 3-х носителей примерно в $36 000 : $21 000 – стоимость СХД + $5000 за каждый сервер с 50% наполнением.

Использование CEPH в качестве хранилища позволяет совместить вычислительные и дисковые ресурсы на одном оборудовании. То есть не нужно закупать отдельно СХД - для размещения виртуальных машин будут использоваться диски установленные непосредственно в серверы.

Краткая справка:
Классическая облачная структура представляет из себя кластер виртуальных машин, функционирование которых обеспечивают 2 основных аппаратных компонента:

Вычислительная часть (compute) - серверы, заполненные оперативной памятью и процессорами, ресурсы которых используются виртуальными машинами для вычислений
Система хранения данных (storage) – устройство наполненное жесткими дисками, на котором хранятся все данные.

В качестве оборудования берем те же серверы Supermicro, но ставим более мощные процессоры – 8-ми ядерные с частотой 2,6 GHz, а также 96 Гб ОЗУ в каждую ноду , так как система будет использоваться не только для хранения информации, но и для работы виртуальных машин. Набор дисков берем аналогичный первому сценарию.

Таблица 2. Комплектующие для частного облака на базе CEPH

Комплектующие	Цена, USD	Кол-во	Стоимость, USD
Supermicro Twin 2027PR-HTR: 4 hot-pluggable systems (nodes) in a 2U form factor. Dual socket R (LGA 2011), Up to 512GB ECC RDIMM, Integrated IPMI 2.0 with KVM and Dedicated LAN. 6x 2.5" Hot-swap SATA HDD Bays. 2000W Redundant Power Supplies	4 999,28	1	4 999,28
Модуль памяти Samsung DDR3 16GB Registered ECC 1866Mhz 1.5V, Dual rank	139,28	18	2 507,04
Процессор Intel Xeon E5-2650V2 Ivy Bridge-EP 8-Core 2.6GHz (LGA2011, 20MB, 95W, 32nm) Tray	1 416,18	3	4 248,54
Жесткий диск SATA 2TB 2.5" Enterprise Capacity SATA 6Gb/s 7200rpm 128Mb 512E	416	12	4 992,00
Твердотельный накопитель SSD 2.5"" 400GB DC S3710 Series.	641	6	3 846,00
ИТОГО			20 592,86

Собранное облако будет иметь следующие ресурсы с учетом сохранения стабильности при выходе из строя 1-й ноды:

Оперативная память: 120 Гб
Дисковое пространство 6000 Гб
Процессорные ядра физические: 16 Шт.

Собранный кластер сможет поддерживать порядка 10 средних виртуальных машин с характеристиками: 12 ГБ ОЗУ / 4 процессорных ядра / 400 ГБ дискового пространства.

Также стоит учесть что все 3 сервера заполнены только на 50% и при необходимости их можно доукомплектовать, тем самым увеличив пул ресурсов для облака в 2 раза.

Вывод: Как видим, мы получили как полноценный отказоустойчивый кластер виртуальных машин, так и избыточное хранилище данных - выход из строя любого из серверов не критичен – система продолжит функционирование без остановки, при этом стоимость решения примерно в 1,5 раза ниже , чем купить СХД и отдельные сервера.

Сценарий использования 3. Построение сверхдешевого хранилища данных

Если бюджет совсем ограничен и нет денег на закупку оборудования описанного выше, можно закупить серверы бывшие в употреблении, но на дисках экономить не стоит – их настоятельно рекомендуется купить новые.

Предлагаем рассмотреть следующую структуру: закупается 4 серверные ноды, в каждый сервер ставиться по 1 SSD-диску для кэширования и по 3 SATA диска . Серверы Supermicro с 48 ГБ ОЗУ и процессорами линейки 5600 можно сейчас купить примерно за $800 .

Диски не будут собираться в отказоустойчивые массивы на каждом сервере, а будут представлены как отдельное устройство. В связи с этим для повышения надежности хранилища будем использовать фактор репликации 3. То есть у каждого блока будет 3 копии. При такой архитектуре зеркалирования дисков SSD кеша не требуется, так как происходит автоматическое дублирование информации на другие ноды.

Таблица 3. Комплектующие для стореджа

Вывод: В случае необходимости в данном решении можно использовать диски большего объема, либо заменить их на SAS, если нужно получить максимальную производительность для работы СУБД. В данном примере в результате получим хранилище объемом 8 ТБ с очень низкой стоимостью и очень высокой отказоустойчивостью. Цена одного терабайта получилась в 3,8 раза дешевле , чем при использовании промышленной СХД за $21000.

Итоговая таблица, выводы

Конфигурация	СХД Fujitsu ETERNUS DX100 + 12 Nearline SAS 1Tb SFF (RAID10)	СХД Fujitsu ETERNUS DX100 + 12 Nearline SAS 1Tb SFF (RAID10) + Supermicro Twin	Наш сценарий 1: хранилище на базе CEPH	Наш сценарий 2: построение частного облака	Нашсценарий 3: построение сверхдешевого хранилища
Полезный обьем, ГБ	6 000	6 000	6 000	6000	8 000
Цена, USD	21000	36000	15 770	20 592	7 324
Стоимость 1 ГБ, USD	3,5	6	2,63	3,43	0,92
Количество IOPs* (чтение 70%/запись 30%, Размер блока 4К)	760	760	700	700	675
Назначение	Хранилище	Хранилище + Вычисление	Хранилище + Вычисление	Хранилище + Вычисление	Хранилище + Вычисление

*Расчет количества IOPs выполнен для созданных массивов из дисков NL SAS на СХД и дисков SATA на сторедже CEPH, кэширование отключалось для чистоты полученных значений. При использовании кэширования показатели IOPs будут значительно выше до момента заполнения кэша.

В итоге можно сказать, что на основе кластера CEPH можно строить надежные и дешевые хранилища данных. Как показали расчеты, использовать ноды кластера только для хранения не очень эффективно – решение выходит дешевле чем закупить СХД, но не на много – в нашем примере стоимость хранилища на CEPH была примерно на 25% меньше чем Fujitsu DX100. По-настоящему экономия ощущается в результате совмещения вычислительной части и хранилища на одном оборудовании - в таком случае стоимость решения будет в 1,8 раз меньше, чем при построении классической структуры с применением выделенного хранилища и отдельных хост-машин.

Компания EFSOL реализует данное решение по индивидуальным требованиям. Мы можем использовать имеющееся у вас оборудование, что ещё более снизит капитальные затраты на внедрение системы. Свяжитесь с нами и мы проведем обследование вашего оборудования на предмет его использования при создании СХД.

Эволюционировали от простейших карт и лент с дырочками, использовавшихся для хранения программ и данных, до накопителей на твердом теле. На этом пути было создано множество непохожих друг на друг устройств – это и магнитные ленты, и барабаны, и диски, и оптические диски. Часть из них осталась в прошлом: это перфорированные носители, магнитные барабаны, гибкие (флоппи) диски и оптические диски, а другие живут и будут жить долго. То, что сегодня ушло, можно посмотреть и поностальгировать в музее устаревших медийных технологий Museum Of Obsolete Media . И в то же время, казалось бы обреченное, остается. В свое время предсказывали конец магнитным лентам, однако сегодня их существованию ничто не мешает, точно то же самое относится и к жестким вращающимся дискам (HDD), пророчества об их конце лишены какого-либо основания, они достигли такого уровня совершенства, что за ними сохранится их собственная ниша, невзирая ни на какие новации.

На нынешнем многоуровневом пейзаже СХД присутствуют ленточные библиотеки для резервного копирования и архивации, быстрые и медленные диски HDD, твердотельные диски SSD на флэш-памяти, мимикрирующие (интерфейсы, форм-фактор) под HDD прежде всего для согласования с существующим программным обеспечением и конструктивами, а также новейшие флэш-накопители в формате карт, подключаемых по интерфейсу NVMe. Эта картина сложилась под влиянием нескольких факторов, среди которых схема Джона фон Неймана, которая делит память на оперативную, непосредственно доступную процессору, и вторичную, предназначенную для хранения данных. Это деление укрепилось после того, как на смену сохраняющей свое текущее состояние ферритовой памяти пришла полупроводниковая, требующая загрузки программ для начала работы. И конечно же влияет удельная стоимость хранения, чем быстрее устройство, тем эта стоимость выше, поэтому в обозримом будущем останется место и для лент, и для дисков. Подробнее об эволюции СХД .

Как хранили данные раньше

Носители данных, использующие перфорацию

Перфокарты

До появления компьютеров на протяжении столетий в простейших устройствах с программным управлением (ткацкие станки, шарманки, часы-карильоны) использовали перфорированные носители самых разных форматов и размеров и барабаны со штифтами. Сохраняя этот принцип записи, Герман Холлерит, основатель компании TMC, позже вошедшей в IBM , сделал открытие. Именно, в 1890 году он осознал, как можно использовать перфокарты для записи и обработки данных. Он реализовал эту идею при обработке статистических данных, полученных в ходе переписи населения, а позже перенес ее и в другие приложения, чем обеспечил благополучие IBM на десятилетия вперед.

Почему именно карты? Их можно сортировать и к ним может быть обеспечен, условно говоря, «прямой доступ» с тем, чтобы на специальном устройстве-табуляторе, следуя несложной программе, частично автоматизировать обработку данных.

Формат карт менялся, и с 20-х годов международным стандартом стали 80-колонные карты. Монополия на них до начала 60-х принадлежала IBM.

Эти простые картонки с прямоугольными отверстиями оставались доминирующим носителем данных на протяжении нескольких десятилетий, они производились миллиардами. Об объемах потребления карт можно судить хотя бы по одному примеру Центра расшифровки немецких радиограмм в Блечли Парке: неделя работы – 2 миллиона карт, это среднего размера грузовик! Послевоенный бизнес тоже строился на хранении данных на картах. Говоря о перфокартах, следует помнить, что они использовались в Германии для сбора данных о людях, подлежащих уничтожению.

Перфоленты

Казалось бы, перфоленты – более практичные носители, но в бизнесе они практически не использовались, хотя устройства для ввода и вывода были существенно проще и легче. Их распространению мешал последовательный доступ, меньшая емкость и низкие скорости ввода и вывода, сложность архивации. Узкие 5-колонные перфоленты с 1857 года использовали для подготовки и последующей передачи данных по телеграфу, с тем чтобы не ограничить скорость ввода физическими возможностями оператора и тем самым лучше использовать пропускную способность канала. Широкие 24-колонные перфоленты были созданы для записи программ в электромеханическом калькуляторе Harvard Mark I в 1937 году. Как носитель, не подверженный воздействию разного электромагнитного и гамма-изучения, перфоленты широко использовались в качестве бортовых устройств, они до сих пор используются в некоторых оборонных системах.

Магнитные ленты

Способ записи звука на катушечный магнитный носитель, сначала на проволоку был предложен в 1928 году. Магнитофон такого типа использовался в UNIVAC-1. Началом истории компьютерных магнитных лент считается IBM Model 726, входившая в состав компьютера IBM Model 701. Ширина ленты для IBM Model 726 и других устройств того времени была равна одному дюйму, но такие ленты оказались неудобны в эксплуатации. Из-за их большой массы требовались мощные приводы, поэтому вскоре им на смену пришли полудюймовые «открытые ленты» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Они имели три плотности записи 800, 1600 и 6250. Такие ленты со съемными кольцами для защиты от записи стали стандартом для архивирования данных до конца 80-х годов.

В Model 726 использовали катушки от кинопленки, соответственно ширина ленты оказалось равной одному дюйму, а диаметр бобины – 12 дюймам. Model 726 была способна сохранять 1,4 Мбайт данных, плотность 9-дорожечной записи составляла 800 бит на дюйм; при движении ленты со скоростью 75 дюймов в секунду в компьютер передавалось 7500 байт в секунду. Сама магнитная лента для Model 726 была разработана компанией 3M (теперь Imation).

Довольно скоро от дюймовых лент отказались, из-за их веса при работе в старт-стопном режиме требовались слишком мощные приводы и вакуумные карманы, и на длительный период установилось почти монопольное господство полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ. полудюймовых «открытых лент» (open reel), в которых перемотка осуществлялась с одной бобины на другую (reel-to-reel). Плотность записи повысилась с 800 до 1600 и даже 6250 бит на дюйм. Эти ленты со съемными кольцами для защиты от записи были популярны на компьютерах типа ЕС и СМ ЭВМ.

Стимулом к дальнейшему развитию стало то, что в середине 80-х емкости жестких дисков стали измеряться сотнями мегабайт или даже гигабайтами поэтому для них понадобились накопители резервирования, соответствующей емкости. Неудобства открытых лент были понятны, даже в быту кассетные магнитофоны быстро вытеснили катушечные. Естественный переход к картриджам происходил двумя путями: один – создавать специализированные устройства, ориентированные на компьютеры (по линейной технологии): второй – обратиться к технологиям, изобретенным для видеозаписи и аудиозаписи с вращающимися головками (по винтовой технологии). С тех пор сложилось разделение на два лагеря, которое придает рынку накопителей неповторимую специфику.

За тридцать лет было разработано несколько десятков стандартов картриджей, наиболее распространенный сегодня стандарт LTO (Linear Tape-Open), в процессе которых картриджи совершенствовались, повышалась их надежность, емкость, скорость передачи и другие эксплуатационные характеристики. Современный картридж – это сложное устройство, снабженное процессором и флэш-памятью.

Переходу на картриджи способствовало то, что сейчас ленты работают исключительно в потоковом режиме. Картриджи используются либо в автономных устройствах, либо в составе ленточных библиотек. Первой роботизированную библиотеку на 6 тыс. картриджей выпустила компания StorageTek в 1987 году.

Аналитики и производители дисков не раз предрекали лентам кончину. Известен лозунг «Tapes must die», но они живы и будут жить долго, потому что рассчитаны на многолетнее хранение больших архивов. Размер бизнеса, связанного с производством лентопротяжек, лент и ленточных библиотек в 2017 году оценивался примерно в $5 млрд. И чем больше становятся объемы информации, которые можно сохранить на жестких дисках, тем больше потребность в архивировании и создании резервных копий. На чем? Разумеется, на лентах: экономически оправданной по стоимости хранения альтернативы магнитным лентам пока не найдено. Нынешнее 8-е поколение стандарта LTO позволяет штатно сохранить до 12 Тб, а в компрессированном режиме 30 Тб, перспективе эти цифры возрастут на порядок и более, при смене поколений повышаются не только количественные показатели, но и другие эксплуатационные характеристики.

Магнитный барабан

Временным способом для разрешения противоречий между технологией последовательной записи на ленту и необходимостью прямого доступа к данным на внешнем устройстве стал магнитный барабан, точнее цилиндр с неподвижными головками. Его изобрел австриец Густав Тучек в 1932 году

Магнитным является не барабан, у которого, как известно, рабочей поверхностью служит днище, а цилиндр с нанесенным на его боковую поверхность ферримагнитным покрытием, разделенным на дорожки, а они, в свою очередь, делятся на секторы. Над каждой из дорожек размещена собственная головка чтения/записи, причем все головки могут работать одновременно, то есть операции чтения/записи осуществляются в параллельном режиме.

Барабаны использовались не только в качестве периферийного устройства. До перехода на ферритовые сердечники оперативная память была чрезвычайно дорогой и ненадежной, поэтому в ряде случаев барабаны играли роль оперативной памяти, были даже компьютеры, называвшиеся барабанными. Обычно магнитные барабаны использовались для оперативной (часто изменяемой) или важной информации, к которой был нужен быстрый доступ. В условиях ограничений на размер оперативной памяти из-за ее дороговизны на них хранилась копия операционной системы, записывались промежуточные результаты выполнения программ. На барабанах впервые была реализована процедура свопинга, представляющая виртуализацию памяти за счет пространства на барабане, а позже и на диске.

Накопители на магнитных барабанах имели емкость меньше, чем диски, но работали быстрее, потому что в отличие от дисков в них головки неподвижны, что исключает время, требуемое для подвода к нужной дорожке.

Барабаны активно использовались вплоть до начала 80-х годов, некоторое время они жили параллельно с дисками. Барабанами комплектовалась ЭВМ БЭСМ 6 и ее современники. Из открытых источников известно, что последние барабаны простояли в системах управления ракетами Минитмэн до середины 90-х годов.

Гибкие диски

Активная жизнь гибких (floppy) дисков растянулась на 30 лет с конца семидесятых до конца девяностых. Они оказались чрезвычайно востребованными в связи тем, что ПК появились раньше, чем у пользователей появилась возможность передачи данных по сети. В этих условия флоппики служили не только по прямому назначению для хранения резервных копий, но, пожалуй, в большей степени для обмена данными между пользователями, вот почему их еще называют sneaker, как кроссовки, типичную обувь программистов. Обмениваясь флоппиками, они создавали своего рода сеть – sneakernet.

Существовало 3 основных типа дисков и множество различных модификаций. Флопии-диски диаметром 8 дюймов были созданы в 1967 году в IBM , они задумывались как устройство первоначальной загрузки (bootstrap) для мэйнфреймов IBM/370 на замену более дорогой постоянной памяти (non-volatile read-only memory), ею комплектовалось предшествующее поколение IBM/360. Однако, осознав коммерческую ценность новинки, в 1971 IBM превратила флоппи в самостоятельный продукт, а в 1973 году руководитель разработки Алан Шугарт создал компанию Shugart Associates, ставшую ведущим производителей 8-ми дюймовых дисков с максимальной емкостью 1,2 Мбайта. Эти большие диски использовали на ПК, выпускавшихся до появления IBM XT. Особую популярность этот тип дискет получил благодаря операционной системе CP/M Гарри Килдала.

Что же касается дискет с диаметром 5,25 дюйма, то их появление напоминает анекдот о Николае II, который дольно своеобразно объясняет увеличенную ширину российской железнодорожной колеи по сравнению с европейской. В нашем случае Эн Ванг, хозяин компании Wang Laboratories, встретился в баре с выходцами из Shugart Associates, которые предложили сделать для его компьютеров более дешевый дисковод, но они не могли решиться на конкретный диаметр. Тогда Ванг взял коктейльную салфетку и сказал, что ему кажется, что размер должен быть таким. Пятидюймовые диски емкостью 360 и 720 Кб выпускали до конца девяностых годов, они были современниками компьютеров IBM XT и IBM AT, операционных систем MS-DOS и DR-DOS, верно служа становлению новой отрасли.

Предложенный в 1983 году Sony альтернативный картридж имел размер 90,0 мм × 94,0 мм, но его по традиции стали называть 3,5 дюймовым. В американской профессиональной среде он зовется стиффи (stiffy disk, перевод стоит посмотреть в словаре). После ряда усовершенствований в 1987 году был принят отраслевой стандарт 3,5-inch HD (High Density) с емкостью 1,44 Мб. Поначалу такими дисками комплектовали IBM PS/2 и Macintosh IIx, а позже он стал универсальным стандартом для PC и Macintosh. Попытки сделать во второй половине девяностых диски большей емкости Extended Density (ED) 2,88 Мб, а также казавшиеся перспективными магнитооптические Floptical disk 25 Мб, SuperDisk 120-240 Мб и HiFD 150-240 Мб рыночного успеха не имели.

Почему возникла необходимость в СХД

Из проведенного исследования IDC Perspectives следует, что хранение данных занимает второе место среди расходов на ИТ и составляет примерно 23% от всех расходов. По информации The InfoPro, Wave 11 «прирост расходов на СХД в средней компании Fortune 1000 превышает 50% в год».

По общему мнению аналитиков, в организациях по всему миру ежеминутно вырастают объемы хранимой и обрабатываемой информации. Уникальная информация становится все дороже, ее объём каждый год увеличивается многократно, а её хранение требует затрат. Ввиду этого организации стремятся не только формировать развитие инфраструктуры хранения данных, но и изыскивать возможности улучшения и повышения экономической эффективности СХД: снижения энергопотребления, расходов на сервис, общей стоимости владения и закупки систем резервного копирования и хранения.

Рост объемов данных, возросшие требования к надежности хранения и быстродействию доступа к данным делают необходимым выделение средств хранения в отдельную подсистему вычислительного комплекса (ВК). Возможность доступа к данным и управления ими является необходимым условием для выполнения бизнес-процессов . Безвозвратная потеря данных подвергает бизнес серьезной опасности. Утраченные вычислительные ресурсы можно восстановить, а утраченные данные, при отсутствии грамотно спроектированной и внедренной системы резервирования , уже не подлежат восстановлению.

Происходит заметное развитие потребности не только в приобретении СХД корпоративными клиентами, но и в строгом учете, аудите и мониторинге использования дорогостоящих ресурсов. Нет ничего хуже остановки бизнес-процессов из-за невозможности своевременно получить необходимые данные (или полной их утраты), а ведь это может повлечь за собой необратимые последствия.

Факторы, способствующие развитию СХД

Основным фактором был рост конкуренции и усложнение ее характера во всех сегментах рынка. В Западной Европе эти явления можно было наблюдать и раньше, а в Восточной Европе - в последние пять лет. Пять лет назад у мобильного оператора было 25-25 млн зарегистрированных SIM-карт, а сегодня - 50-70 млн. Таким образом, мобильной связью от этих компаний обеспечен практически каждый житель страны, а ведь есть еще региональные операторы. Вот реальный уровень конкуренции: на рынке не осталось никого, кто не имел бы мобильного телефона. И теперь операторы не могут экстенсивно расти за счет продажи своих продуктов тем, у кого аналогичных продуктов еще нет. Им нужны клиенты, которые работают с конкурентами, и необходимо понять, как их получить. Надо разобраться в их поведении, в том, чего они хотят. Чтобы извлечь полезную информацию из доступных данных, необходимо поместить их в хранилище .

Еще один фактор - появление на рынке множества компаний, которые предлагают свои решения для поддержки бизнеса предприятий: ERP , биллинговые системы , системы поддержки принятия решений и т. д. Все они позволяют собирать детальные данные самого разного характера в огромных объемах. При наличии в организации развитой ИТ-инфраструктуры эти данные можно собрать вместе и проанализировать их.

Следующий фактор - технологического характера. До некоторого времени производители приложений самостоятельно разрабатывали разные версии своих решений для разных серверных платформ или предлагали открытые решения. Важной для отрасли технологической тенденцией стало создание адаптируемых платформ для решения различных аналитических задач, которые включают аппаратную составляющую и СУБД . Пользователей уже не волнует, кто сделал для их компьютера процессор или оперативную память, - они рассматривают хранилище данных как некую услугу. И это важнейший сдвиг в сознании.

Технологии, которые позволяют использовать хранилища данных для оптимизации операционных бизнес-процессов практически в реальном времени не только для высококвалифицированных аналитиков и топ-менеджеров, но и для сотрудников фронт-офиса, в частности для сотрудников офисов продаж и контактных центров. Принятие решений делегируется сотрудникам, стоящим на более низких ступенях корпоративной лестницы. Необходимые им отчеты, как правило, просты и кратки, но их требуется очень много, а время формирования должно быть невелико.

Сферы применения СХД

Традиционные хранилища данных можно встретить повсеместно. Они предназначены для формирования отчетности, помогающей разобраться с тем, что произошло в компании. Однако это первый шаг, базис.

Людям становится недостаточно знать, что произошло, им хочется понять, почему это случилось. Для этого используются инструменты бизнес-аналитики, которые помогают понять то, что говорят данные.

Вслед за этим приходит использование прошлого для предсказания будущего, построение прогностических моделей: какие клиенты останутся, а какие уйдут; какие продукты ждет успех, а какие окажутся неудачными и т.д.

Некоторые организации уже находятся на стадии, когда хранилища данных начинают использовать для понимания того, что происходит в бизнесе в настощее время. Поэтому следующий шаг - это «активация» фронтальных систем при помощи решений, основанных на анализе данных, зачастую в автоматическом режиме.

Объемы цифровой информации растут лавинообразно. В корпоративном секторе этот рост вызван, с одной стороны, ужесточением регулирования и требованием сохранять все больше информации, относящейся к ведению бизнеса. С другой стороны, ужесточение конкуренции требует все более точной и подробной информации о рынке, клиентах, их предпочтениях, заказах, действиях конкурентов и т.д .

В государственном секторе рост объемов хранимых данных поддерживает повсеместный переход к межведомственному электронному документообороту и создание ведомственных аналитических ресурсов, основой которых являются разнообразные первичные данные.

Не менее мощную волну создают и обычные пользователи, которые выкладывают в интернет свои фотографии, видеоролики и активно обмениваются мультимедийным контентом в социальных сетях.

Требования к СХД

Группа компаний ТИМ в 2008 году провела опрос среди клиентов с целью выяснить, какие характеристики наиболее важны для них при выборе СХД . На первых позициях оказались качество и функциональность предлагаемого решения. В то же время расчет совокупной стоимости владения для российского потребителя явление нетипичное. Заказчики чаще всего не до конца осознают какие их ожидают издержки, например, затраты на аренду и оснащение помещения, электроэнергию, кондиционирование, обучение и зарплату квалифицированного персонала и проч.

Когда возникает необходимость приобрести СХД, максимум, что оценивает для себя покупатель, это прямые затраты, проходящие через бухгалтерию на приобретение данного оборудования. Впрочем, цена по степени важности оказалась на девятом месте из десяти. Безусловно, заказчики учитывают возможные трудности, связанные с обслуживанием техники. Обычно их избежать помогают пакеты расширенной гарантийной поддержки, которые обычно предлагают в проектах.

Надёжность и отказоустойчивость. В СХД предусмотрено полное или частичное резервирование всех компонент – блоков питания, путей доступа, процессорных модулей, дисков, кэша и т.д. Обязательно наличие системы мониторинга и оповещения о возможных и существующих проблемах.

Доступность данных. Обеспечивается продуманными функциями сохранения целостности данных (использование технологии RAID, создание полных и мгновенных копий данных внутри дисковой стойки, реплицирование данных на удаленную СХД и т.д.) и возможностью добавления (обновления) аппаратуры и программного обеспечения в горячем режиме без остановки комплекса;

Средства управления и контроля. Управление СХД осуществляется через web-интерфейс или командную строку, есть функции мониторинга и несколько вариантов оповещения администратора о неполадках. Доступны аппаратные технологии диагностики производительности.

Производительность. Определяется числом и типом накопителей, объёмом кэш-памяти, вычислительной мощностью процессорной подсистемы, числом и типом внутренних и внешних интерфейсов, а также возможностями гибкой настройки и конфигурирования.

Масштабируемость. В СХД обычно присутствует возможность наращивания числа жёстких дисков, объёма кэш-памяти, аппаратной модернизации и расширения функционала с помощью специального ПО. Все перечисленные операции производят без значительного переконфигурирования и потерь функциональности, что позволяет экономить и гибко подходить к проектированию ИТ-инфраструктуры .

Типы СХД

Дисковые СХД

Используют для оперативной работы с данными, а также для создания промежуточных резервных копий.

Существуют следующие виды дисковых СХД :

СХД для рабочих данных (высокопроизводительное оборудование);
СХД для резервных копий (дисковые библиотеки);
СХД для долговременного хранения архивов (системы CAS).

Ленточные СХД

Предназначены для создания резервных копий и архивов.

Существуют следующие виды ленточных СХД :

отдельные накопители;
автозагрузчики (один накопитель и несколько слотов для лент);
ленточные библиотеки (более одного накопителя, множество слотов для лент).

Варианты подключений СХД

Для подключения устройств и жестких дисков внутри одного хранилища используются различные внутренние интерфейсы:

Наиболее распространенные внешние интерфейсы подключения СХД :

Популярный интерфейс межузлового кластерного взаимодействия Infiniband теперь также используется для доступа к СХД.

Варианты топологий СХД

Традиционный подход к хранилищам данных состоит в непосредственном подключении серверов к системе хранения Direct Attached Storage, DAS (Direct Attached Storage). Помимо Direct Attached Storage, DAS , существуют устройства хранения данных, подключаемые к сети, - NAS (Network Attached Storage), a также компоненты сетей хранения данных - SAN (Storage Area Networks). И NAS -, и SAN -системы появились в качестве альтернативы архитектуре Direct Attached Storage, DAS . Причем каждое решение разрабатывалось как ответ на растущие требования к системам хранения данных и основывалось на использовании доступных в то время технологиях.

Архитектуры сетевых систем хранения были разработаны в 1990-х гг., и их задачей было устранение основных недостатков систем Direct Attached Storage, DAS . В общем случае сетевые решения в области систем хранения должны были реализовать три задачи: снизить затраты и сложность управления данными, уменьшить трафик локальных сетей, повысить степень готовности данных и общую производительность. При этом архитектуры NAS и SAN решают различные аспекты общей проблемы. Результатом стало одновременное сосуществование двух сетевых архитектур, каждая из которых имеет свои преимущества и функциональные возможности.

Системы хранения прямого подключения (DAS)

Программный и аппаратный RAID

Российский рынок СХД

В последние несколько лет российский рынок СХД успешно развивается и растет. Так, в конце 2010 года выручка производителей систем хранения, проданных на российском рынке, превысила $65 млн, что по сравнению со вторым кварталом того же года больше на 25% и на 59% 2009-го. Общая емкость проданных СХД составила примерно 18 тыс. терабайт, что является показателем роста больше чем на 150% в год.

Основные этапы проектов создания хранилищ данных

Хранилище данных - очень сложный объект. Одним из основных условий для его создания является наличие грамотных специалистов, понимающих, что они делают, - не только на стороне поставщика, но и на стороне клиента. Потребление СХД становится неотъемлемой частью внедрения комплексных инфраструктурных решений. Как правило, речь идет о внушительных инвестициях на 3-5 лет, и заказчики рассчитывают, что в течение всего срока эксплуатации система в полной мере будет отвечать предъявляемым со стороны бизнеса требованиям.

Далее, необходимо обладать технологиями создания хранилищ данных. Если вы начали создавать хранилище и разрабатываете для него логическую модель, то у вас должен быть словарь, определяющий все основные понятия. Даже такие расхожие понятия, как «клиент» и «продукт», имеют сотни определений. Только получив представление о том, что означают те или иные термины в данной организации, можно определить источники необходимых данных, которые следует загрузить в хранилище.

Теперь можно приступить к созданию логической модели данных. Это критически важный этап проекта. Надо от всех участников проекта создания хранилища данных добиться согласия относительно актуальности этой модели. По завершении этой работы становится понятно, что в действительности нужно клиенту. И только потом имеет смысл говорить о технологических аспектах, например о размерах хранилища. Клиент оказывается лицом к лицу с гигантской моделью данных, которая содержит тысячи атрибутов и связей.

Необходимо постоянно помнить, что хранилище данных не должно быть игрушкой для ИТ-департамента и объектом затрат для бизнеса. И в первую очередь хранилище данных должно помогать клиентам решать их самые критичные проблемы. Например, помочь телекоммуникационным компаниям предотвратить утечку клиентов. Для решения проблемы необходимо заполнить определенные фрагменты большой модели данных, и затем помогаем выбрать приложения, которые помогут решить эту проблему. Это могут быть очень несложные приложения, скажем Excel . Первым делом стоит попытаться решить основную проблему с помощью этих инструментов. Пытаться заполнить всю модель сразу, использовать все источники данных будет большой ошибкой. Данные в источниках необходимо тщательно проанализировать, чтобы обеспечить их качество. После успешного решения одной-двух проблем первостепенной важности, в ходе которого обеспечено качество необходимых для этого источников данных, можно приступать к решению следующих проблем, постепенно заполняя другие фрагменты модели данных, а также используя заполненные ранее фрагменты.

Еще одна серьезная проблема - модернизация СХД. Зачастую СХД, приобретенная три-пять лет назад, уже не справляется с растущими объемами данных и требованиями к скорости доступа к ним, поэтому приобретается новая система, на которую переносятся данные с прежней. По сути, заказчики, повторно платят за объемы хранения, требуемые для размещения данных и, кроме того, несут расходы на установку новой СХД и перенос данных на нее. При этом прежние СХД, как правило, еще не настолько устаревшие, чтобы отказываться от них полностью, поэтому заказчики пытаются приспособить их под другие задачи.

2009

Стремительная эволюция ежегодно вносит серьезные изменения в основные тренды развития СХД . Так, в 2009 году во главу угла ставилась способность экономично распределять ресурсы (Thin Provisioning), последние несколько лет проходят под знаком работы СХД в "облаках". Спектр предлагаемых систем отличается разнообразием: огромное количество представленных моделей, различные варианты и комбинации решений от начального уровня до Hi-End класса, решения под ключ и покомпонентная сборка с применением самой современной начинки, программно-аппаратные решения от российских производителей.

Стремление к сокращению расходов на ИТ-инфраструктуру требует постоянного баланса между стоимостью ресурсов СХД и ценностью данных, которые на них хранятся в данный момент времени. Для принятия решения о том, как наиболее эффективно размещать ресурсы на программных и аппаратных средствах, специалисты ЦОД руководствуются не только подходами ILM и DLM, но и практикой многоуровнего хранения данных. Каждой единице информации, подлежащей обработке и хранению, присваиваются определенные метрики. В их числе степень доступности (скорость предоставления информации), важность (стоимость потери данных в случае аппаратного и программного сбоя), период, через который информация переходит на следующую стадию.

Пример разделения систем хранения в соответствии с требованиями к хранению и обработке информации по методике многоуровневого хранения данных.

Вместе с тем, возросли требования к производительности транзакционных систем, что предполагает увеличение количества дисков в системе и соответственно выбор СХД более высокого класса. В ответ на этот вызов производители снабдили системы хранения новыми твердотельными дисками, превосходящими прежние по производительности более чем в 500 раз на `коротких` операциях чтения-записи (характерных для транзакционных систем).

Популяризация облачной парадигмы способствовала повышению требований к производительности и надежности СХД, поскольку в случае отказа или потери данных пострадают не один-два подключенных напрямую сервера - произойдет отказ в обслуживании для всех пользователей облака. В силу той же парадигмы проявилась тенденция к объединению устройств разных производителей в федерацию. Она создает объединенный пул ресурсов, которые предоставляются по требованию с возможностью динамического перемещения приложений и данных между географически разнесенными площадками и поставщиками услуг.

Определенный сдвиг отмечен в 2011 году в области управления `Большими данными` . Раньше подобные проекты находись на стадии обсуждения, а теперь они перешли в стадию реализации, пройдя весь путь от продажи до внедрения.

На рынке намечается прорыв, который уже случился на рынке серверов, и, возможно, уже в 2012 году мы увидим в массовом сегменте СХД, поддерживающие дедупликацию и технологию Over Subscribing . В итоге, как и в случае серверной виртуализации, это обеспечит масштабную утилизацию емкости СХД.

Дальнейшее развитие оптимизации хранения будет заключаться в совершенствовании методов сжатия данных. Для неструктурированных данных, на которые приходится 80% всего объема, коэффициент сжатия может достигать нескольких порядков. Это позволит существенно снизить удельную стоимость хранения данных для современных SSD

Андрей Захаров, Основные системы хранения данных и их особенности

Журнал Upgrade4_08_05

В простейшем случае SAN состоит из СХД , коммутаторов и серверов, объединённых оптическими каналами связи. Помимо непосредственно дисковых СХД в SAN можно подключить дисковые библиотеки, ленточные библиотеки (стримеры), устройства для хранения данных на оптических дисках (CD/DVD и прочие) и др.

Пример высоконадёжной инфраструктуры, в которой серверы включены одновременно в локальную сеть (слева) и в сеть хранения данных (справа). Такая схема обеспечивает доступ к данным, находящимся на СХД, при выходе из строя любого процессорного модуля, коммутатора или пути доступа.

Использование SAN позволяет обеспечить:

централизованное управление ресурсами серверов и систем хранения данных ;
подключение новых дисковых массивов и серверов без остановки работы всей системы хранения;
использование ранее приобретенного оборудования совместно с новыми устройствами хранения данных;
оперативный и надежный доступ к накопителям данных, находящимся на большом расстоянии от серверов, *без значительных потерь производительности;
ускорение процесса резервного копирования и восстановления данных - BURA .

История

Развитие сетевых технологий привело к появлению двух сетевых решений для СХД – сетей хранения Storage Area Network (SAN) для обмена данными на уровне блоков, поддерживаемых клиентскими файловыми системами, и серверов для хранения данных на файловом уровне Network Attached Storage (NAS). Чтобы отличать традиционные СХД от сетевых был предложен еще один ретроним – Direct Attached Storage (DAS).

Появлявшиеся на рынке последовательно DAS, SAN и NAS отражают эволюционирующие цепочки связей между приложениями, использующими данные, и байтами на носителе, содержащим эти данные. Когда-то сами программы-приложения читали и писали блоки, затем появились драйверы как часть операционной системы. В современных DAS, SAN и NAS цепочка состоит из трех звеньев: первое звено – создание RAID-массивов, второе – обработка метаданных, позволяющих интерпретировать двоичные данные в виде файлов и записей, и третье – сервисы по предоставлению данных приложению. Они различаются по тому, где и как реализованы эти звенья. В случае с DAS СХД является «голой», она только лишь предоставляет возможность хранения и доступа к данным, а все остальное делается на стороне сервера, начиная с интерфейсов и драйвера. С появлением SAN обеспечение RAID переносится на сторону СХД, все остальное остается так же, как в случае с DAS. А NAS отличается тем, что в СХД переносятся к тому же и метаданные для обеспечения файлового доступа, здесь клиенту остается только лишь поддерживать сервисы данных.

Появление SAN стало возможным после того, как в 1988 году был разработан протокол Fibre Channel (FC) и в 1994 утвержден ANSI как стандарт. Термин Storage Area Network датируется 1999 годом. Со временем FC уступил место Ethernet, и получили распространение сети IP-SAN с подключением по iSCSI.

Идея сетевого сервера хранения NAS принадлежит Брайану Рэнделлу из Университета Ньюкэстла и реализована в машинах на UNIX-сервере в 1983 году. Эта идея оказалась настолько удачной, что была подхвачена множеством компаний, в том числе Novell, IBM , и Sun, но в конечном итоге сменили лидеров NetApp и EMC.

В 1995 Гарт Гибсон развил принципы NAS и создал объектные СХД (Object Storage, OBS). Он начал с того, что разделил все дисковые операции на две группы, в одну вошли выполняемые более часто, такие как чтение и запись, в другую более редкие, такие как операции с именами. Затем он предложил в дополнение к блокам и файлам еще один контейнер, он назвал его объектом.

OBS отличается новым типом интерфейса, его называют объектным. Клиентские сервисы данных взаимодействуют с метаданными по объектному API (Object API). В OBS хранятся не только данные, но еще и поддерживается RAID, хранятся метаданные, относящиеся к объектам и поддерживается объектный интерфейс. DAS, и SAN, и NAS, и OBS сосуществуют во времени, но каждый из типов доступа в большей мере соответствует определенному типу данных и приложений.

Архитектура SAN

Топология сети

SAN является высокоскоростной сетью передачи данных, предназначенной для подключения серверов к устройствам хранения данных. Разнообразные топологии SAN (точка-точка, петля с арбитражной логикой (Arbitrated Loop) и коммутация) замещают традиционные шинные соединения «сервер - устройства хранения» и предоставляют по сравнению с ними большую гибкость, производительность и надежность. В основе концепции SAN лежит возможность соединения любого из серверов с любым устройством хранения данных, работающим по протоколу Fibre Channel . Принцип взаимодействия узлов в SAN c топологиями точка-точка или коммутацией показан на рисунках. В SAN с топологией Arbitrated Loop передача данных осуществляется последовательно от узла к узлу. Для того, чтобы начать передачу данных передающее устройство инициализирует арбитраж за право использования среды передачи данных (отсюда и название топологии – Arbitrated Loop).

Транспортную основу SAN составляет протокол Fibre Channel, использующий как медные, так и волоконно-оптические соединения устройств.

Компоненты SAN

Компоненты SAN подразделяются на следующие:

Ресурсы хранения данных;
Устройства, реализующие инфраструктуру SAN;

Host Bus Adaptors

Ресурсы хранения данных

К ресурсам хранения данных относятся дисковые массивы , ленточные накопители и библиотеки с интерфейсом Fibre Channel . Многие свои возможности ресурсы хранения реализуют только будучи включенными в SAN. Так дисковые массивы высшего класса могут осуществлять репликацию данных между масcивами по сетям Fibre Channel, а ленточные библиотеки могут реализовывать перенос данных на ленту прямо с дисковых массивов с интерфейсом Fibre Channel, минуя сеть и серверы (Serverless backup). Наибольшую популярность на рынке приобрели дисковые массивы компаний EMC , Hitachi , IBM , Compaq (семейство Storage Works , доставшееся Compaq от Digital), а из производителей ленточных библиотек следует упомянуть StorageTek , Quantum/ATL , IBM .

Устройства, реализующие инфраструктуру SAN

Устройствами, реализующими инфраструктуру SAN, являются коммутаторы Fibre Channel (Fibre Channel switches , FC switches),концентраторы (Fibre Channel Hub) и маршрутизаторы (Fibre Channel-SCSI routers).Концентраторы используются для объединения устройств, работающих в режиме Fibre Channel Arbitrated Loop (FC_AL). Применение концентраторов позволяет подключать и отключать устройства в петле без остановки системы, поскольку концентратор автоматически замыкает петлю в случае отключения устройства и автоматически размыкает петлю, если к нему было подключено новое устройство. Каждое изменение петли сопровождается сложным процессом её инициализации . Процесс инициализации многоступенчатый, и до его окончания обмен данными в петле невозможен.

Все современные SAN построены на коммутаторах, позволяющих реализовать полноценное сетевое соединение. Коммутаторы могут не только соединять устройства Fibre Channel , но и разграничивать доступ между устройствами, для чего на коммутаторах создаются так называемые зоны. Устройства, помещенные в разные зоны, не могут обмениваться информацией друг с другом. Количество портов в SAN можно увеличивать, соединяя коммутаторы друг с другом. Группа связанных коммутаторов носит название Fibre Channel Fabric или просто Fabric. Связи между коммутаторами называют Interswitch Links или сокращенно ISL.

Программное обеспечение

Программное обеспечение позволяет реализовать резервирование путей доступа серверов к дисковым массивам и динамическое распределение нагрузки между путями. Для большинства дисковых массивов существует простой способ определить, что порты, доступные через разные контроллеры , относятся к одному диску. Специализированное программное обеспечение поддерживает таблицу путей доступа к устройствам и обеспечивает отключение путей в случае аварии, динамическое подключение новых путей и распределение нагрузки между ними. Как правило, изготовители дисковых массивов предлагают специализированное программное обеспечение такого типа для своих массивов. Компания VERITAS Software производит программное обеспечение VERITAS Volume Manager , предназначенное для организации логических дисковых томов из физических дисков и обеспечивающее резервирование путей доступа к дискам, а также распределение нагрузки между ними для большинства известных дисковых массивов.

Используемые протоколы

В сетях хранения данных используются низкоуровневые протоколы:

Fibre Channel Protocol (FCP), транспорт SCSI через Fibre Channel. Наиболее часто используемый на данный момент протокол . Существует в вариантах 1 Gbit/s, 2 Gbit/s, 4 Gbit/s, 8 Gbit/s и 10 Gbit/s.
iSCSI , транспорт SCSI через TCP/IP .
FCoE , транспортировка FCP/SCSI поверх "чистого" Ethernet.
FCIP и iFCP , инкапсуляция и передача FCP/SCSI в пакетах IP.
HyperSCSI , транспорт SCSI через Ethernet .
FICON транспорт через Fibre Channel (используется только мейнфреймами).
ATA over Ethernet , транспорт ATA через Ethernet.
SCSI и/или TCP/IP транспорт через InfiniBand (IB).

Преимущества

Высокая надёжность доступа к данным, находящимся на внешних системах хранения. Независимость топологии SAN от используемых СХД и серверов.
Централизованное хранение данных (надёжность, безопасность).
Удобное централизованное управление коммутацией и данными.
Перенос интенсивного трафика ввода-вывода в отдельную сеть – разгрузка LAN.
Высокое быстродействие и низкая латентность.
Масштабируемость и гибкость логической структуры SAN
Географические размеры SAN, в отличие от классических DAS, практически не ограничены.
Возможность оперативно распределять ресурсы между серверами.
Возможность строить отказоустойчивые кластерные решения без дополнительных затрат на базе имеющейся SAN.
Простая схема резервного копирования – все данные находятся в одном месте.
Наличие дополнительных возможностей и сервисов (снапшоты, удаленная репликация).
Высокая степень безопасности SAN.

Совместное использование систем хранения как правило упрощает администрирование и добавляет изрядную гибкость, поскольку кабели и дисковые массивы не нужно физически транспортировать и перекоммутировать от одного сервера к другому.

Другим приемуществом является возможность загружать сервера прямо из сети хранения. При такой конфигурации можно быстро и легко заменить сбойный