Единое окно доступа к образовательным ресурсам

Технологии и алгоритмы резервного копирования

Голосов: 1

В статье представлен обзор современных технологий в системах хранения и резервного копирования, рассмотрены традиционные и нетривиальные схемы копирования. Охарактеризованы мировой и российский рынки систем резервирования, дана сравнительная характеристика репрезентативных программных продуктов. Материал подготовлен в рамках Всероссийского конкурсного отбора обзорно-аналитических статей по приоритетному направлению "Информационно-телекоммуникационные системы" (<a href="http://www.ict.edu.ru/itkonkurs2008/">http://www.ict.edu.ru/itkonkurs2008/</a>).

Приведенный ниже текст получен путем автоматического извлечения из оригинального PDF-документа и предназначен для предварительного просмотра.
Изображения (картинки, формулы, графики) отсутствуют.
              Tapestry Media – оптические диски, уже производимые американской компанией
InPhase Technologies, имеют емкость 300 Гб при теоретически максимальной емкости в
1,6 Тб.
          Разрабатывается технология, при которой, теоретически, может быть сохранено
до 50 Тб данных на один оптический диск PCD (англ. Protein-Coated Disc). Идея
заключается в покрытии диска специальным, светочувствительным белком.


          3.2. RAID


          Дисковые массивы с избыточностью данных, которые принято называть RAID
(англ. Redundant Array of Independent/Inexpensive Disks - избыточный массив
независимых/недорогих дисков) были впервые представлены в 1987 году.
          В Калифорнийском университете в Беркли RAID 1 был определен как
зеркальный дисковый массив, RAID 2 как массив, в котором применяется код
Хемминга. Уровни RAID 3, 4, 5 используют четность для защиты данных от одиночных
неисправностей. RAID 0 был представлен индустрией как не отказоустойчивый
дисковый массив. Эта систематика RAID была фактически принята как стандарт [55].
Для стандартизации продуктов RAID в 1992 году был организован промышленный
консорциум – RAID Advisory Board.


          3.2.1. Реализация
          Выделяют три основных варианта реализации RAID систем: программную (англ.
software-based); аппаратную - шинно-ориентированную (англ. bus-based); аппаратную -
автономную подсистему (англ. subsystem-based).
          Отличаются они фактически тем, где исполняется код: в центральном
процессоре компьютера (программная реализация) или в специализированном
процессоре на RAID контроллере (аппаратная реализация). См. [55].
          Главное преимущество программной реализации - низкая стоимость. При этом у
нее довольно много недостатков: во-первых, низкая производительность; во-вторых,
дополнительная загрузка центрального процессора; в-третьих, увеличение шинного
трафика. Программно реализуют простые уровни RAID 0 и 1, так как они не требуют



                                           11


значительных вычислений. Учитывая данные особенности,          RAID системы с
программной реализацией используются в серверах начального уровня.
      Аппаратные реализации стоят дороже, чем программные, ибо используют
дополнительную аппаратуру для выполнения операций ввода-вывода, при этом они
разгружают системную шину и ЦП, увеличивая тем самым быстродействие.


      3.2.2. Комбинированные уровни
      Разнообразие пользовательских сценариев породило множество уровней RAID,
список модификаций которых продолжает пополняться. В литературе предлагается
более десятка уровней, широкое практическое применение имеет в лучшем случае
половина из них, а чаще всего используются RAID 1, отчасти RAID 10 (с
распределением зеркалированных данных) и RAID 5 [60].
      В последние годы получили распространение комбинированные уровни RAID.
Общая их идея – сохранение возможно более высокой доступности данных и
производительности после отказа одного из дисков. В отличие от изначально
созданных уровней описывающих алгоритмы обработки одиночных ошибок, в
комбинированных основное внимание уделяется сокращению времени восстановления
и снижению рисков потери данных от повторных сбоев. Комбинированные уровни
реализованы в немногих изделиях, прежде всего потому, что появились относительно
недавно [60].
      Комбинированные уровни RAID 1+0, RAID 3+0, RAID 5+0, RAID 1+5,
различные производители интерпретируют каждый по-своему. Суть таких комбинаций
вкратце заключается в следующем.
      RAID 1+0 (или RAID 1E) – это комбинация распределения информации по
дискам (англ. striping) от RAID 0 и зеркалирования – от RAID 1. Нынешние
контроллеры используют этот режим по умолчанию для RAID 1. То есть, 1 диск
основной, 2-й диск – зеркало, причем чтение производится с них поочередно, как для
RAID 0. Собственно, сейчас можно считать что RAID 1 и RAID 1+0 – это просто разное
название одного и того же метода аппаратного зеркалирования дисков. RAID 5+0 – это
чередование томов 5-го уровня. RAID 1+5 – зеркалирование RAID 5.




                                       12


       Комбинированные уровни наследуют как преимущества, так и недостатки своих
«родителей»: появление чередования в уровне RAID 5+0 нисколько не добавляет ему
надѐжности, но зато положительно отражается на производительности. Уровень RAID
1+5, более надѐжный, но не самый быстрый и, к тому же, крайне неэкономичный:
полезная ѐмкость тома меньше половины суммарной ѐмкости дисков.


       3.2.3. Matrix RAID
       Matrix RAID – это технология, реализованная фирмой Intel в своих чипсетах.
Строго говоря, эта технология не является новым уровнем RAID, она просто позволяет,
например, используя лишь 2 диска, организовать одновременно один или несколько
массивов уровня RAID 1 и один или несколько массивов уровня RAID 0. Это позволяет
за сравнительно небольшие деньги обеспечить для одних данных повышенную
надѐжность, а для других высокую скорость доступа.
       Таким образом, обладатели SATA-контроллеров с поддержкой Matrix RAID
(такие контроллеры встроены в южные мосты ICH6R и ICH7R от компании Intel) могут
воспользоваться преимуществами массивов RAID-0 и RAID-1, имея всего два диска, а
те, у кого есть плата с ICH7R, могут объединить RAID-5 и RAID-0, если у них есть
четыре одинаковых накопителя.


       3.3.   Технологии    соединения   систем     хранения     с    вычислительными
системами


       DAS,    SAN,   NAS    –   основные    типы   соединения       систем   хранения   с
вычислительными системами. См. [57].


       3.3.1. DAS
       DAS (англ. Direct Attached Storage) – устройство внешней памяти, напрямую
подсоединенное к основному компьютеру и используемое только им. Простейший
пример DAS – встроенный жесткий диск. Для связи хоста с внешней памятью в
типовой конфигурации DAS обычно используется SCSI (англ. Small Computer Systems
Interface).



                                            13


      Конфигурация DAS приемлема для применений, нетребовательных к объемам,
производительности и надежности систем хранения. Много DAS-устройств в масштабе
предприятия означают разрозненные хранилища, при этом избытки памяти на одном
хост-компьютере не могут использоваться другими. Это приводит к неэффективной
трате емкости хранения в целом, а в результате общая стоимость владения может
оказаться значительно выше, чем для изначально более дорогой, более сложной
сетевой системы.


      3.3.2. SAN
      Говоря о системах хранения корпоративного уровня, имеют в виду, прежде
всего, сетевое хранение (англ. storage networking), или другими словами – сети
хранения SAN (англ. Storage Area Network). SAN представляет собой выделенную сеть
устройств хранения, которая позволяет множеству серверов использовать совокупный
ресурс внешней памяти без нагрузки на локальную сеть.
      На данный момент фактическим стандартом передачи данных для среды SAN
является технология Fibre Channel (FC), обеспечивающая скорость 1-2 Гбит/с. Fibre
Channel позволяет работать на удалении до 100 км.
      В сеть хранения могут быть подключены дисковые массивы RAID, простые
массивы дисков JBOD (англ. Just a Bunch of Disks), ленточные или магнитооптические
библиотеки для резервирования и архивирования данных. Основными компонентами
для организации сети SAN являются сами устройства хранения, адаптеры НВА (англ.
Host Bus Adapter) для подключения серверов к сети Fibre Channel, сетевые устройства
для поддержки той или иной топологии FC-сети и специализированный программный
инструментарий. Задача программного обеспечения для SAN – централизованное
управление сетью хранения, включая конфигурирование, мониторинг, контроль и
анализ компонентов сети. Иногда часть функций ПО управления сетью SAN,
выносится на специализированный тонкий сервер для управления сетью хранения
(англ. SAN appliance).
      Выделенная сеть хранения разгружает основную сеть. Этот фактор, а также
высокоскоростная среда передачи, используемая в сети хранения SAN, обеспечивают




                                         14


высокую производительность процессов обмена данными с внешними системами
хранения.
      Единый пул ресурсов, консолидированный в SAN, разделяется всеми
вычислительными мощностями, и в результате необходимая емкость обеспечивается
меньшим числом подсистем.


      3.3.3. NAS
      NAS (англ. Network Attached Storage) обозначает сетевое устройство хранения,
точнее выделенный файловый сервер, с подсоединенной к нему дисковой подсистемой.
В конфигурацию NAS может входить и ленточная библиотека. NAS-устройство (англ.
NAS appliance) напрямую подключается в сеть и предоставляет хостам доступ к
данным на своей интегрированной подсистеме внешней памяти на уровне файлов (а не
блоков данных).
      В отличие от сетей хранения, NAS прост в установке и управлении. При
подключении NAS-устройств не требуется специального планирования и затрат на
дополнительное управляющее ПО.
      Обмен данными с NAS-устройствами идет по локальной сети общего
назначения и их подключение увеличивает трафик. Несколько NAS-устройств нельзя
объединить в единый ресурс хранения, а      потому увеличение числа NAS-узлов
усложняет задачу управления.


      3.3.4. Объединение NAS и SAN
      NAS и SAN часто сосуществуют в распределенной ИТ-инфраструктуре
компании. Это неизбежно порождает проблемы управления и оптимального
использования ресурсов хранения.
      Конвергенция NAS и SAN – одна из важнейших тенденций последнего времени.
Производители ищут пути объединения обеих технологий в единую сетевую
инфраструктуру хранения, которая обеспечит консолидацию данных, централизацию
резервного копирования, упростит администрирование, увеличит масштабируемость и
защиту данных.




                                       15


        Для того чтобы добавить в сеть хранения возможность разделения логической
структуры файловых систем, необходим промежуточный управляющий сервер для
реализации всех функций сетевых протоколов обработки запросов на уровне файлов.
Общий подход к объединению SAN и NAS - использование NAS-устройства без
интегрированной дисковой подсистемы, но с возможностью подключения компонентов
сети хранения. Эти устройства являются своеобразным буфером между локальной
сетью и SAN, обеспечивая разделение информации в сети хранения и доступ к данным
на уровне файлов. Такие устройства, у одних производителей называются NAS-
шлюзами, у других головными NAS-устройствами.


        3.4. Виртуализация систем хранения


        Ведущие игроки рынка систем хранения не просто объединяют свои продукты,
как например TotalStorage у IBM, или SureStore у НР, а формулируют собственные
стратегии создания консолидированных, сетевых инфраструктур хранения и защиты
корпоративных данных. Ключевую роль в этих стратегиях играет идея виртуализации,
поддержанная     главным     образом   на    уровне    мощных     программных     решений
централизованного управления распределенными хранилищами [57].
        Виртуализация систем хранения обычно определяется как комплекс мер для
представления    ресурсов    различных      систем    хранения    в   виде   объединенного
виртуального    хранилища.    Фактически      виртуализация      разделяет   логический   и
физический уровни доступа к данным, позволяя объединять физические устройства
хранения в виртуальные пулы. Процессы взаимодействия с физическими носителями и
распределения емкости становятся прозрачными для серверов и приложений и не
требуют их участия. При этом сервер непосредственно работает не с системой
хранения, а с абстрактной виртуальной системой ввода-вывода.
        Концепция виртуализации в ее современном виде появилась почти 10 лет назад.
Но, рынок не был к ней готов, а коммерческим решениям по виртуализации немногим
более 5-ти лет, поэтому пока можно говорить о начальном этапе развития технологии
[53].




                                             16


         3.5. Концепция многоярусных хранилищ


         Концепция хранения данных в несколько ярусов (англ. staging) основана на том,
что     существует   несколько   уровней    хранилищ   с   разными   характеристиками,
объединенными в одно [20].
         Обычно изначально данные копируются в хранилища с высокой скоростью
доступа, но ограниченной вместимостью (как правило, какие либо массивы жестких
дисков). После некоторого периода времени, данные копируются на носители с более
низкой скоростью доступа, но с большим объемом [20].
         Метод резервного копирования, при котором данные копируются или
архивируются изначально в хранилище на базе жестких дисков, а затем, периодически,
некоторые части хранимых данных переносятся в хранилища с применением
ленточных накопителей, обозначают disk-to-disk-to-tape (D2D2T). Так могут обозначать
также те решения, где в качестве вторичных накопителей используются оптические
носители данных.
         Данные опроса Excillio Group Inc. [15] показали, что 33% из опрошенных
респондентов в 2008 году планируют внедрить резервное копирование disk-to-disk-to-
tape.


         3.6. Виртуальные ленточные библиотеки


         Виртуальная ленточная библиотека VTL (Virtual Tape Library) – выделенное
вычислительное оборудование, которое эмулирует накопители физической ленточной
библиотеки. См., например [20, 41].
         VTL обычно состоят из трех компонентов: компьютерного оборудования,
программного      обеспечения,   и   RAID    массива   жестких   дисков.   Программное
обеспечение эмулирует ленточную библиотеку, RAID массив обеспечивает высокую
надежность       хранения.   Приложения       резервного    копирования     используют
эмулированные ленты, хотя фактически данные хранятся на дисковом массиве.
         Виртуальные ленточные библиотеки дополняют решения для хранения данных
на физических лентах и обеспечивают два уровня хранения: первичная резервная копия



                                            17


размещается на жестком диске, вторичная – на магнитной ленте. Внедрение VTL
позволяет сократить время операций копирования и восстановления, не требуя
изменения имеющихся процессов или рабочих нагрузок.
      Данные опроса Excillio Group Inc [15] показали, что 14% респондентов
планируют внедрить VTL в 2008 году.


      3.6.1. Принцип работы
      Все системы VTL эмулируют работу одного или нескольких ленточных
накопителей. Однако это не означает, что возможна запись сохраняемых данных
непосредственно на ленточные устройства.
      Системы работают в соответствии с разными технологиями. В рамках одной из
них программное обеспечение виртуальной ленты управляет только устройством
хранения на жестких дисках, но не физическими ленточными накопителями. В рамках
другой технологии виртуальная ленточная библиотека предусматривает использование
процессоров аппаратного обеспечения для перемещения данных между жестким
диском и лентой.


      3.6.2. Масштабируемость
      Как   правило,      виртуальные   ленточные     библиотеки     довольно     легко
интегрируются      в   имеющуюся   инфраструктуру    резервного    копирования.   VTL
предоставляют возможность постепенного перехода с ленточных накопителей на
решение хранения данных, полностью базирующееся на жестких дисках.
      На рынке представлены самые разные виртуальные ленточные решения – от
отдельных   библиотек     для   небольших     вычислительных   центров,   до    систем,
предназначенных для предприятий с большим количеством серверов.


      3.6.3. Производительность
      Преимущество виртуальных ленточных систем состоит в ускорении процессов
резервного копирования и восстановления данных.
      Общая производительность системы и ее пропускная способность зависят от
многих факторов. К ним относятся вычислительная мощность контроллеров систем



                                         18


хранения, скорость жестких дисков, метод управления жесткими дисками, количество
и виды маршрутов к жестким дискам сервера баз данных, эффективность встроенного
программного      обеспечения.   На    скорость         оказывает   также   влияние    функция
интегрированного сжатия данных.
       VTL не эмулирует полностью работу ленточных накопителей, скорость и чтение
происходит настолько быстро, насколько могут работать жесткие диски в массиве
виртуальной библиотеки. А поскольку VTL лишь эмулируют ленты, поэтому они
обычно работают с, гораздо меньшими окнами резервного копирования, чем решения
на базе реальных магнитных лент.
       Восстановление специфичных данных с использованием VTL будет работать
быстрее, чем при использовании реальной библиотеки ленточных накопителей. В тоже
время восстановление больших объемов данных наоборот будет, скорее всего, быстрее
с использованием реальных магнитных лент, ибо чтение будет происходить
параллельно.


       3.7. Шифрование резервных копий


       Раньше защита хранилищ данных c применением шифрования считалась
излишней, ибо хранилища как таковые были ―скрыты‖. С появлением новых
технологий хранения данных все изменилось, сети хранения SAN стали управляются
посредством IP-соединений [25].
       Магнитные ленты более других носителей подвержены опасности краж и потерь
[2].   К   примеру,    известный      случай        с   украденной    магнитной       лентой   с
незашифрованными данными, принадлежащей Bank of America, а также случаи с
другими крупными компаниями такими, как Time Warner, Ameritrade, DSW Shoe
Warehouse [25].
       Однако многие компании по прежнему не шифруют резервные копии на
магнитных лентах. В соответствии с исследованиями ESG (Enterprise Strategy Group)
[24] 60% опрошенных компаний никогда не шифровали создаваемые резервные копии,
причем относительно компаний финансового сектора этот показатель составляет 65%,
для правительственных – 77%, здравоохранения – 67%.



                                               19


      Шифрованием пренебрегали, прежде всего, из-за сильной загрузки ресурсов, а
также из-за довольно трудной задачи управления ключами доступа [25]. Защита
данных непростая задача, однако не может быть проигнорирована.
      Системы хранения, обычно обеспечены устройствами аппаратного сжатия
данных. Важно отметить, что предварительно зашифрованные данные плохо
поддаются последующему сжатию. Пользователь может отключить практически
бесполезное аппаратное сжатие шифрованных данных, тем самым многократно
увеличив требуемый объем для хранения.
      Не самым простым решением является изначальное сжатие данных, а затем
последующее их шифрование. Возможно, наиболее практичным в общем случае
решением является выбор для шифрования только наиболее важных в смысле
безопасности данных [2].


      3.8. Технология непрерывной защиты данных


      SNIA (Storage Networking Industry Association) в официальном определении
технологии непрерывной защиты данных CDP (англ. Continuous Data Protection)
указывает, что система резервного копирования, реализующая CDP, должна быть
способна восстановить любую версию каждого хранимого файла на любой момент
времени. Это очень жесткое определение и многие системы называющие себя CDP-
решениями не удовлетворяют таким требованиям [11]. В связи с этим системы делятся
на «настоящие» CDP (англ. pure CDP или true CDP), и на псевдо-CDP решения (англ.
near CDP).
      Near CDP решения сходны по принципу работы с традиционными, однако
спроектированы так, что позволяют производить операции резервного копирования
очень часто, поэтому такого рода решения тоже помечаются производителями как
реализующие подход непрерывной защиты данных.
      Технология «настоящей» непрерывной защиты данных true CDP отличается от
традиционных подходов и near CDP, прежде всего тем, что операции резервного
копирования проходят не по заданному расписанию, а сразу при изменении данных.




                                         20



    
Яндекс цитирования Яндекс.Метрика