Дедупликация данных остается одной из главных тем, когда речь идет о снижении операционных затрат, связанных с управлением и защитой данных. Компания Gartner предсказывает, что в 2012 г. технология дедупликации будет применяться в 75% процедур резервного копирования. Она не только будет и впредь давать огромные преимущества при подобных операциях, но проникнет на все уровни хранения. Сама по себе дедупликация не является панацеей от любых проблем хранения. Но она станет важнейшей функцией, определяющей эволюцию управления данными и их защиты.

Мы назовем десять особенностей решений для дедупликации данных, о которых должны помнить ИТ-специалисты, изучающие возможность внедрения этой технологии.

1. Дедупликация резко снижает затраты на хранение

Поскольку объем информации, которой должны управлять организации, растет экспоненциально, компаниям приходится тратить все больше ресурсов на управление многочисленными копиями данных и их защиту. Чтобы сократить объем хранимых данных, технологии дедупликации систематически просматривают содержимое систем хранения и предотвращают повторную запись одних и тех же наборов данных.

В отличие от других технологий, позволяющих уменьшить объем хранения, дедупликация не сводится к анализу более ранних версий наборов данных. Избыточность выявляется в любом контенте, что позволяет значительно эффективнее сокращать его объем. В зависимости от типа данных и политики хранения системы дедупликации способны уменьшить требуемый объем хранения в 20 и более раз по сравнению с обычными системами хранения.

2. Дедупликация дает возможность существенно уменьшить затраты на передачу данных

Когда информация перемещается между системами хранения, в которых используется дедупликация, можно в значительной мере избежать переписывания избыточных наборов данных. Такие системы считывают уникальные признаки каждого блока данных. Конечные системы обмениваются этими сведениями и отфильтровывают сведения, которые у них уже имеются. Таким образом, пересылается только уникальная информация.

В общем случае применение дедупликации позволяет добиться такого же сокращения передачи, как и объема хранения, — в 20 и более раз. Дедупликация в процессе обмена данными будет играть все более важную роль при решении вопросов защиты информации и управления ею.

3. Дедупликация отличается от прежних технологий сжатия данных

Поскольку дедупликация стала модным словечком, ушлые маркетологи перекрестили технологии сжатия данных, побайтного выявления различий и даже хранения единственной копии каждого файла в дедупликацию. Однако подлинные технологии дедупликации обладают некоторыми принципиальными особенностями. Во-первых, сокращение объема в результате дедупликации распространяется не на конкретный набор данных или различные его версии. Напротив, каждый набор данных подвергается дедупликации при сопоставлении с другими хранящимися данными независимо от их типа и источника.

Во-вторых, выявление совпадений производится на уровне, лежащем ниже уровня файлов, и обычно дает незначительный эффект (несколько килобайтов или менее). В-третьих, в процессе анализа информации для каждого фрагмента рассчитывается уникальный и не зависящий от места хранения идентификатор (нечто вроде отпечатка пальца), который используется при последующих операциях вместо самих данных. Подобные “отпечатки пальцев” можно быстро проверить для выявления избыточности и использовать в любых локальных и удаленных системах. Все это позволяет технологиям подлинной дедупликации достичь гораздо более высокого коэффициента сокращения объема и гибче подходить к распределению данных между различными системами, если сравнивать их с другими технологиями.

4. Преимущества деления данных на фрагменты произвольного размера

При дедупликации крупные наборы данных делятся на множество мелких фрагментов, которые сравниваются с глобальным репозиторием фрагментов для выявления и устранения дубликатов. Существующие методы позволяют в зависимости от структуры набора данных в целом создавать фрагменты фиксированного или произвольного размера.

Фрагменты произвольного размера обычно имеют более высокий коэффициент сжатия, что объясняется двумя причинами. Во-первых, когда границы фрагментов не зафиксированы, вносимые изменения (например, вставка нескольких байтов) затрагивают только какой-то конкретный фрагмент и никак не отражаются на соседних. Это позволяет свести на нет эффект домино, неизбежный при выделении фрагментов фиксированного размера. Во-вторых, размеры всех фрагментов могут варьироваться в зависимости от наличия избыточности, выявленной в наборе данных. Это дает возможность производить более детальное сравнение данных для обнаружения совпадений.

5. Защита целостности данных и устранение конфликтов при хешировании

Поскольку в процессе дедупликации избыточные копии данных заменяются ссылками на единственный их экземпляр, некоторые пользователи выражают обеспокоенность в связи с тем, что любое нарушение целостности данных (в том числе редко встречающиеся, но в принципе возможные коллизии при хешировании) способно негативно отразиться на всех содержащих эту ссылку наборах данных. Однако сегодня системы дедупликации, как правило, обладают набором функций для гарантированного поддержания целостности и предотвращения конфликтов. Возникающие в процессе хеширования коллизии часто разрешаются путем использования нескольких различных хешей “отпечатков пальцев” или даже сравнения периодов хранения каждого байта. Это позволяет выявлять конфликты и обеспечивать хранение и извлечение полноценных данных.

Для сохранения целостности данных в системах дедупликации применяются и сложные “отпечатки пальцев” на основе хешей, с помощью которых дополнительно проверяется целостность данных в начальной и конечной точках и реализуются сложные схемы восстановления тех из них, которые часто взаимодействуют с работающими на уровне блоков данных подсистемами RAID, когда они необходимы.

6. Виды дедупликации данных

Некоторые производители различают онлайновую (on-line) и постпроцессную (post-process) дедупликацию. Оба вида обладают своими преимуществами и недостатками. Онлайновая обработка информации осуществляется по мере ее поступления, избыточность устраняется еще до записи в системы хранения. Это позволяет сократить количество операций ввода-вывода и объем хранения, но имеет свою цену: процесс дедупликации должен поспевать за поступлением данных, иначе он будет тормозить их резервное копирование. Постпроцессная обработка обеспечивает максимально быстрое поступление данных, однако для временного хранения перед post-process требуется дополнительная емкость.

Более современные адаптивные методы ведут онлайновую обработку, пока скорость поступления контента не достигнет известного предела, после чего переходят к постпроцессной обработке. Это позволяет избежать возникновения узких мест и разрастания объема хранения при увеличении скорости потока данных. Все эти подходы представляют собой попытки найти компромисс между скоростью обработки и объемом хранения в соответствии с потребностями пользователя. Почему возникает необходимость в компромиссном решении? Причина проста и заключается в том, что дедупликация требует затрат. Для нее нужно выделять вычислительные ресурсы, и она вызывает снижение производительности систем пропорционально объему обрабатываемых данных. Пользователи должны учитывать, какие компромиссы неизбежны при использовании каждого метода.

7. Где осуществлять дедупликацию данных

Некоторые схемы дедупликации являются распределенными по своей природе. Данные обрабатываются на клиентских системах, и после уменьшения их объема результаты обработки пересылаются на устройства хранения. Другие схемы построены так, что дедупликация выполняется прозрачно для клиента — она полностью происходит на конечных устройствах хранения. В первом случае часто удается снизить нагрузку на сеть, но приходится мириться с целым рядом неудобств для клиентов. Дедупликация осуществляется непрозрачно, требуя установки специализированного ПО на всех подключенных к сети клиентских компьютерах. Кроме того, она отнимает значительные ресурсы у клиентских приложений (а часто и у локальных систем хранения).

Перенос процесса на конечные системы дедупликация делает прозрачным и упрощает распределение вычислительных мощностей. Но за это приходится расплачиваться: устройства хранения нередко обходятся дороже, поскольку их аппаратная часть должна быть более мощной, чтобы обеспечить дедупликацию, а затраты на первоначальную передачу данных фактически не снижаются.

8. Дедупликация данных облегчает восстановление после аварий

Сегодня, вероятно, чаще всего забывают о таком связанном с дедупликацией преимуществе, как существенное упрощение восстановления после аварий. Как правило, оптимизация передачи информации в результате дедупликации серьезно влияет на репликацию систем хранения, позволяя значительно сократить время, необходимое для первоначальной синхронизации данных, и резко уменьшить объем постоянно или периодически передаваемых данных.

Еще важнее то, что сокращение трафика в результате дедупликации ощутимо облегчает решение задач при использовании медленных каналов связи, обеспечивая значительно большую гибкость при защите данных посредством создания копий в различных географических точках.

9. Дедупликация разнородных наборов данных идет по-разному

Технологии дедупликации не могут приводить к одним и тем же результатам независимо от типа данных. Наиболее эффективна дедупликация, когда данные обладают большой избыточностью на уровне файлов, а также когда они копируются и/или сохраняются после внесения незначительных изменений. В общем случае неструктурированные данные наподобие файлов Office, виртуальных дисков, резервных копий, электронной почты и архивов демонстрируют очень хороший коэффициент дедупликации. Объем нередко уменьшается в 20--30 раз. Дедупликация структурированных данных, таких как БД, тоже дает неплохой эффект, но с меньшим коэффициентом (обычно в пределах 5--8 раз).

Почему? Потому что структурированные данные, как правило, обладают меньшей внутренней избыточностью (приложения удаляют дубликаты), содержат уникальные заголовки с описанием элементов данных и копируются значительно реже (обычно только при посредстве приложения). Чтобы приблизить коэффициенты дедупликации к тем, которых ожидает пользователь, большинство решений распознает конкретные типы данных в процессе предварительной обработки. Поскольку на данном этапе используются различные приемы, клиентам следует понимать роль предварительной обработки. В одних схемах, основанных на хешировании, она применяется для повышения коэффициента дедупликации, но не является необходимой. В других она обязательна и снижает общий эффект дедупликации.

10. Чтобы воспользоваться всеми преимуществами дедупликации, следует досконально разобраться в особенностях ее применения и защиты данных

Сегодня дисковые и ленточные системы хранения обеспечивают различное время восстановления с использованием различных точек “отката”. Если хорошо разобраться в требованиях, предъявляемых к защите данных, будет проще определить, когда и где дедупликация может дать наибольший операционный и финансовый эффекты.

Хотя технология дедупликации данных разрабатывалась с таким расчетом, чтобы ее было легко развернуть и использовать, ее преимущества в полной мере проявляются тогда, когда она применяется для обработки определенных типов данных. Производители систем дедупликации выпускают хорошие утилиты для оценки возможности устранения дублирования данных и предоставляют важные сервисы, которые позволяют правильно оценить ожидаемое сокращение объема данных и их распределение. Кроме того, они гарантируют определенный уровень общей производительности системы.

Джеффри Тофано — заслуженный ветеран отрасли, более 25 лет проработавший в области хранения и защиты данных. Будучи главным технологом компании Quantum, он осуществляет общее руководство развитием новых технологий.