Cómo proteger tus datos usando ZFS
Una pregunta que se hace a menudo en la industria de los servidores es, ‘¿qué es mejor – RAID por software o RAID por hardware? Si investigas este tema, mucha de la información sobre RAID sugiere que es preferible una tarjeta RAID por hardware que usar un RAID por software. Pero yo no estoy de acuerdo. En mi opinión, para la mayoría de las aplicaciones, el RAID por software es mucho mejor que el RAID por hardware. El RAID por hardware tiene su lugar bajo ciertos sistemas operativos, pero voy a decirte por qué el software es generalmente muy superior.
Favorecer el RAID por hardware sobre el RAID por software viene de una época en la que el hardware no era lo suficientemente potente como para manejar el procesamiento del RAID por software, junto con todas las demás tareas para las que se utilizaba. Por aquel entonces, la solución era utilizar una tarjeta RAID por hardware con un procesador incorporado que gestionaba los cálculos RAID ‘offline’. Se presentaba al sistema operativo del ordenador como un único disco, e internamente procesaba los datos que entraban y salían de los múltiples dispositivos de almacenamiento (discos duros). Esto hacía que las cosas funcionaran sin problemas, al tiempo que se beneficiaba de la seguridad de RAID.
El RAID de hardware sigue siendo popular entre algunas personas y muchas de las tarjetas RAID de hardware de hoy en día ofrecen un rendimiento increíble al tiempo que aligeran la carga de la CPU, pero todavía hay algunos problemas graves y desventajas:
- Dificultades para recuperar los datos cuando se producen fallos importantes
- Protocolos propietarios/no estándar que significan que su conjunto sólo funciona con la misma tarjeta raid de hardware. No puede conectar su conjunto de discos duros a cualquier tarjeta RAID y esperar que lea sus datos.
- Hardware RAID tiene la capacidad de tomar un grupo de unidades y hacerlo aparecer como una sola unidad. Esta arquitectura es elegante en su simplicidad. Sin embargo, esto también impide fundamentalmente la integración de características en el sistema operativo y el sistema de archivos. Esta integración es realmente lo que ha permitido que el RAID por software supere dramáticamente al RAID por hardware.
Donde creo que estamos hoy
Hubo dos cosas que beneficiaron al RAID por software sobre el RAID por hardware y le permitieron tomar la delantera. La potencia de cálculo creció tan radicalmente que la carga de cálculo que presenta el RAID ya no es significativa. En segundo lugar, la fuerza, las características y la integración del software RAID han crecido de forma espectacular.
El RAID por hardware sigue ofreciendo soluciones arquitectónicas sólidas y sencillas para combinar varias unidades en matrices RAID y presentarlas al sistema operativo como un único dispositivo. Esto es particularmente útil con MS Windows, que tiene una implementación dolorosamente lenta de RAID por software. Sin embargo, sigue teniendo un riesgo para la seguridad de los datos, ya que es necesario utilizar un controlador idéntico (o compatible) para recuperar los datos en caso de fallo del hardware.
Por lo que respecta al software, el RAID por software actual es súper rápido (al menos con Linux y BSD), extremadamente flexible y está muy integrado en los sistemas operativos. También es mucho más capaz y potente en situaciones de recuperación que el RAID por hardware. Para recuperar tus datos, todo lo que necesitas es otro servidor de almacenamiento con el mismo SO. Después de eso, los pasos son sencillos, sólo tienes que conectar las unidades y ponerte a trabajar: deberías poder recuperarte de casi cualquier situación en la que la pérdida de datos no haya superado los límites fundamentales.
Está claro que los ordenadores y el software han avanzado mucho y cada vez está más claro que el RAID definido por software va a ser más y más frecuente a medida que pasa el tiempo.
Sistema de archivos y gestor de volúmenes ZFS
Ahora vamos a profundizar en uno de nuestros sistemas de archivos y gestores de volúmenes favoritos, ZFS. Vamos a hablar de algunas de las características que hacen que ZFS sea único y luego le daremos un ejemplo de uno de nuestros clientes que ahorró mucho dinero porque estaba usando ZFS con RAID por software.
Nos encanta ZFS porque puede evitar muchos de los problemas que podrían surgir al usar tarjetas RAID tradicionales. Por ejemplo, en lugar de que una tarjeta RAID de hardware tenga la primera oportunidad con tus discos, ZFS utiliza una tarjeta JBOD que toma los discos y los procesa con su gestor de volumen y sistema de archivos integrados. Esto le da a ZFS un mayor control para evitar algunos de los desafíos que suelen tener las tarjetas RAID por hardware. Debido a este control y a sus características funcionales – ZFS puede manejar los errores extremadamente bien. Estas características, incluyendo Copy on Write, Snapshots, escalado prácticamente infinito, auto-reparación con sumas de comprobación, y virtualización incorporada para su pool de almacenamiento, dan a ZFS un nivel extra de robustez.
ZFS tiene su propia forma de estructurar nuevas escrituras llamada Copy on Write. Esto es diferente de la forma en que la mayoría de los administradores de volumen estructuran nuevas escrituras. Normalmente, cuando se escribe una modificación o nuevos datos, se escribe sobre los datos antiguos. Sin embargo, si hay un fallo de alimentación durante esa escritura – los datos podrían perderse. En lugar de escribir sobre los datos antiguos, ZFS escribe los datos en una nueva ubicación y copia la ruta de acceso. Esto significa que los datos no se pierden si se pierde la energía mientras se está escribiendo. También le da a ZFS la capacidad de otra de sus características más útiles; Instantáneas.
Las instantáneas son esencialmente marcas de tiempo que muestran cuál era la ruta de los datos en un punto específico en el pasado, éstas se almacenan en su propia tabla separada de los datos. Debido a que ZFS no sobrescribe los datos y en su lugar los escribe en una nueva ubicación, se puede volver a una marca de tiempo anterior, casi funciona como una copia de seguridad. Sin embargo, las instantáneas tienen mucha menos sobrecarga que una copia de seguridad real, ya que una copia de seguridad completa requiere copiar los datos. En comparación, las instantáneas se pueden tomar rápida y fácilmente.
ZFS también tiene una increíble capacidad para curarse a sí mismo contra los errores de escritura, la corrupción de datos o la putrefacción de bits. Analiza los datos almacenados en ubicaciones redundantes utilizando sumas de comprobación y se repara a sí mismo basándose en las inconsistencias. También cuenta con la funcionalidad tradicional de RAID, que utiliza la duplicación, la división en franjas y las comprobaciones de paridad. Cuando se utiliza una tarjeta RAID por hardware, el comprobador del estado del disco queda enmascarado cuando los discos se conectan a ella. Esto es un problema porque no puedes ver las señales inminentes de que uno de tus discos va a fallar. ZFS evita esto porque no tiene ninguna operación escrita en los discos antes de que se presenten al sistema operativo.
Ejemplo de caso de cliente
Todos cometemos errores, algunos pueden ser más costosos que otros. Uno de nuestros clientes que utilizaba ZFS en su Storinator tuvo que trasladar oficinas y no sacó los discos duros antes de la mudanza y, de alguna manera, dañó los discos durante el traslado.
Cuando el cliente intentó arrancar el Storinator e importar el pool de ZFS, algunos de los discos estaban dañados y otros mal colocados, incluso había metadatos corruptos. Sin embargo, debido a que el cliente estaba usando ZFS fue capaz de reconstruir el pool con razonable facilidad.
Nuestro equipo de soporte aquí en 45Drives fue capaz de importar manualmente el pool como degradado. Una vez que el pool estaba dentro, pudimos añadir nuevas unidades, limpiar el pool y las cosas volvieron a la normalidad.
Sólo pudimos hacer esto gracias a la resistencia de ZFS, pero esto no habría sido posible si nuestro cliente estuviera usando RAID por hardware porque es mucho más sensible a los fallos de los componentes. Si estuvieran usando RAID por hardware habría habido muchas posibilidades de que sus datos se perdieran – sin algún tipo de recuperación costosa.
Resumen
Si necesitas lo máximo en seguridad, características y rendimiento, el RAID por software es la respuesta. Tenga en cuenta que tendrá que utilizar un sistema operativo de alto rendimiento como Linux o BSD; y si lo hace, debería considerar ZFS. Su rendimiento es excelente en las máquinas de hoy en día, lleva la seguridad de los datos a un nivel sin precedentes y, como extra, es realmente fácil de usar una vez que subes la curva de aprendizaje.
- Categorías: Sin categoría
admin12:03 pm