En 2021, el uso de internet se ha vuelto crucial para usuarios y empresas. Según el informe Digital 2021, los usuarios de internet en el mundo aumentaron un 7,3%, representando el 59,5% de la población mundial total. Además, las redes sociales también han ocupado un papel importante a nivel empresarial. Un estudio de IONOS indicó que el 65% de las empresas españolas las incorporaron en sus estrategias de ventas.
No obstante, en un momento en el que se ha apreciado este notable crecimiento, también hemos visto cómo internet y plataformas sociales han sufrido varias caídas en lo que va de año, interrumpiendo la conectividad de las personas a nivel personal y laboral.
Fijándonos en el episodio más reciente de Facebook y sus servicios conectados como WhatsApp, Instagram o Messenger, vale la pena entender por qué sucedió algo así y cómo pueden las empresas evitar un evento de estas características. Después de que su servicio estuviera interrumpido durante casi siete horas, sabemos que fue provocado por una configuración defectuosa del Border Gateway Protocol (BGP), un concepto muy relacionado con el funcionamiento de Internet, el cual hay que comprender.
A diferencia de lo que se piensa, Internet no consiste en una gran red, sino en la interconexión de varios sistemas autónomos (AS). Dentro de estas subredes, cada dispositivo final conectado recibe una dirección IP. Esta dirección es única y asume una función similar al número de teléfono de una persona. Cuando se conecta a Internet desde su casa, el proveedor de Internet asigna una dirección IP al enrutador WiFi.
En redes más grandes, cada dispositivo tiene su propia dirección IP y estas direcciones individuales se pueden agrupar para formar subredes. Cada subred está a su vez conectada a un enrutador que sabe cómo llegar a los dispositivos finales en ella. Aquí, el protocolo de red llamado BGP se utiliza para llevar esta información de forma global. Un router BGP difunde la información sobre a qué subredes puede llegar y cómo. Esta información se intercambia entre muchos enrutadores, y cada enrutador puede decidir qué ruta debe tomar un paquete de datos para llegar a su destino.
Internet se basa en el hecho de que los enrutadores de diferentes redes, o sistemas autónomos, intercambian esta información a través de BGP y, por lo tanto, cada enrutador en Internet sabe cómo se puede llegar a todos los dispositivos. Esta tabla de enrutamiento contiene actualmente alrededor de un millón de entradas y está en constante crecimiento.
Nadie tiene que recordar direcciones IP, porque hay un servicio de directorio, como si fuera una guía telefónica, llamado DNS (Sistema de nombres de dominio) que asigna estas direcciones IP a nombres de dominio. Esto asegura que podamos escribir un nombre de dominio fácil de recordar y reconocible, en un navegador y le lleve al usuario a la página que desea. Cuando esto ocurre, en segundo plano, el cliente pregunta a su servidor DNS qué dirección IP se esconde detrás de él. Si el servidor DNS local no conoce la respuesta, pregunta al servidor DNS del proveedor de alojamiento, ya que este es responsable de sus entradas DNS.
¿Cómo puede ocurrir una configuración defectuosa?
En ocasiones pueden darse configuraciones defectuosas debido a errores en el software de automatización o también algo como un simple error tipográfico. Si se llevan a cabo en un enrutador, esto normalmente no tiene un gran impacto negativo, pero generalmente significa que una parte conectada de la red ya no es accesible. En redes muy grandes, sin embargo, los routers no se configuran manualmente debido a la gran cantidad de ellos. Por lo tanto, los cambios de configuración se distribuyen automáticamente y en paralelo. Según la propia información de Facebook, toda la red interna de área amplia se apagó por un cambio de configuración de este tipo, lo que hizo que todos sus servidores DNS se reconocieran como “defectuosos” y ya no se distribuían a través de BGP por lo que nadie podía averiguar dónde se escondía la dirección IP para acceder a su dominio.
¿Cómo pueden las empresas evitar tales situaciones?
Es recomendable, en primer lugar, que la red amplia del proveedor, como IONOS, opere con routers de dos fabricantes diferentes para evitar correr el riesgo de perder toda la red al mismo tiempo en caso de un error de software en el sistema operativo de los routers.
Además, los cambios automatizados en la configuración solo se llevan a cabo en dispositivos de un fabricante en paralelo. Esto evita que toda nuestra red de área amplia colapse. Al menos la mitad siempre permanece en funcionamiento, lo que garantiza que nuestros clientes sigan siendo accesibles.
Siempre es bueno que los cambios manuales siempre se realicen utilizando el principio de los cuatro ojos, lo que significa que dos personas tienen que aprobar una acción antes de que se pueda llevar a cabo. La certificación ISO 27001 también garantiza que los cambios en la red estén siempre vinculados a un proceso de garantía de calidad y aprobación.
Además, es importante que todas las redes internas, que incluyen los sistemas de gestión de edificios de los centros de datos, estén desacopladas de Internet y de las redes productivas del proveedor de alojamiento, como IONOS. Esto garantiza que las interrupciones en Internet o los ataques de denegación de servicio no tengan ningún efecto en el acceso a los sistemas de control o sistemas de alarma contra incendios, por ejemplo.
Medidas que se pueden tomar para tratar rápidamente una interrupción
Además de las redes de gestión convencionales a través de las cuales se configuran los sistemas de TI de IONOS, operamos las llamadas redes de gestión fuera de banda que están completamente desacopladas físicamente de todas las demás redes. Estos nos permiten acceder a nuestros routers independientemente de la infraestructura productiva, incluso si ya no son accesibles a través de las rutas “normales”. Las verificaciones periódicas de la documentación y los planes de contingencia también ayudan a garantizar que las redes vuelvan a estar rápidamente “en línea” después de una interrupción importante.
Las interrupciones de enrutamiento de gran alcance pueden ser causadas por configuraciones erróneas, como en el caso de Facebook, o por la falta de salvaguardas contra influencias externas. Por lo tanto, es esencial una Internet resiliente y un manejo responsable del enrutamiento de la red. Cada operador de red y proveedor de alojamiento está obligado a tomar las precauciones adecuadas. Iniciativas como las Normas Mutuamente Acordadas para la Seguridad del Enrutamiento (MANRS), que son apoyadas e implementadas por IONOS, también hacen una contribución importante a la definición de estándares comunes para asegurar el enrutamiento para la industria de Internet y reducir los riesgos de fallas.