Como avanzaba en la entrada “Redundancia en entornos ICS/SCADA” hoy comenzaremos a hablar de aquellos mecanismos que dotan a nuestras redes industriales de una resiliencia mayor. La tendencia de los protocolos empleados en este tipo de entornos es evolucionar hacia tecnología Ethernet en lugar de la tradicional serie. Sin embargo, su propia naturaleza, no permite la creación de bucles en la red ya que el tráfico “Broadcast” podría no sólo ralentizar las comunicaciones, sino bloquearlas. Ante la necesidad de entornos que requieren alta disponibilidad, hemos configurar protocolos que “rompan” esos bucles dejando un solo camino posible para la comunicación entre equipos. En caso de producirse un fallo, dicho protocolo será capaz de detectarlo y desencadenar las medidas necesarias para que todo el tráfico comience a ir por una vía alternativa. En entornos IT, el más conocido es Spanning Tree Protocol (STP) así como sus respectivas versiones RSTP, MSTP o PVSTP. Sin embargo, los tiempos que maneja para poder restaurar las comunicaciones son muy altos para los requerimientos de los sistemas de control y automatización, siendo necesario emplear otros que iremos viendo en esta y entradas sucesivas.
El primero de ellos es MRP (Media Redundancy Protocol). Este protocolo está descrito en el estándar IEC 62439-2, el cual es ampliamente utilizado en redes industriales para entornos de alta disponibilidad. MRP opera en Capa 2 y es específico para redes en anillo con hasta 50 equipos, garantizando un comportamiento determinístico en caso necesidad de cambio de un estado a otro. Para ello, define una serie de tiempos máximos para recuperar las comunicaciones según sea la configuración elegida. Éstos pueden ser 500 ms, 200 ms, 30 ms y 10 ms. Como hemos dicho estos son valores máximos, por lo que los tiempos reales oscilan entre la mitad y un cuarto de los mismos. Esto es, si configuramos nuestros equipos con un valor de 200 ms, el tiempo aproximado del cambio entre una ruta a otra de los paquetes podrá rondar entre 50 y 60 ms, aproximadamente.
Como vemos en la imagen anterior, MRP necesita que cada nodo disponga de dos enlaces en el anillo. Dentro de la topología, uno de ellos será elegido MRM (Media Redundancy Manager), el cual monitoriza y controla, reaccionando en caso de fallo. Esto lo consigue enviando tramas de control desde cada uno de los puertos, recibiéndolas en el otro extremo. A pesar de que uno de ellos permanezca “Bloqueado”.
El resto de elementos del anillo reciben el nombre de MRC (Media Redundancy Client). Cada MRC retransmite las tramas de control enviadas por el MRM de un puerto a otro de tal manera que éste pueda detectar el fallo y activar el puerto en “Bloqueado”.
MRP define 3 tipos de tramas de control:
- Para monitorizar el estado de anillo. MRM envía regularmente tramas de prueba en ambos puertos que le conectan al anillo.
- Cuando el MRM detecta un fallo o recuperación de los enlaces, envía tramas de cambio de topología (“TopoChange”) en ambos puertos de lanillo.
- Cuando un MRC detecta un fallo o recuperación en un puerto, local envía tramas de cambio de enlace (“LinkChange”) al MRM. Éstas se consideran como un subtipo de otras denominadas “Linkdown y “Linkup”.
En un funcionamiento normal, “Anillo Cerrado”, el MRM bloqueará todo el tráfico a excepción de estas tramas, por lo que a efectos prácticos el anillo se comporta como si fuera un único enlace. Esto es, no existe ningún bucle.
Cuando el MRM deja de recibir dichas tramas en el otro extremo, interpreta que el enlace se ha roto en algún punto, “Anillo Abierto”, por lo que ese puerto que estaba en “Bloqueado”, ahora comienza a enviar tramas de forma normal.
A esto hay que sumar que los MRC son capaces de informar de cambios de estado en alguno de los enlaces. Si esto se produjese, el MRC envía una trama de control al MRM informando de ello. Si éste la recibe antes de detectar que se ha producido un cambio en el anillo, toma la información contenida en ella para activar el enlace “Bloqueado” y así recuperar la conectividad en el menor tiempo posible. De ahí que, aunque se fijen tiempos máximos, siempre cabe la posibilidad de que el anillo pueda seguir enviando tráfico por debajo de estos umbrales.
Tanto el MRM como el MRC definen una serie de “estados” para sus puertos dentro de la topología.
- Disabled, los puertos descartan todas las tramas recibidas.
- Blocked, los puertos descartan todas las tramas excepto las tramas de control MRP y algunas otras de protocolos como LLDP.
- Forwarding, los puertos reenvían todas las tramas recibidas.
- Not Connected, el enlace está físicamente caído o desconectado.
En otro orden, en el caso concreto de PROFINET, MRP puede ser implementado sobre los dispositivos finales sin necesidad de equipos adicionales gracias a la definición de una aplicación concreta como es PROFINET/MRP.
Por último conviene citar las funcionalidades que cada fabricante otorga a sus productos dependiendo de modelos y licenciamiento. Algunos de ellos pueden ser; posibilidad de integración con software de gestión como Siemens Total Integrated Automation (TIA); definición de varios anillos MRP por una misma VLAN; interperabilidad con Spanning Tree Protocol; etc.
No debemos olvidar tampoco de las limitaciones y recomendaciones que cada uno hace a la hora de configurar los equipos. Por ejemplo, Cisco nos habla de que los puertos MRP no pueden ser configurados como puertos SPAN, Private VLAN o Tunnel y, si además la implementación es sobre Profinet, como Trunk; ser configurado en puertos Etherchannel; etc.
Lo dicho, hablar de resiliencia no es sólo hablar de la securización, es tener además la capacidad de recuperarse del elemento que provoca una determinada perturbación. Hoy en día con la cantidad de amenazas que acechan a los Sistemas de Control Industrial resulta necesario no sólo desplegar medidas técnicas sino además definir arquitecturas que hagan frente a cambios o anomalías inesperadas. Los accidentes ocurren, una fibra óptica rota; un SFP, defectuoso; una configuración accidental de un puerto, o cualquier otra razón, bien puede desencadenar una alteración en las comunicaciones y por tanto un impacto en el proceso. Esto no quita que debamos hablar de otros riesgos como el “Sabotaje”, “Inyección de tráfico”, “Intrusión”, y que obligen implementar otras medidas como el “Hardening de Sistemas”, “Monitorización”, “Control de Accesos”, entre otras paliando así estas amenazas.
Un saludo a todos, nos vemos en la siguiente y no te olvides que puedes seguirnos también en @enredandoconred .
Hasta pronto!
Pingback: Puerto espejo, un aliado a veces olvidado. | Enredando con redes …
Pingback: Enredando con redes ...LLDP, pros y contras de la difusión de información en redes PROFINETEnredando con redes …
Pingback: Recolección de información empleando ICSSPLOIT y PROFINET-DCP.Enredando con redes …
Pingback: Uso de funcionalidad Port Mirroring para captura de trafico en redes OT.Enredando con redes …
Buenas!
Antes de nada, me gustaría felicitarte por tu pedazo blog. Recién he comenzado mi carrera en Ciberseguridad y estoy cursando un máster, y puedo decir que ojalá en mi curso dispusiese de esta información (la cuál ahora tengo) 🙂
He comenzado a trabajar en el área de Ciberseguridad Industrial, por lo que mi experiencia en el campo es más bien nula.
Me disponía a buscar alguna manera para resolver la problemática de bucles de red en routers y switches Fortinet.
Como bien comentas en alguno de tus post, el protocolo STP está descartado(aunque no he entendido muy bien el por qué).
Me gustaría preguntarte dada tu experiencia, si me podrías recomendar algún método para prevenir o detectar bucles en este tipo de dispositivos.
Gracias 🙂
Saludos!
David
Hola David. Primero que todo muchas gracias por tu comentario, me alegro much que sea de utilidad y ayuda. El tema de STP es porque se pueden emplear otros mecanismos para obtener redundancia en redes IT sin la necesidad de emplear este protocolo. Todo depende de qué tipo arquitectura esté desplegando. Puede utilidad agregación de enlaces, enlaces de backup, stack de switches, equipos en configuración en activo-pasivo. Ciñéndonos a redes industriales y a STP, el problema está en que aún con Rapid STP el tiempo de convergencia es de 1 segundo o algo menos. Ese tiempo puede ser excesivo en comunicaciones industriales ya que los tiempos de convergencia en protocolos similares a STP lo hacen por debajo de 15 ms o cero y con una cantidad de switches mayores. En redes OT, tiene sentido este tipo de protocolos ya que muchas de las comunicaciones se producen en capa 2 del modelo OSI, no enrutandose. Aparte que los switches industriales no soportan configuraciones avanzadas como sí lo pueden tener en equipos tradicionales, Cisco, HP, etc.
Un saludo.
Edorta