Las funciones de alerta y de guardia de Opsgenie ya están disponibles en Jira Service Management y Compass. Migra los datos y las configuraciones actuales de Opsgenie antes del 5 de abril de 2027 con nuestra herramienta de migración automatizada.Más información

MTBF, MTTR, MTTA y MTTF

Comprensión de algunas de las métricas sobre incidentes más habituales

En el mundo actual, siempre activo, las interrupciones y los incidentes técnicos son más importantes que nunca. Los fallos y el tiempo de inactividad tienen consecuencias reales. Los incumplimientos de plazos, las demoras en los pagos y los retrasos en los proyectos forman parte del coste del tiempo de inactividad.

Por eso es importante que las empresas cuantifiquen y hagan un seguimiento de las métricas en torno al tiempo de actividad, el tiempo de inactividad y la rapidez y eficacia con la que los equipos resuelven las incidencias.

Algunas de las métricas de seguimiento más habituales del sector son las siguientes:

  • El MTBF (tiempo medio entre fallos) mide el tiempo medio de funcionamiento entre fallos del sistema.

    • Fórmula: MTBF = tiempo de funcionamiento total ÷ número de averías

  • El MTTR (tiempo medio de reparación, recuperación, resolución o respuesta) mide cómo de rápido se restaura un sistema o servicio después de una avería.

    • Fórmula: MTTR = tiempo de inactividad total ÷ número de incidentes

  • El MTTF (tiempo medio sin averías) se centra en la vida útil prevista de un sistema no reparable antes de que falle.

    • Fórmula: MTTF = tiempo de funcionamiento total ÷ número de averías (para sistemas que no se pueden reparar)

  • El MTTA (tiempo medio de confirmación de recepción) mide el tiempo que le lleva a un equipo reconocer o responder a un incidente.

    • Fórmula: MTTA = tiempo de confirmación de recepción ÷ número de incidentes

Muchos expertos sostienen que estas métricas no son realmente útiles por sí solas porque no plantean las preguntas más complicadas sobre cómo se resuelven los incidentes, qué funciona y qué no, y cómo, cuándo y por qué se escalan o desescalan las incidencias.

Por otro lado, el MTTR, el MTBF y el MTTF pueden ser una buena línea o punto de referencia para iniciar conversaciones que conducen a esas preguntas más profundas e importantes.

Aviso sobre MTTR

Cuando hablamos del MTTR, es fácil asumir que es una métrica única con un solo significado. Pero la verdad es que representa potencialmente cuatro mediciones diferentes. La R puede significar reparación, recuperación, respuesta o resolución, y aunque las cuatro métricas se superponen, cada una tiene su propio significado y matiz.

Por lo tanto, si tu equipo habla de hacer un seguimiento del MTTR, es una buena idea aclarar a qué MTTR se hace referencia y cómo se está definiendo. Antes de empezar a hacer un seguimiento de los éxitos y los fracasos, tu equipo tiene que estar de acuerdo con lo que estáis siguiendo exactamente y asegurarse de que todo el mundo sabe que están hablando de lo mismo.

MTBF: tiempo medio entre fallos

¿Qué es el tiempo medio entre fallos?

El MTBF (tiempo medio entre fallos) es la media de tiempo entre fallos reparables de un producto tecnológico. La métrica se utiliza para controlar tanto la disponibilidad como la fiabilidad de un producto. Cuanto mayor sea el tiempo entre fallos, más fiable será el sistema.

El objetivo de la mayoría de las empresas es mantener el MTBF lo más alto posible, es decir, que transcurran cientos de miles de horas (o incluso millones) entre las incidencias.

Fórmula del MTBF

La fórmula del MTBF es sencilla:

  • MTBF = tiempo de funcionamiento total/número de averías

El tiempo de funcionamiento total suele medirse en horas, sobre todo en el caso de los equipos de uso frecuente. Para calcularlo, multiplica las horas de funcionamiento diarias por el número de días en uso.

Puedes usar días operativos en lugar de horas para equipos que no se usan con tanta frecuencia, o incluso semanas cuando hagas un seguimiento de equipos cuya vida útil se prevé muy larga.

Ejemplo de MTBF

Ver un ejemplo en el que se use la fórmula del MTBF puede ayudarte a entender cómo calcularlo, así como el papel que desempeña en la gestión de incidentes. En este ejemplo, nos imaginaremos un servidor que funciona 24 horas al día durante un período de un mes.

  • 24 horas * 30 días = 720 horas

  • MBTF = 720 horas / 2 averías = 360 horas

En este caso, el tiempo medio entre averías sería de 360 horas. 

Cuándo usar el MTBF (y cuándo no)

El MTBF es una métrica útil cuando se trata de planificación y mantenimiento preventivo. Cuando usas el MTBF para comprender mejor la frecuencia con la que se producen las averías y el tiempo de inactividad, puedes incorporar de manera proactiva herramientas de gestión de incidentes y estrategias.

El MTBF no es idóneo en todas las situaciones. Para sistemas que no se pueden reparar, es mejor usar el tiempo medio sin averías (MTTF) que el MTBF.

¿Cuál es la relación entre el MTBF, el MTTR y la disponibilidad?

Calcular el MTBF y el MTTR a la vez te permite determinar la disponibilidad del sistema. La fórmula para la disponibilidad del sistema es la siguiente:

  • Disponibilidad = MTBF / (MTBF + MTTR)

Un MTBF más alto y un MTTR más bajo generan un mejor tiempo de actividad del sistema, lo que reduce el coste de los fallos. Sin embargo, es importante tener en cuenta la diferencia entre fiabilidad y disponibilidad. La disponibilidad mide la cantidad de tiempo que un sistema está operativo, mientras que la fiabilidad mide el rendimiento de un sistema en comparación con los estándares.

MTTR: tiempo medio de reparación

¿Qué es el tiempo medio de reparación?

El MTTR (tiempo medio de reparación) es la media de tiempo que se tarda en reparar un sistema (normalmente una cuestión técnica o mecánica). Incluye tanto el tiempo de reparación como el tiempo de pruebas. El reloj no se detiene en esta métrica hasta que el sistema vuelve a funcionar por completo.

Cómo se calcula el tiempo medio de reparación

Se puede calcular el MTTR sumando el tiempo total dedicado a las reparaciones durante un período determinado y dividiendo ese tiempo por el número de reparaciones.

Supongamos que estamos viendo las reparaciones en el transcurso de una semana. En ese tiempo, hubo 10 interrupciones y los sistemas se repararon activamente durante 4 horas. Cuatro horas son 240 minutos. Si dividimos 240 entre 10, el resultado es 24. Lo que significa que el tiempo medio de reparación en este caso sería de 24 minutos.

Las limitaciones del tiempo medio de reparación

El tiempo medio de reparación no siempre es el mismo que el de la propia interrupción del servicio del sistema. En algunos casos, las reparaciones se inician a los pocos minutos del fallo del producto o de la interrupción del servicio del sistema. En otros casos, hay un intervalo de tiempo entre la incidencia, el momento en que esta se detecta y el momento en que comienzan las reparaciones.

Esta métrica es más útil cuando se hace un seguimiento de la rapidez con la que el personal de mantenimiento es capaz de reparar una incidencia. No está pensada para identificar problemas con las alertas de tu sistema o los retrasos previos a la reparación; ambos son factores importantes a la hora de evaluar los éxitos y fracasos de tus programas de gestión de incidentes.

Cómo y cuándo usar la métrica de tiempo medio de reparación

El MTTR es una métrica que los equipos de soporte y mantenimiento utilizan para hacer un seguimiento de las reparaciones. El objetivo es conseguir que esta cifra sea lo más baja posible aumentando la eficiencia de los equipos y procesos de reparación. 

MTTR: tiempo medio de recuperación

¿Qué es el tiempo medio de recuperación?

El MTTR (tiempo medio de recuperación o tiempo medio de restauración) es la media de tiempo que se tarda en recuperarse de un fallo de un producto o sistema. Esto incluye todo el tiempo de la interrupción del servicio, desde el momento en que el sistema o el producto falla hasta que vuelve a funcionar por completo.

Es una métrica clave de DevOps que puede usarse para medir la estabilidad de un equipo de DevOps, como señala el programa DORA (DevOps Research and Assessment).

Cómo se calcula el tiempo medio de recuperación

El tiempo medio de recuperación se calcula sumando todo el tiempo de inactividad en un período concreto y dividiéndolo por el número de incidentes. Así pues, supongamos que nuestros sistemas estuvieron fuera de servicio durante 30 minutos en 2 incidentes distintos, en un período de 24 horas. Si dividimos 30 entre 2, el resultado es 15, es decir, que nuestro MTTR es de 15 minutos.

Las limitaciones del tiempo medio de recuperación

Este MTTR es una medición de la velocidad de tu proceso de recuperación total. ¿Es tan rápido como quieres que sea? ¿Cómo se compara con los procesos de tus competidores?

Esta es una métrica general que te ayuda a identificar si tienes algún problema. Sin embargo, si quieres diagnosticar dónde está el problema dentro de tu proceso (¿se trata de un problema con tu sistema de alertas?, ¿el equipo tarda demasiado en hacer las correcciones?, ¿se tarda demasiado en responder a una solicitud de corrección?), necesitarás más datos. Esto se debe a que hay más de una cosa que ocurre entre el fallo y la recuperación.

El problema podría estar en tu sistema de alertas. ¿Hay algún retraso entre un fallo y una alerta? ¿Tardan las alertas más de lo debido en llegar a la persona adecuada?

El problema podría estar en los diagnósticos. ¿Eres capaz de averiguar rápidamente cuál es el problema? ¿Hay procesos que puedan mejorarse?

O bien el problema podría estar en las reparaciones. ¿Son tus equipos de mantenimiento tan eficaces como podrían ser? Si están ocupando la mayor parte del tiempo, ¿qué es lo que les hace entretenerse?

Para responder a estas preguntas, tendrás que mirar más allá del MTTR; sin embargo, el tiempo medio de recuperación puede proporcionar un punto de partida para diagnosticar si hay algún problema con el proceso de recuperación que requiera que se profundice en él.

Cómo y cuándo usar la métrica de tiempo medio de recuperación

El MTTR es una buena métrica para evaluar la velocidad del proceso general de recuperación.

MTTR: tiempo medio de resolución

¿Qué es el tiempo medio de resolución?

El MTTR (tiempo medio de resolución) es la media de tiempo que se tarda en resolver completamente un fallo. Esto incluye no solo el tiempo dedicado a detectar el fallo, diagnosticar el problema y reparar la incidencia, sino también el tiempo dedicado a garantizar que el fallo no vuelva a producirse.

Esta métrica amplía la responsabilidad del equipo que gestiona la corrección para mejorar el rendimiento a largo plazo. Es la diferencia entre apagar un fuego y apagar un fuego y, luego, cubrir tu casa con material ignífugo.

Existe una fuerte correlación entre este MTTR y la satisfacción del cliente, por lo que es algo a lo que hay que prestar atención.

Cómo se calcula el tiempo medio de resolución

Para calcular este MTTR, suma el tiempo de resolución total durante el período en el que quieres hacer el seguimiento y divídelo por el número de incidentes.

Así, si en un período de 24 horas tus sistemas estuvieron fuera de servicio durante un total de 2 horas con un solo incidente y los equipos dedicaron otras 2 horas a realizar correcciones para garantizar que la interrupción en el sistema no vuelva a repetirse, son un total de 4 horas las que se dedicaron a resolver la incidencia. Lo que significa que tu MTTR es de 4 horas.

Nota sobre el seguimiento del tiempo medio de resolución

Ten en cuenta que el MTTR se calcula con mayor frecuencia utilizando las horas de trabajo (así pues, si un día te recuperas de una incidencia a la hora de cierre y dedicas tiempo a solucionar la incidencia a primera hora de la mañana siguiente, el MTTR no incluiría las 16 horas que pasaste fuera de la oficina). Si tienes equipos en varias ubicaciones que trabajan las 24 horas del día o si tienes empleados de guardia que trabajan fuera de horario, es importante que definas cómo harás el seguimiento del tiempo para esta métrica.

Cómo y cuándo usar la métrica de tiempo medio de resolución

Normalmente, el MTTR se utiliza cuando se habla de incidentes no planificados, no de solicitudes de servicio (que sí se suelen planificar).

MTTR: tiempo medio de respuesta

¿Qué es el tiempo medio de respuesta?

El MTTR (tiempo medio de respuesta) es la media de tiempo que se tarda en recuperarse de un fallo de un producto o sistema desde el momento en que se avisa por primera vez de dicho fallo. Esto no incluye ningún tiempo de retraso en tu sistema de alertas.

Cómo se calcula el tiempo medio de respuesta

Para calcular este MTTR, suma el tiempo de respuesta total desde la alerta hasta el momento en que el producto o servicio vuelva a funcionar por completo. Luego, divídelo por el número de incidentes.

Por ejemplo: si tuviste cuatro incidentes en una semana laboral de 40 horas y les dedicaste una hora en total (desde la alerta hasta la corrección), el MTTR para esa semana sería de 15 minutos.

Cómo y cuándo utilizar la métrica de tiempo medio de respuesta

Este MTTR suele emplearse en ciberseguridad para medir el éxito de un equipo en la neutralización de ataques a un sistema.

MTTA: tiempo medio de confirmación de recepción

¿Qué es el tiempo medio de confirmación de recepción?

El MTTA (tiempo medio de confirmación de recepción) es la media de tiempo que transcurre desde que se activa una alerta hasta que se empieza a trabajar en la incidencia. Esta métrica es útil para hacer un seguimiento de la capacidad de respuesta del equipo y de la eficacia de tu sistema de alertas.

Cómo se calcula el tiempo medio de confirmación de recepción

Para calcular el MTTA, suma el tiempo transcurrido entre la alerta y la confirmación de recepción y, después, divídelo por el número de incidentes. 

Por ejemplo: si se produjeron 10 incidentes y transcurrió un total de 40 minutos entre la alerta y la confirmación de recepción de los 10, divide 40 entre 10 y obtendrás una media de 4 minutos.

Cómo y cuándo usar la métrica de tiempo medio de confirmación de recepción

El MTTA es útil para hacer un seguimiento de la capacidad de respuesta. ¿Está tu equipo fatigado por las alertas y tarda demasiado en responder? Esta métrica te ayudará a detectar el problema.

MTTF: tiempo medio sin averías

¿Qué es el tiempo medio sin averías?

El MTTF (tiempo medio sin averías) es la media de tiempo que transcurre sin averías no reparables de un producto tecnológico. Por ejemplo, si los motores de automóviles de la marca X tienen una media de 500 000 horas antes de que se averíen por completo y se tengan que sustituir, el MTTF de los motores sería de 500 000.

El cálculo se utiliza para conocer la duración típica de un sistema, determinar si una nueva versión de un sistema supera a la anterior y ofrecer a los clientes información sobre la vida útil prevista y cuándo deben programar las revisiones de sus sistemas.

Cómo se calcula el tiempo medio sin averías

El tiempo medio sin averías es una media aritmética, por lo que se calcula sumando el tiempo de funcionamiento total de los productos que se están evaluando y dividiendo esa cifra por el número de dispositivos.

Por ejemplo: supongamos que quieres calcular el MTTF de las bombillas. ¿Cuánto tiempo duran las bombillas de la marca Y en fundirse? Digamos, además, que tienes una muestra de cuatro bombillas para probar (si quieres datos estadísticamente significativos, necesitarás mucho más que eso, pero para un cálculo simple, no nos vamos a complicar).

La bombilla A dura 20 horas, la bombilla B dura 18 horas, la bombilla C dura 21 horas y la bombilla D dura 21 horas. Eso suma un total de 80 horas de duración de las bombillas. Si dividimos esa cantidad entre 4, el MTTF es de 20 horas.

Ejemplo visual de cómo calcular el MTTF de las bombillas. El total de horas de las bombillas dividido por el número de bombillas es igual al MTTF (tiempo medio sin averías)

El problema del tiempo medio sin averías

Con un ejemplo como el de las bombillas, el MTTF es una métrica que tiene mucho sentido. Podemos hacer funcionar las bombillas hasta que falle la última y utilizar esa información para sacar conclusiones sobre su resistencia.

Pero ¿qué ocurre cuando medimos cosas que no fallan tan rápido? ¿Cosas que duran años y años? En esos casos, aunque se suele utilizar el MTTF, esta no es una métrica tan buena, porque en lugar de hacer funcionar un producto hasta que falla, la mayoría de las veces se hace funcionar un producto durante un tiempo definido y se mide cuántos fallan.

Por ejemplo: supongamos que queremos obtener estadísticas de MTTF de las tablets de la marca Z. Está previsto que, con suerte, estas tablets duren muchos años, pero cabe la posibilidad de que la marca Z solo tenga seis meses para recopilar datos. Así que decide probar 100 tablets durante seis meses. Pongamos que una tablet falla exactamente a los seis meses.

Así pues, si multiplicamos el tiempo de funcionamiento total (6 meses) por las 100 tablets probadas, obtenemos 600 meses. Como solo falló una tablet, dividimos la cifra obtenida por 1 y el MTTR sería de 600 meses, es decir, 50 años.

¿Va a durar cada tablet de la marca Z una media de 50 años? Es bastante improbable. Y por eso la métrica se rompe en casos como este.

Cómo y cuándo usar la métrica de tiempo medio sin averías

El MTTF funciona bien cuando hay que evaluar la duración media de productos y sistemas con una vida útil corta (por ejemplo, las bombillas). También está pensado solo para casos en los que se evalúa el fallo completo del producto. Si hay que calcular el tiempo que transcurre entre incidentes que requieren reparación, entonces la métrica ideal es MTBF, es decir, el tiempo medio entre fallos.

MTBF frente a MTTR, MTTF y MTTA

Entonces, ¿qué medición es mejor cuando se trata de hacer un seguimiento y mejorar la gestión de incidentes?La respuesta es todas ellas.

Aunque a veces se utilizan indistintamente, cada métrica proporciona una visión diferente. Cuando se utilizan juntas, pueden contar una historia más completa sobre el éxito de tu equipo con la gestión de incidentes y sobre los aspectos en los que puede mejorar.

Ilustración que muestra cómo el uso conjunto de las métricas MTBF, MTTR, MTTA y MTTF puede mejorar la gestión de incidentes

El tiempo medio de recuperación te indica la rapidez con la que puedes hacer que tus sistemas se recuperen y funcionen de nuevo.

Añade el tiempo medio de respuesta y tendrás una idea de qué parte del tiempo de recuperación corresponde al equipo y qué parte a tu sistema de alertas.

Añade también el tiempo medio de reparación y empezarás a ver cuánto tiempo dedica el equipo a las reparaciones y cuánto a los diagnósticos.

Añade el tiempo medio de resolución y podrás empezar a entender el alcance total de la corrección y la resolución de incidencias más allá del tiempo de inactividad real que causan.

Si añades el tiempo medio entre fallos, la imagen se amplía aún más, ya que conocerás el éxito de tu equipo en la prevención o la reducción de futuras incidencias.

A continuación, añade el tiempo medio sin averías para comprender el ciclo de vida completo de un producto o sistema.Jira Service Management ofrece funciones de generación de informes para que tu equipo pueda realizar un seguimiento de los KPI y supervisar y optimizar tus procesos de gestión de incidentes.

Preguntas frecuentes

¿Qué se considera una buena cifra de MTBF?

Lo que se considera una buena cifra de MTBF varía según el tipo de sistema con el que estés trabajando. Los componentes de alta fiabilidad, como los SSD, pueden tener un MTBF de 2 millones de horas, mientras que los servidores pueden tener un MTBF de aproximadamente 15 000 horas. Los componentes de fabricación física, como los motores de cinta transportadora, se consideran fiables si tienen un MTBF de 4000 horas.

¿Qué se considera un buen MTTR?

Un tiempo medio de reparación (MTTR) más bajo resulta en tiempos de reparación más rápidos, reduciendo el costoso tiempo de inactividad. Para los sistemas de fabricación, un MTTR de menos de 5 horas es ideal para ayudar a maximizar la producción. Los equipos de TI y seguridad suelen aspirar a un MTTR cercano a cero, por lo que cualquier valor por debajo de 1 hora es excelente. El MTTR también depende de los niveles de gravedad de los fallos.

¿Debería ser alto o bajo el MTTF?

El tiempo medio sin averías (MTTF) debería ser alto para los sistemas no reparables, porque el momento de la avería es el final de la vida útil de ese sistema. El MTTF difiere del MTBF porque mide el tiempo medio hasta que se avería un componente no reparable, en lugar del tiempo medio entre distintos fallos.

Recomendado para ti

tutorial

Descubre la comunicación de incidentes con Statuspage

En este tutorial, te mostraremos cómo utilizar plantillas de incidentes para comunicarte eficazmente durante las interrupciones. Puedes aplicarlo a muchos tipos de interrupciones del servicio.

Plantillas y ejemplos de comunicación de incidentes

A la hora de responder ante un incidente, las plantillas de comunicación tienen un valor incalculable. Hazte con las plantillas que utilizan nuestros equipos, así como con otros ejemplos para los incidentes comunes.

Más información sobre la gestión de incidentes

Encontrarás más guías y recursos de gestión de incidentes en este centro.