Ingeniería de confiabilidad del sitio


La ingeniería de confiabilidad del sitio ( SRE ) es un conjunto de principios y prácticas [1] que incorpora aspectos de la ingeniería de software y los aplica a problemas de infraestructura y operaciones . [2] Los objetivos principales son crear sistemas de software escalables y altamente confiables . [2] La ingeniería de confiabilidad del sitio está estrechamente relacionada con DevOps , un conjunto de prácticas que combinan el desarrollo de software y las operaciones de TI, y SRE también se ha descrito como una implementación específica de DevOps. [2] [3]

El campo de la ingeniería de confiabilidad del sitio se originó en Google con Ben Treynor Sloss, [4] [5] quien fundó un equipo de confiabilidad del sitio después de unirse a la empresa en 2003. [6] En 2016, Google empleó a más de 1,000 ingenieros de confiabilidad del sitio. [7] Después de originarse en Google en 2003, el concepto se extendió a la industria de desarrollo de software más amplia y, posteriormente, otras empresas comenzaron a emplear ingenieros de confiabilidad del sitio. [8] La posición es más común en las empresas web más grandes, ya que las empresas pequeñas a menudo no operan a una escala que requiera SRE dedicados. [8] Las organizaciones que han adoptado el concepto incluyen Airbnb ,Dropbox , IBM , [9] LinkedIn , Netflix [7] y Wikimedia . [10] Según un informe de 2021 del Instituto DevOps, el 22 % de las organizaciones en una encuesta de 2000 encuestados había adoptado el modelo SRE. [11] [12]

La ingeniería de confiabilidad del sitio, como función de trabajo, puede ser realizada por profesionales independientes u organizada en equipos que generalmente son responsables de una combinación de lo siguiente dentro de una organización de ingeniería más amplia: disponibilidad del sistema , latencia , rendimiento , eficiencia, gestión de cambios , monitoreo , respuesta de emergencia y planificación de la capacidad . [13] Los ingenieros de confiabilidad del sitio a menudo tienen experiencia en ingeniería de software , ingeniería de sistemas o administración de sistemas . [14] Los enfoques de la ingeniería de confiabilidad del sitio incluyen automatización,diseño del sistema y mejoras a la resiliencia del sistema . [14]

La ingeniería de confiabilidad del sitio, como un conjunto de principios y prácticas, puede ser realizada por cualquier persona. SRE es similar a la ingeniería de seguridad en la forma en que se espera que cualquiera contribuya a las buenas prácticas de seguridad, pero una empresa puede decidir eventualmente contratar especialistas para el trabajo. Por el contrario, para proteger los sistemas de Internet, las empresas pueden contratar ingenieros de seguridad y, para definir y garantizar sus objetivos de confiabilidad, las empresas pueden contratar SRE en su lugar.

La ingeniería de confiabilidad del sitio también se ha descrito como una implementación específica de DevOps [2] [3] , pero se enfoca específicamente en construir sistemas confiables, mientras que DevOps se enfoca más ampliamente en la infraestructura. [2]

Stephen Gossett escribió en Built In que algunas empresas han cambiado el nombre de sus equipos de operaciones a equipos SRE con pocos cambios significativos. [8] Esto también se percibe como cierto para los equipos de operaciones renombrados para llamarse equipos DevOps.