La ingeniería de confiabilidad del sitio ( SRE ) es una disciplina que incorpora aspectos de la ingeniería de software y los aplica a problemas de infraestructura y operaciones . [1] Los principales objetivos son crear sistemas de software escalables y altamente fiables . [1] La ingeniería de confiabilidad del sitio está estrechamente relacionada con DevOps , un conjunto de prácticas que combinan el desarrollo de software y las operaciones de TI, y SRE también se ha descrito como una implementación específica de DevOps. [1] [2]
Historia
El campo de la ingeniería de confiabilidad del sitio se originó en Google con Ben Treynor Sloss, [3] [4] quien fundó un equipo de confiabilidad del sitio después de unirse a la empresa en 2003. [5] En 2016, Google empleó a más de 1,000 ingenieros de confiabilidad del sitio. [6] Después de originarse en Google en 2003, el concepto se extendió a la industria de desarrollo de software en general y, posteriormente, otras empresas comenzaron a emplear ingenieros de confiabilidad del sitio. [7] La posición es más común en las empresas web más grandes, ya que las empresas pequeñas a menudo no operan a una escala que requeriría SRE dedicados. [7] Las empresas que han adoptado el concepto incluyen Dropbox , Airbnb y Netflix . [6] Según un informe de 2021 del DevOps Institute, el 22% de las organizaciones en una encuesta de 2.000 encuestados habían adoptado el modelo SRE. [8] [9]
Definición
La ingeniería de confiabilidad del sitio es la aplicación de la ingeniería de software a los temas de TI, incluida la infraestructura y las operaciones, con el objetivo de crear y mantener sistemas escalables y confiables. [1] [4] Los ingenieros de confiabilidad del sitio a menudo tienen experiencia en ingeniería de software , ingeniería de sistemas o administración de sistemas . [10] Los enfoques de la ingeniería de confiabilidad del sitio incluyen automatización, diseño de sistemas y mejoras en la resiliencia del sistema . [10] Los equipos de SRE son responsables de la disponibilidad del sistema , la latencia , el rendimiento , la eficiencia, la gestión de cambios , el seguimiento , la respuesta a emergencias y la planificación de la capacidad . [11]
La ingeniería de confiabilidad del sitio está estrechamente relacionada con DevOps , un conjunto de prácticas que combinan el desarrollo de software y las operaciones de TI, y también se ha descrito como una implementación específica de DevOps. [1] [2] La ingeniería de confiabilidad del sitio se enfoca específicamente en construir sistemas confiables, mientras que DevOps se enfoca más ampliamente en la infraestructura. [1] La definición varía un poco según la empresa, y Stephen Gossett escribió en Built In que algunas empresas han cambiado el nombre de sus equipos de operaciones a equipos SRE con pocos cambios significativos. [7]
Industria
La organización USENIX ha celebrado una conferencia anual SREcon desde 2014 para ingenieros de confiabilidad de sitios en la industria, y también organiza conferencias regionales con temas similares. [12]
Ver también
- Ingeniería del caos
- Computación en la nube
- Centro de datos
- Recuperación de desastres
- Software de alta disponibilidad
- Infraestructura como código
- Operaciones, administración y gestión
- Jefe de operaciones
- Ingeniería de confiabilidad
- Administracion del sistema
Referencias
- ^ a b c d e f Beyer, Betsy; Jones, Chris; Petoff, Jennifer; Murphy, Niall, eds. (2016). Ingeniería de confiabilidad del sitio: cómo Google administra los sistemas de producción . Sebastopol, CA: O'Reilly Media . ISBN 978-1-4919-5118-7. OCLC 945577030 .
- ^ a b Vargo, Seth; Fong-Jones, Liz (1 de marzo de 2018). ¿Cuál es la diferencia entre DevOps y SRE? (la clase SRE implementa DevOps) (Video). Google .
- ^ Hill, Patrick. "¿Te encanta DevOps? Espera hasta que conozcas a SRE" . Atlassian . Consultado el 17 de junio de 2021 .
- ^ a b "¿Qué es SRE?" . Red Hat . Consultado el 17 de junio de 2021 .
- ^ Treynor, Ben (2014). "Claves para SRE" . USENIX SREcon14 . Consultado el 17 de junio de 2021 .
- ^ a b Fischer, Donald (2 de marzo de 2016). "¿Son los ingenieros de confiabilidad del sitio los próximos científicos de datos?" . TechCrunch . Consultado el 17 de junio de 2021 .
- ^ a b c Gossett, Stephen (1 de junio de 2020). "¿Qué es un ingeniero de confiabilidad del sitio? ¿Qué hace un SRE?" . Construido en . Consultado el 17 de junio de 2021 .
- ^ Oehrlich, Eveline; Groll, Jayne; Garbani, Jean-Pierre (2021). Mejora de las habilidades 2021 Enterprise DevOps SkillsReport (PDF) (Informe). Instituto DevOps . Consultado el 17 de junio de 2021 .
- ^ Oehrlich, Eveline (4 de mayo de 2021). "Lo que se necesita para ser un ingeniero de confiabilidad de sitios" . TechBeacon . Micro Focus . Consultado el 17 de junio de 2021 .
- ^ a b Jones, Chris; Underwood, Todd; Nukala, Shylaja (junio de 2015). "Contratación de ingenieros de confiabilidad del sitio" (PDF) . ; entrada: . Vol. 40 no. 3. págs. 35–39 . Consultado el 17 de junio de 2021 .
- ^ Treynor, Ben. "En conversación" (entrevista). Entrevistado por Niall Murphy. Ingeniería de confiabilidad del sitio de Google.
- ^ "Usenix SREcon" . USENIX . 2021 . Consultado el 17 de junio de 2021 .
Otras lecturas
- Blank-Edelman, David N., ed. (2018). Buscando SRE: Conversaciones sobre la ejecución de sistemas de producción a escala (1 ed.). Sebastopol, CA: O'Reilly Media . ISBN 978-1491978863. OCLC 1052565720 .
- Limoncelli, Tom; Chalup, Strata R .; Hogan, Christina J. (septiembre de 2014). La práctica de la administración de sistemas en la nube: prácticas de DevOps y SRE para servicios web . 2 . Upper Saddle River, Nueva Jersey: Addison-Wesley . ISBN 978-0-13-347854-9. OCLC 891786231 .
enlaces externos
- Impresionante lista de recursos de ingeniería de confiabilidad del sitio
- Cómo enumeran los recursos de SRE