본문 바로가기

쉽게 풀어본 IT 기술

운영 수준 정의 - SLA

서비스 레벨 동의라고 해석되어지는데, 이는 IT 계약 할 때 운영을 맡게 되는 경우 그 시스템이 어느 정도 영속성을 가지고, 장애는 어느 정도까지 허용된다라고 하는 운영의 수준에 대한 부분의 협의 내용이다. 여기에는 서비스가 잘되면 어떤 보상을 주고, 서비스가 특정 시간 이상 안될 수에는 벌금을 물겠다는 내용이 포함된다. 수행 업체는 그 책임을 어느정도를 져야 하는데, 그 책임을 지고 운영을 하겠다는 것을 말로만 하는 것이 아니라 실제 부속계약으로 금전적 내용을 포함한다.

대표적인 것이 서비스 가용율이다. 서버를 운영한다고 해도 대부분은 서버위에 동작되고 있는 서비스가 중요하다. 이 서비스가 얼마나 중단 없이 서비스를 하는 가가 운영 수행사가 책임 져야 할 내용일 것이다. 서비스 가용율은 관련된 수행 내용이 많아야 할 것이다. 시스템도 잘 관리가 되어져야 하고, 서비스 및 시스템에 대한 모니터링도 잘 되어야 할 것이다. 그리고 문제가 생겼을 때 즉시 조치를 해야 할 것이다. 왜냐면 기본적으로 가용율은 장애 시간과 관련이 있기 때문이다.

전체 운영 시간에서 장애 시간을 빼는 것이 서비스 가용 시간이 된다. 사실 이러한 SLA의 항목들은 계약 당사자들간에 협의에 의해서 항목 조정 및 수준의 조정이 된다. 서비스에서 핵심적으로 지켜져야 한다고 보는 항목들을 크리터컬 항목으로 잡고, 크리티컬 하지는 않지만, 그외 주요 지표들은 Key 레벨로 항목을 선정하여 관리한다. 크리티컬에 대표적인 것이 장애 발생 건수이다. 장애가 발생되었다는 것이 운영에 있어서는 가장 치명적이다. 물론 장애가 났는데, 서비스에 영향이 없다면 다행일 수 있다. 불이 났는데, 인명피해가 없다 정도가 아닐까 싶다. 장애가 났는데, 서비스에 영향도를 안줄수는 없다. 서비스에 영향을 주지 않았다면 장애라고 하지 않을 수 있다. 시스템 폴트 정도라고 할 것이다. 서비스와 장애는 밀접한 연관이 있다. 그래서 크리터컬에 가용율이나 장애 발생 건수를 둔다. 키레벨로 관리하는 항목들은 서비스에 직접적인 영향이 없더라도 필요한 항목들을 지표관리를 하고, 이후에 필요하면 크리티컬로 하여 관리할 수도 있다. 그러면 이렇게 관리된 지표들은 어떻게 사용되어지는지 운영 수준을 가늠한다. 그리고 운영이 나아지는지 심지어 사고 발생 시 책임에 따르는 경제적인 책임까지도 언급을 하는 기준이 된다. 그래서 실제 운영비를 받고, 그 운영 비에서 사고 발생에 대한 책임 부분을 정량적으로 계산하여 제하기도 한다. 하지만 사고마다 그렇게 다 운영비를 제하여 버리면 운영을 할 수가 없기때문에 earnback이라는 개념을 두고 그전에 쌓인 일종의 벌금(credit)을 상쇄 할 수있게도 해준다. 열심히 해서 잘하면 탕감해주는 개념이라고 볼 수 있다. SLA의 기준 수치를 처음부터 무리하게 잡기 보다는 몇개월간의 지표를 수집하여 그 지표를 기준으로 하여 목표 수치와 한계 수치를 잡는 것이 좋다.


책처럼 전체를 보기를 원하시면 아래 링크를 클릭하시고 북마크 하셔서 보시면 편리합니다. 

https://wikidocs.net/22351