О вреде сисадминов.

Sysadmin

В одной крупной организации была большая аппаратная. В ней размещалось больше сотни серверов, систем хранения данных и всякой всячины. На двери была прикреплена заботливо свинченная в другом месте табличка, обозначающая женский туалет. Это был оберег. Легенда была такая: когда ночью, в пятницу 13-го числа, призрак сисадмина этого места отправится искать аппаратную, он увидит табличку и пройдет мимо. А значит, ничего не сломает.

Все, кто занимается обеспечением работоспособности (это называется ITSM — Information Technology Service Management), знают, что сисадмин — главный враг всяческой работоспособности и непрерывности бизнеса. Почему? И что на самом деле необходимо делать, чтобы все работало?

Как и большая часть моих заметок здесь, эта касается малого и среднего бизнеса. До сих пор, во многих компаниях этой категории, разыгрывают один старый сценарий. Нанять за бесплатный кофе и 40 тысяч в месяц собственного сисадмина, рукастого и головастого, который будет сидеть в офисе и всех спасать. Ага. Вот только вероятность нанять на таких условиях на полную рабочую неделю специалиста, который действительно умеет обеспечивать работоспособность, очень мала. Просто ему будет нечего делать в вашей компании. Реальный объем работы от силы  на один день в неделю, скорее, на пол дня. Оставшееся время придется пить бесплатный кофе и бегать в сортир. Гораздо вероятнее заполучить гика, который понаставит вам мешанину нужных систем: винда, линух, фряха, зафара, керио и т.п. А потом будет с раздраженным (или отеческим) видом объяснять вам, что вы не так делаете и почему у вас не получается. Но я не собираюсь писать о таких банальностях. Я собрался написать о том, как же в реальной жизни обеспечивается работоспособность систем.

Начнем с простого вопроса: что надо делать, когда что-то, что вчера работало, сегодня не работает? Очевидный ответ: найти причину и устранить. Ответ неверный. Это хороший ответ для инженера, но плохой для ITSM. Правильный ответ: перейти на резервный канал (резервное устройство), если такого нет, то восстановить последнее работоспособное состояние. Дело в том, что поиск причины — занятие интересное и полезное, но может продлиться много времени. Иногда очень много. Лучше отложить это на потом. Сейчас надо быстро восстановить работоспособность системы. Искусство ITSM как раз и состоит в том, чтобы заранее обеспечить возможность такого быстрого восстановления. Посмотрим как этого добиться.

Придерживайтесь принципа максимальной простоты в тех системах, которые вы внедряете в своем ИТ хозяйстве. Простые системы работают надежнее, стоят дешевле, при их использовании люди совершают меньше ошибок. Об этом у меня  здесь целая статья.

По возможности, используйте облачные сервисы, например, Office 365, Exchange online, 1С в облаке и т.п. Храните данные в облаке. Это позволит вам, при неисправности локального компьютера, просто заменить его другим и продолжить работу, как ни в чем ни бывало.

Когда вы покупаете компьютеры для своего офиса, не берите их на базаре или по частям. Это не будет дешевле. Правда не будет. Лучше купите у местного производителя. Хороший пример — DEPO Computers. Стоит дешево, срок поставки — очень быстро, и вы можете сразу приобрести бизнес-сервис, например, замена на следующий рабочий день сроком на 3 года или 5 лет. Если вы работаете в облаке, вы можете купить самые простенькие нет-топы. Это такие совсем маленькие, но полноценные компьютеры. Мы использовали их в одном крупном банке со своим «частным облаком» (то же, что обычное, но реализованное в собственной аппаратной, на своем оборудовании). Сотрудникам они очень нравились. Маленькие, бесшумные. Так называемые «тонкие клиенты» использовать не рекомендую, они стоят гораздо дороже нет-топов, и без специальной системы управления их совсем нереально обслуживать.

Обеспечьте резерв оборудования и каналов связи по схеме N+1. Если вам необходимо восстановление работоспособности быстрее, чем за 4 часа, этот пункт обязателен. Что значит N+1? Это значит, что на каждый тип оборудования у вас должна быть резервная единица, не зависимо от количества единиц оборудования данного типа. Допустим, у вас 50 компьютеров. Должен быть один резервный. У вас 1 сетевой маршрутизатор в Интернет? Должен быть один резервный. Резервное оборудование не обязательно должно быть того же класса, что и основное. Может быть проще и дешевле. Его задача — дождаться, когда основное будет починено или заменено. Например, вы последовали моим рекомендациям из статьи «Файрволы» и купили дорогущий UTM-файрвол FortiGate. Поставьте рядом тот самый ZyXEL, который стоит в 15 раз дешевле (и не забудьте сконфигурировать его для работы). Если что, он вас временно выручит, пусть и с меньшим уровнем защиты от всякой дряни. Также надо резервировать канал в Интернет, например, 4G модемом в вашем маршрутизаторе. Этого же принципа придерживайтесь в расходных материалах (бумага, картриджи для принтеров). То есть новую расходку заказывайте не когда вся закончилась, а когда осталась только резервная.

Если у вас есть критичные системы, даже десктопные, например, компьютер вашего бухгалтера, используйте виртуализацию. То есть сделайте так: установите на компьютер какое-нибудь средство поддержки виртуальных машин, создайте виртуальную машину, и уже на виртуалку упихайте все, что нужно вашему бухгалтеру. Виртуальные машины могут «мгновенно сохраняться» и также «мгновенно восстанавливаться», это вам пригодится. Серверные системы тоже предпочтительно делать на виртуалках, по той же причине.

Когда вы подготовили и настроили компьютер для работы нового сотрудника, создайте диск восстановления системы. Возьмите конверт, напишите на нем, что хранится на диске и для чего он создан, засуньте туда диск и спрячьте конверт в сейф. Может так случиться, что систему придется переустанавливать. Делать это с дистрибутива не удобно, поскольку может возникнуть потребность в специфических для компьютера драйверах устройств. Их придется долго искать и устанавливать. С диска восстановления все получится быстрее. Рекомендую иметь в офисе для этих целей внешний дисковод DVD, подключаемый по USB. Это не дорого.

Если вы собрались установить на компьютер новую программу или обновить имеющуюся, не важно какую именно, сначала создайте точку восстановления системы. Это элементарная операция, но она может вас спасти, если что-то пойдет не так. Если речь идет о критичной системе и вы последовали моему совету и развернули ее на виртуальной машине, сделайте так: завершите работу в виртуальной машине, сохраните образ машины (snapshot), запишите образ на внешний носитель (рекомендую подключаемый по USB жесткий диск), теперь можете запустить виртуальную машину и установить обновление. Для серверных систем и сетевых маршрутизаторов это также верно и в случае, если вы собрались менять конфигурацию системы. Вы должны сохранить текущую конфигурацию.

Если в ваших системах есть «критичные учетные записи», например, логины и пароли администраторов систем, они должны быть записаны на бумаге и отданы на хранение «ответственному человеку», лучше в его личном сейфе. Если вы изменили пароль к такой учетке, запись на бумаге должна быть обновлена.

Если вы храните данные не в облаке, а на офисных компьютерах (или серверах), вам придется позаботиться об их регулярном бэкапе на «отчуждаемый носитель», ленту или диск. И придумать способ регулярной проверки того, что вы можете восстановить эти данные.

Всегда документируйте свои действия. Ясно описывайте, что вы сделали, когда сделали, где сделали. Копия файла с таким учетом должна храниться у «ответственного человека».

Вот. Если вы умеете соблюдать эти простые правила, вы можете обеспечить работоспособность ИТ систем компании самым прекрасным образом. И при этом вы будете тратить очень мало времени и сил. Это и называется ITSM.

А что же сисадмин? А сисадмин это совсем не тот человек, который примус починяет. Сисадмин — это человек, который управляет ресурсами. Например, следит по системам мониторинга за нагрузкой на узлах кластера и поправляет настройки балансировки, если вдруг выясняется, что автоматика не работает, как надо. Или присматривает за работой системы резервного копирования, и оперативно поправляет настройки автоматического бэкапа, если что-то идет не так. Короче, основное  предназначение сисадмина — ручная оперативная корректировка работающих процессов и выполнение регламентных действий по обслуживанию системы, как правило ручных действий. Именно поэтому специалисты ITSM так не любят сисадминов. Известно ведь, не ломается то, что не трогают руками.

Непрерывного вам полета, и чтобы не было снегоуборочных машин на взлетной полосе.

Реклама

О вреде сисадминов.: Один комментарий

  1. Уведомление: Защита информации в SMB. Внешнее проникновение. | ESGUARDIAN

Добавить комментарий

Заполните поля или щелкните по значку, чтобы оставить свой комментарий:

Логотип WordPress.com

Для комментария используется ваша учётная запись WordPress.com. Выход /  Изменить )

Google+ photo

Для комментария используется ваша учётная запись Google+. Выход /  Изменить )

Фотография Twitter

Для комментария используется ваша учётная запись Twitter. Выход /  Изменить )

Фотография Facebook

Для комментария используется ваша учётная запись Facebook. Выход /  Изменить )

Connecting to %s