Страница 1 из 1
SMG-2016: что это было?
Добавлено: 08 янв 2018 19:55
borisk
Добрый день!
Решил сегодня настроить мониторинг некоторых параметров железки по SNMP. Меня на данный момент интерсует только CPU load и E1 busy ts.
Почитал MIB, создал правила в Zabbix - частота обновления 1 мин. Ура, все вроде мониторится, но проходит где-то минут 30-40 и SMG полностью пропадает. Ни звонки не проходят, ни управляющий интерфейс недоступен. Консоль, увы, не подключена.
Отрубаю мониторинг в zabbix, мчусь на узел. На это затратил примерно 30 минут. Прилетаю - железка живая! Лезу в логи - в логах чисто, аварий нет. В fail2ban - пусто. Оборудование не перезагружалось. По логам коммутатора - порт не падал. И все снова работает, звонки ходят, управлять могу. Софт - 3.9.0. Вопрос - что же это было???? Включать мониторинг назад пока боюсь, а он нужен.
Re: SMG-2016: что это было?
Добавлено: 08 янв 2018 20:27
bravo
а как скоро вызовы пошли после отключения snmp запросов к железке?
Re: SMG-2016: что это было?
Добавлено: 08 янв 2018 22:48
borisk
Не могу сказать со 100% уверенностью, потому что отключил запросы и сразу же поехал на узел. По пути пару раз набирал автоответчик - был недоступен, это все было в пределах 15 минут после отключения. Потом уже не проверял, просто ехал на узел. На узел приехал минут через 30 - и все уже работало.
Re: SMG-2016: что это было?
Добавлено: 08 янв 2018 23:28
borisk
Есть предположение - у хоста было по умолчанию включено "использовать массовые запросы". Вот, что это значит в понимании zabbix:
https://www.zabbix.com/documentation/3.4/ru/manual/config/items/itemtypes/snmp#%D0%BE%D0%B1%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%BA%D0%B0_%D0%BC%D0%B0%D1%81%D1%81%D0%BE%D0%B2%D1%8B%D1%85_snmp_%D0%B7%D0%B0%D0%BF%D1%80%D0%BE%D1%81%D0%BE%D0%B2То есть как раз, примерно через 30-40 минут работы он должен был выйти на максимальный уровень в 128 переменных в запросе. Возможно где-то здесь проблема возникла? Господа разработчики, а какие у вас будут предположения?
Re: SMG-2016: что это было?
Добавлено: 09 янв 2018 00:54
borisk
Рискнул все же, включил мониторинг с отключенным "массовые запросы". Тьфу тьфу, но вроде уже 1.5 часа полёт нормальный.
Re: SMG-2016: что это было?
Добавлено: 09 янв 2018 12:20
Женя
Перезапуск не делали?
посмотрите Время работы ПО и Время работы системы совпадают?
в разделе Трассировки - Файлы и папки в директории для трассировок - есть файлы gzcore?
Re: SMG-2016: что это было?
Добавлено: 09 янв 2018 12:24
borisk
Перезапуск не делал.
Код: Выделить всё
Текущее время Tuesday January 09 10:22:57 YEKT 2018
Время работы ПО 135d 14hour 18min 08sec
Время работы системы 135d 14hour 18min 35sec
Причина последней перезагрузки Отключение питания
Файлов gzcore нет.
Re: SMG-2016: что это было?
Добавлено: 09 янв 2018 15:26
bravo
borisk писал(а):Не могу сказать со 100% уверенностью, потому что отключил запросы и сразу же поехал на узел. По пути пару раз набирал автоответчик - был недоступен, это все было в пределах 15 минут после отключения. Потом уже не проверял, просто ехал на узел. На узел приехал минут через 30 - и все уже работало.
я думаю вы можете это увидеть в CDR записях на самом SMG или на смежных станциях.
Где то должны были остаться следы того, что происходило с железкой всё это время.
может быть в CDR какие то интересные релизы будут присутствовать на время отсутствия связи... если ПО и железо не падало, то проблема явно с ресурсами, которые не успевали обработать вызовы или тупо дропали их. В любом случае релизы должны быть интересные.
Re: SMG-2016: что это было?
Добавлено: 09 янв 2018 16:47
borisk
Смотрел. Но это было как раз время совсем минимальной нагрузки на станцию - 5-6 вызовов в час. В указанный промежуток в CDR тоже чисто. Так что непонятно - потому что система не могла, или потому что в принципе вызовов не было. Но мои вызовы не зафиксированы.
P.S. Но, как я и писал, без той галочки в zabbix полёт уже сутки нормальный, графики рисуются.