System error critical out of memory condition was detected

Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут маршрутизатора. Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !! После ребута в логах появляется сообщение "critical out of memory conditio...
  • Вся активность

Самопроизвольная перезагeрзка CCR1016-12S-1S+

Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут 

маршрутизатора.  Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !!    После ребута в логах появляется сообщение «critical out of memory condition was detected «, и мы не можем понять, что это ?

Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. 

Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !!

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich какие сервисы используются, сколько памяти свободно в чнн?

Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий.

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

2 часа назад, EShirokiy сказал:

@rdmitrich какие сервисы используются, сколько памяти свободно в чнн?

Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий.

NAT + PPPoE сервер, BGP нет, память в чнн — 1500. Что касается Conntrack — нужно ли ?? Загрузка процессоров в 50%

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR.

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

16 минут назад, EShirokiy сказал:

@rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR.

Сейчас уcтановили CCR1009-7G-1S+ из ЗИПа, пока все работает, 400+ мегабит, аптайм 2.21

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min).


Изменено 10 марта, 2020 пользователем nkusnetsov

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

13 минут назад, nkusnetsov сказал:

При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min).

Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ???


Изменено 10 марта, 2020 пользователем rdmitrich

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

В 08.03.2020 в 05:28, rdmitrich сказал:

Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут 

маршрутизатора.  Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !!    После ребута в логах появляется сообщение «critical out of memory condition was detected «, и мы не можем понять, что это ?

Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка. 

Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !!

Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах.


Изменено 10 марта, 2020 пользователем msdt

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich 

Так чисто поржать. 

В сетевом оборудование есть таблицы.

Пример: таблица маршрутизации, таблица арп, таблица коммутации и т.д.

У всех таблиц есть ограничение.

Вот в микротике есть таблица conntrack отвечающая за нат у нее то же есть ограничения, зачем держать в таблицы 24 часа запись если она была полезна 5-20 минут? 

Когда у вас маршрутизатор перезагружался таблица чистилась. 


Так же стоит отключить ip dns  allow-remote-requests 

Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036, можно больше, но любой чих появляется головная бол

З.Ы. Я бы рекомендовал скинуть настройки в дефолт в 0 и настроить заново. 

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

1 час назад, msdt сказал:

Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах.

в консоли так и пишет — «critical out of memory condition was detected «

13 минут назад, pingz сказал:

Так чисто поржать. 

Нам нифига не до смеха, купили новую железку, а она е@ет мозги….

13 минут назад, pingz сказал:

Так же стоит отключить ip dns  allow-remote-requests

отключили сразу

13 минут назад, pingz сказал:

Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036

не маловато для 1036 ??? Вы какие тарифы отдаете ?? 200 мегабит на абонента ??    У нас сейчас 1009 жует 350 абонентов, траф в пике 500 мег, тарифы 30-50 мегабит


Изменено 10 марта, 2020 пользователем rdmitrich

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich тарифы до 100 мбс. 

Еще раз повторяю можно и 1000+ запустить, если есть желание разбираться и тюнить конфиг. 

В моем случае поставил и забыл да и населенных пунктов у меня нет более 500 пользователей. 

Так же стоит затюнить шейпер

name=»default-small» kind=pfifo pfifo-limit=50 

Попробуйте через микротик в локальном тесте iperf погонять посмотрите нагрузку под синтетикой. 

ИМХО 850 mbs на порт это потолок. 

40 минут назад, rdmitrich сказал:

Нам нифига не до смеха, купили новую железку, а она е@ет мозги….

Это микротик, его нужно уметь готовить. Самое главное не нужно ждать от него производительности как от Cicso и т.д. 

Обновляюсь только из-за нужды, что бы закрыть дыры самой ROS. В данный момент 6.43.2 (stable) мой выбор. 

При нагрузке стоит обратить внимание на tool profile

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70%  (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть?

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

2 минуты назад, VolanD666 сказал:

Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70%  (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть?

ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д.     Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.  Тюнинг, а на мой взгляд более подходит слово » оптимизация» ресурсов — это безусловно правильно, но я думаю это не та причина, по которой CCR1016  уходит в ребут при 45% загрузке

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

6 минут назад, rdmitrich сказал:

ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д.     Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.  Тюнинг, а на мой взгляд более подходит слово » оптимизация» ресурсов — это безусловно правильно, но я думаю это не та причина, по которой CCR1016  уходит в ребут при 45% загрузке

А зачем вы пытаетесь гадать? Железка мониторится? График загрузки памяти приложить можете сюда? :)

7 минут назад, rdmitrich сказал:

Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.

Это вообще ни о чем не говорит.

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

7 hours ago, rdmitrich said:

Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ???

Таймаут в данном случае — это отсутствие активности сессии(отсутствие ACK-пакетов). Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :-)

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

@rdmitrich Была подобная ошибка от нехватки оперативной памяти при многих динамических адреслистов. Сейчас 500 абонентов pppoe с Simple Queues и свободно 1200 МБ оперативы при оптайме 202 дня, до того как почистил правила которые создавали динамические адреслисты, раз в пару дней была утечка. Прошивка старая 6.42.3. ip dns  allow-remote-requests включено и использую статик днс для блокировки некоторых сайтов, с заворотом 53 порта на микрот. Conntrack  в дефолте.


Изменено 10 марта, 2020 пользователем jora_1

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

10 часов назад, rdmitrich сказал:

Будет обрывать tcp сессии через 20 минут

Сессии обрывать не будет.
Таймаут применяется для сессий, в которых не передаются пакеты. Например, когда клиент отключился не передав TCP-Fin или момент завершения не удалось отследить трекингом, соединение считается условно «работающим» и хранится в таблице в течение указанного таймаута.

2 часа назад, Pinkbyte сказал:

Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :

Там вообще 1 день (24 часа) по-умолчанию. 20 минут предложенные мной, это тоже с некоторым избытком. но уж чтобы человек был уверен, что не навредит.


Изменено 10 марта, 2020 пользователем nkusnetsov

  • Вставить ник

  • Цитата
  • Ответить с цитированием

Поделиться сообщением


Ссылка на сообщение
Поделиться на других сайтах

Join the conversation

You can post now and register later.

If you have an account, sign in now to post with your account.

korsar

Сообщения: 11
Зарегистрирован: 24 июн 2013, 14:55

День добрый дорогие форумчани, случилась беда, решить сам не могу.
RB750 (v.6.1, перепрошивка на последнюю версию не помогла избежать данного глюка), на 1 порт посажен адсл модем в режим бриджа, второй порт смотрит в локалку.
инет настроен, пашет на ура.
с недавних пор появились глюки, просто переодически (переодичность разная, так как нету возможности наблюдать это 24/7) пропадает связь с микротиком через winbox (при попытке подключиться просто вылетает фатальная ошибка), да и вообще через любой способ управления девайсом, при этом локалка в инет бегает, из инета внешний ip пингуется стабильно, по vpn конекта с микротиком нету.
в логах вот такое:

Код: Выделить всё

03:00:15 system,error,critical System rebooted because of kernel failure
03:00:15 system,error,critical Out of memory condition was detected
03:00:15 system,error,critical router was rebooted without proper shutdown

связь пропадает с микротиком пропадает от 10 минут до 2 часов, всё это время инет работает стабильно.

внутренней памяти в микротике свободно 76%, загрузка проца порядка 25-40% (опять таки не постоянно, но выше 40 не наблюдал)

Аватара пользователя

simpl3x

Модератор
Сообщения: 1532
Зарегистрирован: 19 апр 2012, 14:03

24 июн 2013, 17:16

ну попробуйте поставить 5.25. по логу же видно, что мтик падает из-за проблем ядра и ругается что ему памяти мало. хотите понаблюдать, включите построение графиков ресурсов, увидите что там.

gmx

Модератор
Сообщения: 3054
Зарегистрирован: 01 окт 2012, 14:48

24 июн 2013, 19:14

ИМНО не может инет через ADSL нагрузить проц 750 до 40%.
Что-то не то у вас настройками или самим микротиком.

У меня дома у самого ADSL+Mikrotik — не видел я больше 10%. При этом каждый день что-качается и раздается. Среднее количество коннектов 200-270.

Даже если вы от АТС через дорогу живете, то у вас в лучшем случае 20 мегабит Down и 1,8 мегабита UP и это только в идеальных условиях. И такие скорости не могут вогнать микротик в 40%, а уж выше тем более.

А достучаться вы до него не можете, потому-что весь UP канал от микротика забит торрентами. Ограничивайте скорость исходящего трафика в торрент-клиенте и, скорее всего, все ваши проблемы прекратятся. Все равно в суперсиды с ADSL вам не пробиться.

korsar

Сообщения: 11
Зарегистрирован: 24 июн 2013, 14:55

24 июн 2013, 22:39

ну попробуйте поставить 5.25. по логу же видно, что мтик падает из-за проблем ядра и ругается что ему памяти мало. хотите понаблюдать, включите построение графиков ресурсов, увидите что там.

микротик до этого был прошит на 6.0с какую то версию, и работал стабильно полгода, где в июне начал тупить не подетски, но только щас меня начало это доставать как надо и в итоге я тут, попробывал перепрошить до 6.1, ничего не изменилось, разве что лишняя строчка в логах появилась.

ИМНО не может инет через ADSL нагрузить проц 750 до 40%.
Что-то не то у вас настройками или самим микротиком.

если честно, то вот щас я в шоке, с 11 ip есть не большая зачка с торента (начальник качает что-то), порядка 78-125 пакетов прыгает.

среди настроек ничего не добавлялось, как один раз настроил, так и пашет уже полгода.

Аватара пользователя

podarok66

Модератор
Сообщения: 4225
Зарегистрирован: 11 фев 2012, 18:49
Откуда: МО

24 июн 2013, 22:47

Глупость, наверное , скажу… А может как у меня, атака по 53 порту была, грузило маршрутизатор не по детски. Посмотрите conection

Мануалы изучил и нигде не ошибся? Фаервол отключил? Очереди погасил? Витая пара проверена? … Тогда Netinstal’ом железку прошей и настрой ее заново. Что, все равно не фурычит? Тогда к нам. Если не подскажем, хоть посочувствуем…

korsar

Сообщения: 11
Зарегистрирован: 24 июн 2013, 14:55

24 июн 2013, 22:56

Боюсь упасть в просак, но там на 53 порт конектов от 200+++ на вскидку О_о

korsar

Сообщения: 11
Зарегистрирован: 24 июн 2013, 14:55

25 июн 2013, 15:22

У меня дома у самого ADSL+Mikrotik — не видел я больше 10%. При этом каждый день что-качается и раздается. Среднее количество коннектов 200-270.

но вы то один родный юзаете данный девайс, я правильно понимаю?

вчера вечером наблюдал 100% нагрузку проца при 1000+ коннектов, причём свыше 500 это были входящие запросы на 53 порт, 30 минут аптайма при такой нагрузке, и миктротик ушёл в даун (не мог подключиться по удалёнке), хотя при этом внешний ip пинговался без проблем. При этом стоит заметить что ширина входящего канала на микротик не был забита на 100% по пропускной способности.

сейчас висит 200-350 коннектов, нагрузка на проц порядка 9-35%, множественных коннектов на 53 порт из вне нету, но аптайм не превышает 2-3 часов.
возникает вопрос, как правильно разрулить данную нагрузку, и тем более вопрос почему микротик уходит в даун даже при такой нагрузке?

korsar

Сообщения: 11
Зарегистрирован: 24 июн 2013, 14:55

25 июн 2013, 17:54

создал правило, щас дропаю все входящие запросы на 53 порт, нагрузка на проц не превышает выше 20% в пике, но щас и народу меньше сидит в инете
будет ли правильным, и тем более разумным кидать долбящие ip в спамлист?

korsar

Сообщения: 11
Зарегистрирован: 24 июн 2013, 14:55

25 июн 2013, 20:39

бред полный, нагрузка 2-5%, и он снова ушёл в даун. внешний Ip пингуется, а вот достучаться по удалёнке не могу:(

korsar

Сообщения: 11
Зарегистрирован: 24 июн 2013, 14:55

25 июн 2013, 20:41

есть ли какая то возможность поставить правило ему на ребут в случае если не возможен вход через удалённые сервисы, заметте что при таких даунах инет сквозь него работает на ура?

Рекомендованные сообщения

Airos

    • Share

Ув. коллеги, помогите пожалуйста, есть микротик на котором поднят нат, дхцп сервер, он же шейпит траф. Последние 2 месяца мучаюсь с проблемой, после перезагрузки микротика свободной оперативки 35+ мегабайт (всего 64) с этих 35 мегабайт оперативка начинает уменьшаться, доходит до 4 мегабайт и роутер уходит в ребут. В логах появляется out of memory condition was detected. Раньше была перезагрузка 1-3 раза в сутки, сегодня же ребутался уже раз 30. Что я пробовал: менял прошивки с 6.34.4 до 6.40rc15, перепробовал штук 10, не помогает. Доступ на веб морду и прочие сервисы кроме винбокса закрыты. 53й порт в фаерволе закрыт. Но ничего не помогает. Какие еще идеи будут? Заранее спасибо!

Ссылка на сообщение
Поделиться на других сайтах

mr.Scamp

    • Share

Думаю, что стоит посмотреть на размер использованного DNS-кэша и коннтрака.

Первое можно уменьшать до 1-2 Мб без особых потерь в производтельности.

Второе сугубо инидивидуальное, но если в коннтраке больше, чем 50..100 * количество_подключенных_клиентов записей, значит у вас проблема.

Ссылка на сообщение
Поделиться на других сайтах

Airos

  • Автор
    • Share

Думаю, что стоит посмотреть на размер использованного DNS-кэша и коннтрака.

Первое можно уменьшать до 1-2 Мб без особых потерь в производтельности.

Второе сугубо инидивидуальное, но если в коннтраке больше, чем 50..100 * количество_подключенных_клиентов записей, значит у вас проблема.

Размер кэша DNS 2048 кб. Использовано 1600 кб. А вот что за коннтрак объясните плз поподробнее

Ссылка на сообщение
Поделиться на других сайтах

Kiano

    • Share

Ip->firewall->connections

Conntrack = connection tracking

Ссылка на сообщение
Поделиться на других сайтах

Airos

  • Автор
    • Share

Не могу найти

post-17972-0-31866100-1496694140_thumb.png

Ссылка на сообщение
Поделиться на других сайтах

BlackVS

    • Share

Так сколько активных соедининений тут: Ip->firewall->connections ? На скриншоте не видно — окно коннтрека закрывает.

Кстати, на скриншоте видно, что проц загружен на 40%.

Что за железка? Сколько юзверей? Что на ней крутится? Используете ли address-lists (в том числе и для автоматического блэклиста)?

Посмотрите еще Torch на Wan канале.

Возможно, Ваш роутер сейчас «долбят»-DDoSят по какому-то из открытых портов.

Ссылка на сообщение
Поделиться на других сайтах

Airos

  • Автор
    • Share

Так сколько активных соедининений тут: Ip->firewall->connections ? На скриншоте не видно — окно коннтрека закрывает.

Кстати, на скриншоте видно, что проц загружен на 40%.

Что за железка? Сколько юзверей? Что на ней крутится? Используете ли address-lists (в том числе и для автоматического блэклиста)?

Посмотрите еще Torch на Wan канале.

Возможно, Ваш роутер сейчас «долбят»-DDoSят по какому-то из открытых портов.

Активных соединений бывает до 8к. Проц бывает загружен и на 70+% Железка Powerbox с процом 600 МГц, разогнан до 750 МГц, число активных юзеров 100+, адресс лист используется только для отключения абонентов. Сейчас аптайм уже 13 часов, посмотрю что вечером будет

Ссылка на сообщение
Поделиться на других сайтах

Ajar

    • Share

Попробуйте поставить TCP Est connection   часов 6 

Ссылка на сообщение
Поделиться на других сайтах

disnetern

    • Share

Так что же все таки за микротик? И сколько правил в шейпере? Ставлю ставку — это из-за него 

Ссылка на сообщение
Поделиться на других сайтах

BlackVS

    • Share

Так что же все таки за микротик? И сколько правил в шейпере? Ставлю ставку — это из-за него 

Железка Powerbox с процом 600 МГц, разогнан до 750 МГц

 

Я так понимаю — эта:

https://routerboard.com/RB750P-PBr2

Ссылка на сообщение
Поделиться на других сайтах

Airos

  • Автор
    • Share

Посмотрел Torch на wan интерфейсе, вот что показывает:

e3e8198835d9.png


Відредаговано 2017-06-07 20:08:46 Airos

Ссылка на сообщение
Поделиться на других сайтах

sergepo

    • Share

Железка Powerbox с процом 600 МГц, разогнан до 750 МГц — может быть проблема именно в этом?

Ссылка на сообщение
Поделиться на других сайтах

mr.Scamp

    • Share

Покажите вывод комманды 

 /ip firewall connection print count-only 

Ссылка на сообщение
Поделиться на других сайтах

Airos

  • Автор
    • Share

Железка Powerbox с процом 600 МГц, разогнан до 750 МГц — может быть проблема именно в этом?

4 месяца до возникновения проблемы все хорошо работало, не думаю что из-за переразгона процессора заполняется память, но попробую и понизить частоту если ничего не получится…

Ссылка на сообщение
Поделиться на других сайтах

Airos

  • Автор
    • Share

Покажите вывод комманды

/ip firewall connection print count-only

Когда будет ребутиться покажу, сейчас всё спать ушли, ничего интересного не показывает.

Ссылка на сообщение
Поделиться на других сайтах

Создайте аккаунт или войдите в него для комментирования

Вы должны быть пользователем, чтобы оставить комментарий

Понравилась статья? Поделить с друзьями:
  • System error 36887
  • System error critical login failure for user root from via telnet микротик
  • System error 322 details answer code is not received
  • System error critical login failure for user root from via ssh
  • System error critical login failure for user admin from via winbox