- Вся активность
Самопроизвольная перезагeрзка CCR1016-12S-1S+
Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут
маршрутизатора. Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !! После ребута в логах появляется сообщение «critical out of memory condition was detected «, и мы не можем понять, что это ?
Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка.
Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !!
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
@rdmitrich какие сервисы используются, сколько памяти свободно в чнн?
Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий.
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
2 часа назад, EShirokiy сказал:
@rdmitrich какие сервисы используются, сколько памяти свободно в чнн?
Если есть нат, то надо оптимизировать Conntrack. Если есть BGP, то сократить количество сессий.
NAT + PPPoE сервер, BGP нет, память в чнн — 1500. Что касается Conntrack — нужно ли ?? Загрузка процессоров в 50%
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
@rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR.
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
16 минут назад, EShirokiy сказал:
@rdmitrich оптимизировать в любом случае, т.к. некоторые сессии висят в дефолте больше дня. Это может влиять на потребление памяти, небольшой дидос укладывает CCR.
Сейчас уcтановили CCR1009-7G-1S+ из ЗИПа, пока все работает, 400+ мегабит, аптайм 2.21
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min).
Изменено 10 марта, 2020 пользователем nkusnetsov
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
13 минут назад, nkusnetsov сказал:
При наличии NAT включение conntrack обязательно. Но его необходимо тюнить. Дефолтное время tcp-established-timeout (1 day) надо уменьшать. Хотя бы до 00:20:00 (20 min).
Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ???
Изменено 10 марта, 2020 пользователем rdmitrich
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
В 08.03.2020 в 05:28, rdmitrich сказал:
Доброго времени суток коллеги, пару дней назад мы стали свидетелями неприятнейшего явления, такого как самопроизвольный ребут
маршрутизатора. Как только нагрузка процессора начинает переваливать за 50%, то случается ОНО !! После ребута в логах появляется сообщение «critical out of memory condition was detected «, и мы не можем понять, что это ?
Есть предположение что нас дудосят, либо на самом деле установлены дефектные модули памяти и там идет утечка.
Прошу поделиться своими соображениями по этому поводу, с меня сотни нефти и интернеты !!
Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах.
Изменено 10 марта, 2020 пользователем msdt
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
@rdmitrich
Так чисто поржать.
В сетевом оборудование есть таблицы.
Пример: таблица маршрутизации, таблица арп, таблица коммутации и т.д.
У всех таблиц есть ограничение.
Вот в микротике есть таблица conntrack отвечающая за нат у нее то же есть ограничения, зачем держать в таблицы 24 часа запись если она была полезна 5-20 минут?
Когда у вас маршрутизатор перезагружался таблица чистилась.
Так же стоит отключить ip dns allow-remote-requests
Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036, можно больше, но любой чих появляется головная бол
З.Ы. Я бы рекомендовал скинуть настройки в дефолт в 0 и настроить заново.
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
1 час назад, msdt сказал:
Саппорт Mikrotik предложил мне в похожем случае выяснить, что пишется в консольный порт при самопроизвольном ребуте. Видимо там должна быть какая-то расширенная информация о его причинах.
в консоли так и пишет — «critical out of memory condition was detected «
13 минут назад, pingz сказал:
Так чисто поржать.
Нам нифига не до смеха, купили новую железку, а она е@ет мозги….
13 минут назад, pingz сказал:
Так же стоит отключить ip dns allow-remote-requests
отключили сразу
13 минут назад, pingz сказал:
Мой личный опыт 500 клиентов pppoe + nat оптимальное решение для 1036
не маловато для 1036 ??? Вы какие тарифы отдаете ?? 200 мегабит на абонента ?? У нас сейчас 1009 жует 350 абонентов, траф в пике 500 мег, тарифы 30-50 мегабит
Изменено 10 марта, 2020 пользователем rdmitrich
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
@rdmitrich тарифы до 100 мбс.
Еще раз повторяю можно и 1000+ запустить, если есть желание разбираться и тюнить конфиг.
В моем случае поставил и забыл да и населенных пунктов у меня нет более 500 пользователей.
Так же стоит затюнить шейпер
name=»default-small» kind=pfifo pfifo-limit=50
Попробуйте через микротик в локальном тесте iperf погонять посмотрите нагрузку под синтетикой.
ИМХО 850 mbs на порт это потолок.
40 минут назад, rdmitrich сказал:
Нам нифига не до смеха, купили новую железку, а она е@ет мозги….
Это микротик, его нужно уметь готовить. Самое главное не нужно ждать от него производительности как от Cicso и т.д.
Обновляюсь только из-за нужды, что бы закрыть дыры самой ROS. В данный момент 6.43.2 (stable) мой выбор.
При нагрузке стоит обратить внимание на tool profile
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70% (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть?
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
2 минуты назад, VolanD666 сказал:
Дык а чо вы память то не мониторите? Причем тут загрузка ЦПУ, если он на память ругается. Ставите память на мониторинг, когда достигаете планки 70% (например) начинаете смотреть что жрет память. И верно вам сказали, надо тюнить НАТ, нафиг TCP сессии 1 день висеть?
ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д. Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня. Тюнинг, а на мой взгляд более подходит слово » оптимизация» ресурсов — это безусловно правильно, но я думаю это не та причина, по которой CCR1016 уходит в ребут при 45% загрузке
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
6 минут назад, rdmitrich сказал:
ругаться на память может во многих случаях, к примеру битый сектор в памяти, конденсатор попался плюшевый на материнской плате и.т.д. Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня. Тюнинг, а на мой взгляд более подходит слово » оптимизация» ресурсов — это безусловно правильно, но я думаю это не та причина, по которой CCR1016 уходит в ребут при 45% загрузке
А зачем вы пытаетесь гадать? Железка мониторится? График загрузки памяти приложить можете сюда?
7 минут назад, rdmitrich сказал:
Сейчас установлен и работает менее производительный CCR1009, аптайм 2 дня.
Это вообще ни о чем не говорит.
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
7 hours ago, rdmitrich said:
Что это даст ?? Будет обрывать tcp сессии через 20 минут ???? Как это отразится на абонентах ? И почему тогда изначально там 1d ???
Таймаут в данном случае — это отсутствие активности сессии(отсутствие ACK-пакетов). Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?!
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
@rdmitrich Была подобная ошибка от нехватки оперативной памяти при многих динамических адреслистов. Сейчас 500 абонентов pppoe с Simple Queues и свободно 1200 МБ оперативы при оптайме 202 дня, до того как почистил правила которые создавали динамические адреслисты, раз в пару дней была утечка. Прошивка старая 6.42.3. ip dns allow-remote-requests включено и использую статик днс для блокировки некоторых сайтов, с заворотом 53 порта на микрот. Conntrack в дефолте.
Изменено 10 марта, 2020 пользователем jora_1
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
10 часов назад, rdmitrich сказал:
Будет обрывать tcp сессии через 20 минут
Сессии обрывать не будет.
Таймаут применяется для сессий, в которых не передаются пакеты. Например, когда клиент отключился не передав TCP-Fin или момент завершения не удалось отследить трекингом, соединение считается условно «работающим» и хранится в таблице в течение указанного таймаута.
2 часа назад, Pinkbyte сказал:
Вам точно нужны TCP-сессии, где не бегают keepalive-ы аж 20 минут?! :
Там вообще 1 день (24 часа) по-умолчанию. 20 минут предложенные мной, это тоже с некоторым избытком. но уж чтобы человек был уверен, что не навредит.
Изменено 10 марта, 2020 пользователем nkusnetsov
-
Вставить ник
- Цитата
- Ответить с цитированием
Поделиться сообщением
Ссылка на сообщение
Поделиться на других сайтах
Join the conversation
You can post now and register later.
If you have an account, sign in now to post with your account.
-
korsar
- Сообщения: 11
- Зарегистрирован: 24 июн 2013, 14:55
День добрый дорогие форумчани, случилась беда, решить сам не могу.
RB750 (v.6.1, перепрошивка на последнюю версию не помогла избежать данного глюка), на 1 порт посажен адсл модем в режим бриджа, второй порт смотрит в локалку.
инет настроен, пашет на ура.
с недавних пор появились глюки, просто переодически (переодичность разная, так как нету возможности наблюдать это 24/7) пропадает связь с микротиком через winbox (при попытке подключиться просто вылетает фатальная ошибка), да и вообще через любой способ управления девайсом, при этом локалка в инет бегает, из инета внешний ip пингуется стабильно, по vpn конекта с микротиком нету.
в логах вот такое:
Код: Выделить всё
03:00:15 system,error,critical System rebooted because of kernel failure
03:00:15 system,error,critical Out of memory condition was detected
03:00:15 system,error,critical router was rebooted without proper shutdown
связь пропадает с микротиком пропадает от 10 минут до 2 часов, всё это время инет работает стабильно.
внутренней памяти в микротике свободно 76%, загрузка проца порядка 25-40% (опять таки не постоянно, но выше 40 не наблюдал)
-
simpl3x
- Модератор
- Сообщения: 1532
- Зарегистрирован: 19 апр 2012, 14:03
24 июн 2013, 17:16
ну попробуйте поставить 5.25. по логу же видно, что мтик падает из-за проблем ядра и ругается что ему памяти мало. хотите понаблюдать, включите построение графиков ресурсов, увидите что там.
-
gmx
- Модератор
- Сообщения: 3054
- Зарегистрирован: 01 окт 2012, 14:48
24 июн 2013, 19:14
ИМНО не может инет через ADSL нагрузить проц 750 до 40%.
Что-то не то у вас настройками или самим микротиком.
У меня дома у самого ADSL+Mikrotik — не видел я больше 10%. При этом каждый день что-качается и раздается. Среднее количество коннектов 200-270.
Даже если вы от АТС через дорогу живете, то у вас в лучшем случае 20 мегабит Down и 1,8 мегабита UP и это только в идеальных условиях. И такие скорости не могут вогнать микротик в 40%, а уж выше тем более.
А достучаться вы до него не можете, потому-что весь UP канал от микротика забит торрентами. Ограничивайте скорость исходящего трафика в торрент-клиенте и, скорее всего, все ваши проблемы прекратятся. Все равно в суперсиды с ADSL вам не пробиться.
-
korsar
- Сообщения: 11
- Зарегистрирован: 24 июн 2013, 14:55
24 июн 2013, 22:39
ну попробуйте поставить 5.25. по логу же видно, что мтик падает из-за проблем ядра и ругается что ему памяти мало. хотите понаблюдать, включите построение графиков ресурсов, увидите что там.
микротик до этого был прошит на 6.0с какую то версию, и работал стабильно полгода, где в июне начал тупить не подетски, но только щас меня начало это доставать как надо и в итоге я тут, попробывал перепрошить до 6.1, ничего не изменилось, разве что лишняя строчка в логах появилась.
ИМНО не может инет через ADSL нагрузить проц 750 до 40%.
Что-то не то у вас настройками или самим микротиком.
если честно, то вот щас я в шоке, с 11 ip есть не большая зачка с торента (начальник качает что-то), порядка 78-125 пакетов прыгает.
среди настроек ничего не добавлялось, как один раз настроил, так и пашет уже полгода.
-
podarok66
- Модератор
- Сообщения: 4225
- Зарегистрирован: 11 фев 2012, 18:49
- Откуда: МО
24 июн 2013, 22:47
Глупость, наверное , скажу… А может как у меня, атака по 53 порту была, грузило маршрутизатор не по детски. Посмотрите conection
Мануалы изучил и нигде не ошибся? Фаервол отключил? Очереди погасил? Витая пара проверена? … Тогда Netinstal’ом железку прошей и настрой ее заново. Что, все равно не фурычит? Тогда к нам. Если не подскажем, хоть посочувствуем…
-
korsar
- Сообщения: 11
- Зарегистрирован: 24 июн 2013, 14:55
24 июн 2013, 22:56
Боюсь упасть в просак, но там на 53 порт конектов от 200+++ на вскидку О_о
-
korsar
- Сообщения: 11
- Зарегистрирован: 24 июн 2013, 14:55
25 июн 2013, 15:22
У меня дома у самого ADSL+Mikrotik — не видел я больше 10%. При этом каждый день что-качается и раздается. Среднее количество коннектов 200-270.
но вы то один родный юзаете данный девайс, я правильно понимаю?
вчера вечером наблюдал 100% нагрузку проца при 1000+ коннектов, причём свыше 500 это были входящие запросы на 53 порт, 30 минут аптайма при такой нагрузке, и миктротик ушёл в даун (не мог подключиться по удалёнке), хотя при этом внешний ip пинговался без проблем. При этом стоит заметить что ширина входящего канала на микротик не был забита на 100% по пропускной способности.
сейчас висит 200-350 коннектов, нагрузка на проц порядка 9-35%, множественных коннектов на 53 порт из вне нету, но аптайм не превышает 2-3 часов.
возникает вопрос, как правильно разрулить данную нагрузку, и тем более вопрос почему микротик уходит в даун даже при такой нагрузке?
-
korsar
- Сообщения: 11
- Зарегистрирован: 24 июн 2013, 14:55
25 июн 2013, 17:54
создал правило, щас дропаю все входящие запросы на 53 порт, нагрузка на проц не превышает выше 20% в пике, но щас и народу меньше сидит в инете
будет ли правильным, и тем более разумным кидать долбящие ip в спамлист?
-
korsar
- Сообщения: 11
- Зарегистрирован: 24 июн 2013, 14:55
25 июн 2013, 20:39
бред полный, нагрузка 2-5%, и он снова ушёл в даун. внешний Ip пингуется, а вот достучаться по удалёнке не могу:(
-
korsar
- Сообщения: 11
- Зарегистрирован: 24 июн 2013, 14:55
25 июн 2013, 20:41
есть ли какая то возможность поставить правило ему на ребут в случае если не возможен вход через удалённые сервисы, заметте что при таких даунах инет сквозь него работает на ура?
Рекомендованные сообщения
-
- Share
Ув. коллеги, помогите пожалуйста, есть микротик на котором поднят нат, дхцп сервер, он же шейпит траф. Последние 2 месяца мучаюсь с проблемой, после перезагрузки микротика свободной оперативки 35+ мегабайт (всего 64) с этих 35 мегабайт оперативка начинает уменьшаться, доходит до 4 мегабайт и роутер уходит в ребут. В логах появляется out of memory condition was detected. Раньше была перезагрузка 1-3 раза в сутки, сегодня же ребутался уже раз 30. Что я пробовал: менял прошивки с 6.34.4 до 6.40rc15, перепробовал штук 10, не помогает. Доступ на веб морду и прочие сервисы кроме винбокса закрыты. 53й порт в фаерволе закрыт. Но ничего не помогает. Какие еще идеи будут? Заранее спасибо!
Ссылка на сообщение
Поделиться на других сайтах
-
- Share
Думаю, что стоит посмотреть на размер использованного DNS-кэша и коннтрака.
Первое можно уменьшать до 1-2 Мб без особых потерь в производтельности.
Второе сугубо инидивидуальное, но если в коннтраке больше, чем 50..100 * количество_подключенных_клиентов записей, значит у вас проблема.
Ссылка на сообщение
Поделиться на других сайтах
- Автор
-
- Share
Думаю, что стоит посмотреть на размер использованного DNS-кэша и коннтрака.
Первое можно уменьшать до 1-2 Мб без особых потерь в производтельности.
Второе сугубо инидивидуальное, но если в коннтраке больше, чем 50..100 * количество_подключенных_клиентов записей, значит у вас проблема.
Размер кэша DNS 2048 кб. Использовано 1600 кб. А вот что за коннтрак объясните плз поподробнее
Ссылка на сообщение
Поделиться на других сайтах
-
- Share
Ip->firewall->connections
Conntrack = connection tracking
Ссылка на сообщение
Поделиться на других сайтах
- Автор
-
- Share
Не могу найти
Ссылка на сообщение
Поделиться на других сайтах
-
- Share
Так сколько активных соедининений тут: Ip->firewall->connections ? На скриншоте не видно — окно коннтрека закрывает.
Кстати, на скриншоте видно, что проц загружен на 40%.
Что за железка? Сколько юзверей? Что на ней крутится? Используете ли address-lists (в том числе и для автоматического блэклиста)?
Посмотрите еще Torch на Wan канале.
Возможно, Ваш роутер сейчас «долбят»-DDoSят по какому-то из открытых портов.
Ссылка на сообщение
Поделиться на других сайтах
- Автор
-
- Share
Так сколько активных соедининений тут: Ip->firewall->connections ? На скриншоте не видно — окно коннтрека закрывает.
Кстати, на скриншоте видно, что проц загружен на 40%.
Что за железка? Сколько юзверей? Что на ней крутится? Используете ли address-lists (в том числе и для автоматического блэклиста)?
Посмотрите еще Torch на Wan канале.
Возможно, Ваш роутер сейчас «долбят»-DDoSят по какому-то из открытых портов.
Активных соединений бывает до 8к. Проц бывает загружен и на 70+% Железка Powerbox с процом 600 МГц, разогнан до 750 МГц, число активных юзеров 100+, адресс лист используется только для отключения абонентов. Сейчас аптайм уже 13 часов, посмотрю что вечером будет
Ссылка на сообщение
Поделиться на других сайтах
-
- Share
Попробуйте поставить TCP Est connection часов 6
Ссылка на сообщение
Поделиться на других сайтах
-
- Share
Так что же все таки за микротик? И сколько правил в шейпере? Ставлю ставку — это из-за него
Ссылка на сообщение
Поделиться на других сайтах
-
- Share
Так что же все таки за микротик? И сколько правил в шейпере? Ставлю ставку — это из-за него
Железка Powerbox с процом 600 МГц, разогнан до 750 МГц
Я так понимаю — эта:
https://routerboard.com/RB750P-PBr2
Ссылка на сообщение
Поделиться на других сайтах
- Автор
-
- Share
Посмотрел Torch на wan интерфейсе, вот что показывает:
Відредаговано 2017-06-07 20:08:46 Airos
Ссылка на сообщение
Поделиться на других сайтах
-
- Share
Железка Powerbox с процом 600 МГц, разогнан до 750 МГц — может быть проблема именно в этом?
Ссылка на сообщение
Поделиться на других сайтах
-
- Share
Покажите вывод комманды
/ip firewall connection print count-only
Ссылка на сообщение
Поделиться на других сайтах
- Автор
-
- Share
Железка Powerbox с процом 600 МГц, разогнан до 750 МГц — может быть проблема именно в этом?
4 месяца до возникновения проблемы все хорошо работало, не думаю что из-за переразгона процессора заполняется память, но попробую и понизить частоту если ничего не получится…
Ссылка на сообщение
Поделиться на других сайтах
- Автор
-
- Share
Покажите вывод комманды
/ip firewall connection print count-only
Когда будет ребутиться покажу, сейчас всё спать ушли, ничего интересного не показывает.
Ссылка на сообщение
Поделиться на других сайтах
Создайте аккаунт или войдите в него для комментирования
Вы должны быть пользователем, чтобы оставить комментарий