Ошибка bug soft lockup - cpu#0 stuck for 22s

Dem

New member
Сообщения
8
#1
Доброго времени суток!
На сервере установлена:
CE 2.12.42 (orel)
Linux astra 4.15.3-3-generic #astra25+ci7 SMP Wed Oct 28 03:38:36 UTC 2020 x86_64 GNU/Linux

в kernel периодически стала падать ошибка
Код:
Jun 18 14:03:50 astra kernel: [  105.684049] watchdog: BUG: soft lockup - CPU#0 stuck for 22s! [swapper/0:1]
Jun 18 14:03:50 astra kernel: [  105.684978] Modules linked in: nochmodx(OE)
Jun 18 14:03:50 astra kernel: [  105.685199] CPU: 0 PID: 1 Comm: swapper/0 Tainted: G           OE    4.15.3-3-generic #astra25+ci7
Jun 18 14:03:50 astra kernel: [  105.685287] Hardware name: GIGABYTE TECHNOLOGY CO.,LTD C621-SD8/C621-SD8, BIOS F10 07/17/2020
Jun 18 14:03:50 astra kernel: [  105.685505] RIP: 0010:__change_page_attr+0xa8c/0xc60
Jun 18 14:03:50 astra kernel: [  105.685509] RSP: 0000:ffffa9e6801ebc00 EFLAGS: 00000286 ORIG_RAX: ffffffffffffff11
Jun 18 14:03:50 astra kernel: [  105.685640] RAX: ffffffff9b600000 RBX: 80000000000001e3 RCX: 80000000000001e3
Jun 18 14:03:50 astra kernel: [  105.685685] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 80000001400001e3
Jun 18 14:03:50 astra kernel: [  105.685772] RBP: ffffa9e6801ebcc0 R08: 0000000080000000 R09: 0000000000040000
Jun 18 14:03:50 astra kernel: [  105.685818] R10: 0000000000000000 R11: 0000000000000002 R12: ffff8971ddec7000
Jun 18 14:03:50 astra kernel: [  105.685904] R13: 80000000000001e3 R14: 000000000001dec7 R15: 000000000015dec6
Jun 18 14:03:50 astra kernel: [  105.685993] FS:  0000000000000000(0000) GS:ffff8974f0000000(0000) knlGS:0000000000000000
Jun 18 14:03:50 astra kernel: [  105.686081] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
Jun 18 14:03:50 astra kernel: [  105.686127] CR2: 0000000000000000 CR3: 000000017220a001 CR4: 00000000007606f0
Jun 18 14:03:50 astra kernel: [  105.686213] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Jun 18 14:03:50 astra kernel: [  105.686216] DR3: 0000000000000000 DR6: 00000000fffe0ff0 DR7: 0000000000000400
Jun 18 14:03:50 astra kernel: [  105.686257] PKRU: 00000000
И в результате, система нагружая проц от 40 до 70 процентов благополучно висит.
С чем оное может быть связано?

Как пишут на просторах интернета, что проблема в ядре. С Astra работаем второй год (на другом сервере такой проблемы не было), пришел новый сервер и понеслась.....
Если это действительно ядро, то как можно обновить ядро на Astra?
 

Dem

New member
Сообщения
8
#3
Загрузились с нового ядра 5.4. Неделю полет нормальный, потом опять: процы загружены под 70% все весит, в kernel кроме как "cannot open display 0" ничего нет. Что делать дальше не знаем....
 

oko

New member
Сообщения
1 257
#4
to Dem
А какой процесс в итоге нагружает одно ядро настолько?
Есть маза, что стоит поиграть с прошивками BMC и BIOS (у вас сейчас вроде как финальный релиз) - сокет-то 2016 г.в., так что по-идее должен поддерживаться без проблем, если Gigabyte при выпуске мат.платы не добавила лишних убер-фич...
Плюс народ рекомендует отключить watchdog к такой-то матери:
  • sudo sysctl kernel.nmi_watchdog=0 или sudo echo 'kernel.nmi_watchdog=0' >> /etc/sysctl.conf
  • sudo sysctl kernel.watchdog=0 или sudo echo 'kernel.watchdog=0' >> /etc/sysctl.conf
  • sudo sysctl kernel.soft_watchdog=0 или sudo echo 'kernel.soft_watchdog=0' >> /etc/sysctl.conf
Если не поможет, пишите в техподдержку AstraLinux на предмет описания модуля astra-nochmodx и его особенностей. Возможно, подобная ситуация уже имеет какую-то статистику и решения...

ЗЫ Откат BIOS предлагаю на правах модуля экстрасенсорики. Результат может быть непредсказуемым и, если система "боевая", то...