Ошибка выделения выделения VMalloc при масштабировании контейнеров LXC длится 1350 на ProxMox 6.2 -- debian поле с участием linux-kernel поле с участием lxc поле с участием proxmox пол Управление сервером Связанный проблема

vmalloc allocation failure when scaling LXC containers past 1350 on Proxmox 6.2


3
vote

проблема

русский

У меня есть сервер следующего спецификации: Двойной AMD EPYC 7742, 1TB RAM, SWAP 8TB (Round-Robin 8xnvme Array), 144TB SSD Storage (72 дисков более 10 ZPools)

uname -a

 <код> Linux host 5.4.44-1-pve #1 SMP PVE 5.4.44-1 (Fri, 12 Jun 2020 08:18:46 +0200) x86_64 GNU/Linux   

Сервер имеет Proxmox 6.2 Установлен и AMP; на сегодняшний день по состоянию на 02/07/20. Хосте имеет 1350 контейнеров LXC и AMP; Поддерживает среднюю нагрузку чуть менее 1 на этом уровне контейнеров. ОЗУ на уровне 800 ГБ / 1 ТБ, своп находится на 1.6TB / 7.28TB.

Каждый контейнер был создан от Proxmox Ubuntu 18.04 LXC Image & AMP; Все они почти идентичные клоны друг друга. Контейнеры оснащены тяжелым использованием быстрого массива подкачки из-за того, что требуют оперативной памяти только для одного вычисления 60-х годов при загрузке. После завершения, при достаточном давлении памяти, они подтолкнутся почти все их использованные оперативной памяти в своп, требующий только случайного чтения от свопа.

При создании контейнера 1353RD LXC я вижу ошибку распределения VMAP в Syslog:

 <код> Jul 02 20:34:53 host kernel: lxc-start: vmalloc: allocation failure: 4096 bytes, mode:0xcc0(GFP_KERNEL), nodemask=(null),cpuset=ns,mems_allowed=0-1 Jul 02 20:34:53 host kernel: CPU: 65 PID: 3438449 Comm: lxc-start Tainted: P           OE     5.4.44-1-pve #1 Jul 02 20:34:53 host kernel: Hardware name: Supermicro Super Server/H11DSi-NT, BIOS 2.0 09/25/2019 Jul 02 20:34:53 host kernel: Call Trace: Jul 02 20:34:53 host kernel:  dump_stack+0x6d/0x9a Jul 02 20:34:53 host kernel:  warn_alloc.cold.119+0x7b/0xdd Jul 02 20:34:53 host kernel:  ? __get_vm_area_node+0x149/0x160 Jul 02 20:34:53 host kernel:  ? bpf_jit_alloc_exec+0xe/0x10 Jul 02 20:34:53 host kernel:  __vmalloc_node_range+0x1aa/0x270 Jul 02 20:34:53 host kernel:  ? bpf_jit_alloc_exec+0xe/0x10 Jul 02 20:34:53 host kernel:  module_alloc+0x82/0xe0 Jul 02 20:34:53 host kernel:  ? bpf_jit_alloc_exec+0xe/0x10 Jul 02 20:34:53 host kernel:  bpf_jit_alloc_exec+0xe/0x10 Jul 02 20:34:53 host kernel:  bpf_jit_binary_alloc+0x63/0xf0 Jul 02 20:34:53 host kernel:  ? emit_mov_reg+0xf0/0xf0 Jul 02 20:34:53 host kernel:  bpf_int_jit_compile+0x133/0x34d Jul 02 20:34:53 host kernel:  bpf_prog_select_runtime+0xa8/0x130 Jul 02 20:34:53 host kernel:  bpf_prepare_filter+0x52e/0x5a0 Jul 02 20:34:53 host kernel:  bpf_prog_create_from_user+0xc5/0x110 Jul 02 20:34:53 host kernel:  ? hardlockup_detector_perf_cleanup.cold.9+0x1a/0x1a Jul 02 20:34:53 host kernel:  do_seccomp+0x2bf/0x8d0 Jul 02 20:34:53 host kernel:  __x64_sys_seccomp+0x1a/0x20 Jul 02 20:34:53 host kernel:  do_syscall_64+0x57/0x190 Jul 02 20:34:53 host kernel:  entry_SYSCALL_64_after_hwframe+0x44/0xa9 Jul 02 20:34:53 host kernel: RIP: 0033:0x7f29737d6f59 Jul 02 20:34:53 host kernel: Code: 00 c3 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 48 89 f8 48 89 f7 48 89 d6 48 89 ca 4d 89 c2 4d 89 c8 4c 8b 4c 24 08 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d 07 6f 0c 00 f7 d8 64 89 01 48 Jul 02 20:34:53 host kernel: RSP: 002b:00007ffc72a9e738 EFLAGS: 00000246 ORIG_RAX: 000000000000013d Jul 02 20:34:53 host kernel: RAX: ffffffffffffffda RBX: 000055d0b17813b0 RCX: 00007f29737d6f59 Jul 02 20:34:53 host kernel: RDX: 000055d0b177fa90 RSI: 0000000000000000 RDI: 0000000000000001 Jul 02 20:34:53 host kernel: RBP: 000055d0b177fa90 R08: 000055d0b17813b0 R09: 000055d0b177ad00 Jul 02 20:34:53 host kernel: R10: 000055d0b178dfd0 R11: 0000000000000246 R12: 00007ffc72a9e7dc Jul 02 20:34:53 host kernel: R13: 0000000000000000 R14: 00000000ffffffff R15: 000055d0b177ad00 Jul 02 20:34:53 host kernel: Mem-Info: Jul 02 20:34:53 host kernel: active_anon:57085917 inactive_anon:92502441 isolated_anon:0  active_file:17684788 inactive_file:8397670 isolated_file:0  unevictable:167729 dirty:675 writeback:401 unstable:0  slab_reclaimable:5604171 slab_unreclaimable:27013702  mapped:5668112 shmem:56359 pagetables:1963891 bounce:0  free:20376422 free_pcp:131976 free_cma:0 Jul 02 20:34:53 host kernel: Node 0 active_anon:111954916kB inactive_anon:172197032kB active_file:35764692kB inactive_file:17457324kB unevictable:399796kB isolated(anon):0kB isolated(file):0kB mapped:11123132kB dirty:1160kB writeback:644kB shmem:137436kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 0kB writeback_tmp:0kB unstable:0kB all_unreclaimable? no Jul 02 20:34:53 host kernel: Node 1 active_anon:116388752kB inactive_anon:197812732kB active_file:34974460kB inactive_file:16133356kB unevictable:271120kB isolated(anon):0kB isolated(file):0kB mapped:11549316kB dirty:1540kB writeback:960kB shmem:88000kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 0kB writeback_tmp:0kB unstable:0kB all_unreclaimable? no Jul 02 20:34:53 host kernel: Node 0 DMA free:15876kB min:0kB low:12kB high:24kB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15996kB managed:15876kB mlocked:0kB kernel_stack:0kB pagetables:0kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB Jul 02 20:34:53 host kernel: lowmem_reserve[]: 0 2561 515798 515798 515798 Jul 02 20:34:53 host kernel: Node 0 DMA32 free:2625288kB min:220kB low:2840kB high:5460kB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:2732964kB managed:2665112kB mlocked:0kB kernel_stack:0kB pagetables:0kB bounce:0kB free_pcp:2956kB local_pcp:0kB free_cma:0kB Jul 02 20:34:53 host kernel: lowmem_reserve[]: 0 0 513236 513236 513236 Jul 02 20:34:53 host kernel: Node 0 Normal free:37110116kB min:44820kB low:570372kB high:1095924kB active_anon:111954916kB inactive_anon:172197032kB active_file:35764692kB inactive_file:17457324kB unevictable:399796kB writepending:1804kB present:533970944kB managed:525553736kB mlocked:399796kB kernel_stack:590520kB pagetables:4130116kB bounce:0kB free_pcp:254676kB local_pcp:1444kB free_cma:0kB Jul 02 20:34:53 host kernel: lowmem_reserve[]: 0 0 0 0 0 Jul 02 20:34:53 host kernel: Node 1 Normal free:41754408kB min:45064kB low:573476kB high:1101888kB active_anon:116388752kB inactive_anon:197812732kB active_file:34974460kB inactive_file:16133356kB unevictable:271120kB writepending:2500kB present:536866816kB managed:528422152kB mlocked:271120kB kernel_stack:519000kB pagetables:3725448kB bounce:0kB free_pcp:270220kB local_pcp:264kB free_cma:0kB Jul 02 20:34:53 host kernel: lowmem_reserve[]: 0 0 0 0 0 Jul 02 20:34:53 host kernel: Node 0 DMA: 1*4kB (U) 2*8kB (U) 1*16kB (U) 1*32kB (U) 3*64kB (U) 0*128kB 1*256kB (U) 0*512kB 1*1024kB (U) 1*2048kB (M) 3*4096kB (M) = 15876kB Jul 02 20:34:53 host kernel: Node 0 DMA32: 6*4kB (UM) 6*8kB (M) 8*16kB (M) 6*32kB (M) 6*64kB (M) 6*128kB (M) 5*256kB (UM) 8*512kB (UM) 9*1024kB (UM) 10*2048kB (UM) 632*4096kB (M) = 2625288kB Jul 02 20:34:53 host kernel: Node 0 Normal: 70110*4kB (UME) 528589*8kB (UME) 278440*16kB (UME) 77872*32kB (UME) 98148*64kB (UM) 34504*128kB (UME) 6830*256kB (UME) 2138*512kB (UME) 722*1024kB (UM) 167*2048kB (UME) 2693*4096kB (UM) = 37109088kB Jul 02 20:34:53 host kernel: Node 1 Normal: 1440*4kB (UME) 256581*8kB (UM) 92674*16kB (UM) 16683*32kB (UME) 36437*64kB (UM) 6712*128kB (UME) 7106*256kB (UM) 2334*512kB (UM) 2282*1024kB (UME) 609*2048kB (UM) 6809*4096kB (M) = 41753960kB Jul 02 20:34:53 host kernel: Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=1048576kB Jul 02 20:34:53 host kernel: Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB Jul 02 20:34:53 host kernel: Node 1 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=1048576kB Jul 02 20:34:53 host kernel: Node 1 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB Jul 02 20:34:53 host kernel: 57982225 total pagecache pages Jul 02 20:34:53 host kernel: 31838959 pages in swap cache Jul 02 20:34:53 host kernel: Swap cache stats: add 684735119, delete 652970785, find 114714945/164869068 Jul 02 20:34:53 host kernel: Free swap  = 6113127072kB Jul 02 20:34:53 host kernel: Total swap = 7814100640kB Jul 02 20:34:53 host kernel: 268396680 pages RAM Jul 02 20:34:53 host kernel: 0 pages HighMem/MovableOnly Jul 02 20:34:53 host kernel: 4232461 pages reserved Jul 02 20:34:53 host kernel: 0 pages cma reserved Jul 02 20:34:53 host kernel: 0 pages hwpoisoned   

Я не могу интерпретировать вывод, чтобы понять, какое направление смотреть. Большинство подобных ошибок составляют старые 32-битные ядра, где проблема решается путем прохождения vmalloc = 512m в загрузочном загрузке Grub, но с 64-но ядра VMalloc намного больше, как свидетельствует / proc / meminfo (vmalloctotal = 34tb , vmalloCused = 24 ГБ):

<Сильные> кошка / proc / meminfo

 <код> MemTotal:       1056656876 kB MemFree:        76849680 kB MemAvailable:   200978380 kB Buffers:           74844 kB Cached:         108220668 kB SwapCached:     128272136 kB Active:         299102888 kB Inactive:       407757724 kB Active(anon):   228172048 kB Inactive(anon): 370632756 kB Active(file):   70930840 kB Inactive(file): 37124968 kB Unevictable:      675628 kB Mlocked:          675628 kB SwapTotal:      7814100640 kB SwapFree:       6112054688 kB Dirty:              2500 kB Writeback:           556 kB AnonPages:      499566192 kB Mapped:         22947384 kB Shmem:            223532 kB KReclaimable:   22638384 kB Slab:           131330980 kB SReclaimable:   22638384 kB SUnreclaim:     108692596 kB KernelStack:     1108256 kB PageTables:      7894616 kB NFS_Unstable:          0 kB Bounce:                0 kB WritebackTmp:          0 kB CommitLimit:    8342429076 kB Committed_AS:   2407556960 kB VmallocTotal:   34359738367 kB VmallocUsed:    23920452 kB VmallocChunk:          0 kB Percpu:         25101312 kB HardwareCorrupted:     0 kB AnonHugePages:         0 kB ShmemHugePages:        0 kB ShmemPmdMapped:        0 kB FileHugePages:         0 kB FilePmdMapped:         0 kB CmaTotal:              0 kB CmaFree:               0 kB HugePages_Total:       0 HugePages_Free:        0 HugePages_Rsvd:        0 HugePages_Surp:        0 Hugepagesize:       2048 kB Hugetlb:               0 kB DirectMap4k:    133753764 kB DirectMap2M:    265598976 kB DirectMap1G:    674234368 kB   

free -m

 <код>               total        used        free      shared  buff/cache   available Mem:        1031891      828580       75310         203      128001      196680 Swap:       7630957     1662143     5968813   

Может ли кто-нибудь указать, какие конкретные ограничения подразумеваются от трассировки вызова и AMP; Журнал ядра? Учитывая, что VMalloc должен иметь гораздо более высокий предел на 64-битной системе.

<Сильные> Редактировать: дополнительная информация Я последовал за настройкой LXC, описанной здесь: https://linuxcontainers.org/lxd/docs/master/production-setup >

Sysctl.conf (здесь есть чрезмерная настройка, поскольку я столкнулся с множеством проблем нагрузки до этой точки - оказывается, мой маршрутизатор спамил слишком много маршрутизаторов и AMP; привел мой сервер его колени).

 <код> net.ipv4.neigh.default.gc_interval = 3600 net.ipv6.neigh.default.gc_interval = 3600 net.ipv4.neigh.default.gc_stale_time = 3600 net.ipv6.neigh.default.gc_stale_time = 3600 net.ipv4.neigh.default.gc_thresh1 = 80000 net.ipv4.neigh.default.gc_thresh2 = 90000 net.ipv4.neigh.default.gc_thresh3 = 100000 net.ipv6.neigh.default.gc_thresh1 = 80000 net.ipv6.neigh.default.gc_thresh2 = 90000 net.ipv6.neigh.default.gc_thresh3 = 100000 vm.swappiness=100 kernel.keys.maxkeys = 100000000 kernel.keys.maxbytes = 200000000 kernel.dmesg_restrict = 1 vm.max_map_count = 262144 net.ipv6.conf.default.autoconf = 0 fs.inotify.max_queued_events = 167772160 fs.inotify.max_user_instances = 167772160  # def:128 fs.inotify.max_user_watches = 167772160  # def:8192 net.core.bpf_jit_limit = 300000000000 kernel.keys.root_maxbytes = 2000000000 kernel.keys.root_maxkeys = 1000000000 kernel.pid_max = 4194304 kernel.keys.gc_delay = 300 kernel.keys.persistent_keyring_expiry = 259200 fs.aio-max-nr = 524288 kernel.pty.max = 10000 net.core.somaxconn=512000 fs.file-max = 1048576 net.ipv4.ip_local_port_range = 12000 65535 kernel.pty.reserve = 2048 net.core.rmem_max = 16777216 net.core.wmem_max = 16777216 net.core.rmem_default = 16777216 net.core.wmem_default = 16777216 net.core.optmem_max = 40960 net.ipv4.tcp_rmem = 4096 1048576 2097152 net.ipv4.tcp_wmem = 4096 65536 16777216 net.ipv4.tcp_syncookies = 1 net.ipv4.tcp_mem = 50576   64768   98152 net.core.netdev_max_backlog = 50000 net.core.netdev_budget = 10000 net.core.netdev_budget_usecs = 2000 net.ipv4.tcp_timestamps=0 net.ipv4.tcp_sack=0 net.ipv4.tcp_fin_timeout=20 kernel.sched_migration_cost_ns = 5000000 kernel.sched_autogroup_enabled = 0   

/etc/security/limits.conf

 <код>   *     soft  nofile      1048576     unset   *     hard  nofile      1048576     unset   root  soft  nofile      1048576     unset   root  hard  nofile      1048576     unset   *     soft  memlock     unlimited   unset   *     hard  memlock     unlimited   unset   root  soft  memlock     unlimited   unset   root  hard  memlock     unlimited   unset   

/etc/modprobe.d/zfs.conf

 <код> options zfs zfs_arc_max=103079215104 options zfs l2arc_noprefetch=0 options zfs zfs_arc_dnode_limit_percent=75 options zfs zfs_arc_meta_limit_percent=75    
Английский оригинал

I have a server of the following spec: Dual AMD EPYC 7742, 1TB RAM, 8TB SWAP (Round-robin 8xNVME array), 144TB SSD Storage (72 drives over 10 zpools)

uname -a

Linux host 5.4.44-1-pve #1 SMP PVE 5.4.44-1 (Fri, 12 Jun 2020 08:18:46 +0200) x86_64 GNU/Linux 

The server has Proxmox 6.2 installed & is up to date as of 02/07/20. The host has 1350 LXC containers & maintains a load average of just under 1 at this level of containers. RAM is at 800GB/1TB, SWAP is at 1.6TB/7.28TB.

Each container has been built off the proxmox ubuntu 18.04 lxc image & they are all almost identical clones of eachother. The containers make heavy use of the fast SWAP array due to only requiring RAM for a single 60s computation upon booting. Once completed, under sufficient memory pressure, they push almost all of their used RAM into SWAP, only requiring occasional reading from SWAP.

Upon creating the 1353rd LXC Container, I see a vmap allocation error in the syslog:

Jul 02 20:34:53 host kernel: lxc-start: vmalloc: allocation failure: 4096 bytes, mode:0xcc0(GFP_KERNEL), nodemask=(null),cpuset=ns,mems_allowed=0-1 Jul 02 20:34:53 host kernel: CPU: 65 PID: 3438449 Comm: lxc-start Tainted: P           OE     5.4.44-1-pve #1 Jul 02 20:34:53 host kernel: Hardware name: Supermicro Super Server/H11DSi-NT, BIOS 2.0 09/25/2019 Jul 02 20:34:53 host kernel: Call Trace: Jul 02 20:34:53 host kernel:  dump_stack+0x6d/0x9a Jul 02 20:34:53 host kernel:  warn_alloc.cold.119+0x7b/0xdd Jul 02 20:34:53 host kernel:  ? __get_vm_area_node+0x149/0x160 Jul 02 20:34:53 host kernel:  ? bpf_jit_alloc_exec+0xe/0x10 Jul 02 20:34:53 host kernel:  __vmalloc_node_range+0x1aa/0x270 Jul 02 20:34:53 host kernel:  ? bpf_jit_alloc_exec+0xe/0x10 Jul 02 20:34:53 host kernel:  module_alloc+0x82/0xe0 Jul 02 20:34:53 host kernel:  ? bpf_jit_alloc_exec+0xe/0x10 Jul 02 20:34:53 host kernel:  bpf_jit_alloc_exec+0xe/0x10 Jul 02 20:34:53 host kernel:  bpf_jit_binary_alloc+0x63/0xf0 Jul 02 20:34:53 host kernel:  ? emit_mov_reg+0xf0/0xf0 Jul 02 20:34:53 host kernel:  bpf_int_jit_compile+0x133/0x34d Jul 02 20:34:53 host kernel:  bpf_prog_select_runtime+0xa8/0x130 Jul 02 20:34:53 host kernel:  bpf_prepare_filter+0x52e/0x5a0 Jul 02 20:34:53 host kernel:  bpf_prog_create_from_user+0xc5/0x110 Jul 02 20:34:53 host kernel:  ? hardlockup_detector_perf_cleanup.cold.9+0x1a/0x1a Jul 02 20:34:53 host kernel:  do_seccomp+0x2bf/0x8d0 Jul 02 20:34:53 host kernel:  __x64_sys_seccomp+0x1a/0x20 Jul 02 20:34:53 host kernel:  do_syscall_64+0x57/0x190 Jul 02 20:34:53 host kernel:  entry_SYSCALL_64_after_hwframe+0x44/0xa9 Jul 02 20:34:53 host kernel: RIP: 0033:0x7f29737d6f59 Jul 02 20:34:53 host kernel: Code: 00 c3 66 2e 0f 1f 84 00 00 00 00 00 0f 1f 44 00 00 48 89 f8 48 89 f7 48 89 d6 48 89 ca 4d 89 c2 4d 89 c8 4c 8b 4c 24 08 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d 07 6f 0c 00 f7 d8 64 89 01 48 Jul 02 20:34:53 host kernel: RSP: 002b:00007ffc72a9e738 EFLAGS: 00000246 ORIG_RAX: 000000000000013d Jul 02 20:34:53 host kernel: RAX: ffffffffffffffda RBX: 000055d0b17813b0 RCX: 00007f29737d6f59 Jul 02 20:34:53 host kernel: RDX: 000055d0b177fa90 RSI: 0000000000000000 RDI: 0000000000000001 Jul 02 20:34:53 host kernel: RBP: 000055d0b177fa90 R08: 000055d0b17813b0 R09: 000055d0b177ad00 Jul 02 20:34:53 host kernel: R10: 000055d0b178dfd0 R11: 0000000000000246 R12: 00007ffc72a9e7dc Jul 02 20:34:53 host kernel: R13: 0000000000000000 R14: 00000000ffffffff R15: 000055d0b177ad00 Jul 02 20:34:53 host kernel: Mem-Info: Jul 02 20:34:53 host kernel: active_anon:57085917 inactive_anon:92502441 isolated_anon:0  active_file:17684788 inactive_file:8397670 isolated_file:0  unevictable:167729 dirty:675 writeback:401 unstable:0  slab_reclaimable:5604171 slab_unreclaimable:27013702  mapped:5668112 shmem:56359 pagetables:1963891 bounce:0  free:20376422 free_pcp:131976 free_cma:0 Jul 02 20:34:53 host kernel: Node 0 active_anon:111954916kB inactive_anon:172197032kB active_file:35764692kB inactive_file:17457324kB unevictable:399796kB isolated(anon):0kB isolated(file):0kB mapped:11123132kB dirty:1160kB writeback:644kB shmem:137436kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 0kB writeback_tmp:0kB unstable:0kB all_unreclaimable? no Jul 02 20:34:53 host kernel: Node 1 active_anon:116388752kB inactive_anon:197812732kB active_file:34974460kB inactive_file:16133356kB unevictable:271120kB isolated(anon):0kB isolated(file):0kB mapped:11549316kB dirty:1540kB writeback:960kB shmem:88000kB shmem_thp: 0kB shmem_pmdmapped: 0kB anon_thp: 0kB writeback_tmp:0kB unstable:0kB all_unreclaimable? no Jul 02 20:34:53 host kernel: Node 0 DMA free:15876kB min:0kB low:12kB high:24kB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:15996kB managed:15876kB mlocked:0kB kernel_stack:0kB pagetables:0kB bounce:0kB free_pcp:0kB local_pcp:0kB free_cma:0kB Jul 02 20:34:53 host kernel: lowmem_reserve[]: 0 2561 515798 515798 515798 Jul 02 20:34:53 host kernel: Node 0 DMA32 free:2625288kB min:220kB low:2840kB high:5460kB active_anon:0kB inactive_anon:0kB active_file:0kB inactive_file:0kB unevictable:0kB writepending:0kB present:2732964kB managed:2665112kB mlocked:0kB kernel_stack:0kB pagetables:0kB bounce:0kB free_pcp:2956kB local_pcp:0kB free_cma:0kB Jul 02 20:34:53 host kernel: lowmem_reserve[]: 0 0 513236 513236 513236 Jul 02 20:34:53 host kernel: Node 0 Normal free:37110116kB min:44820kB low:570372kB high:1095924kB active_anon:111954916kB inactive_anon:172197032kB active_file:35764692kB inactive_file:17457324kB unevictable:399796kB writepending:1804kB present:533970944kB managed:525553736kB mlocked:399796kB kernel_stack:590520kB pagetables:4130116kB bounce:0kB free_pcp:254676kB local_pcp:1444kB free_cma:0kB Jul 02 20:34:53 host kernel: lowmem_reserve[]: 0 0 0 0 0 Jul 02 20:34:53 host kernel: Node 1 Normal free:41754408kB min:45064kB low:573476kB high:1101888kB active_anon:116388752kB inactive_anon:197812732kB active_file:34974460kB inactive_file:16133356kB unevictable:271120kB writepending:2500kB present:536866816kB managed:528422152kB mlocked:271120kB kernel_stack:519000kB pagetables:3725448kB bounce:0kB free_pcp:270220kB local_pcp:264kB free_cma:0kB Jul 02 20:34:53 host kernel: lowmem_reserve[]: 0 0 0 0 0 Jul 02 20:34:53 host kernel: Node 0 DMA: 1*4kB (U) 2*8kB (U) 1*16kB (U) 1*32kB (U) 3*64kB (U) 0*128kB 1*256kB (U) 0*512kB 1*1024kB (U) 1*2048kB (M) 3*4096kB (M) = 15876kB Jul 02 20:34:53 host kernel: Node 0 DMA32: 6*4kB (UM) 6*8kB (M) 8*16kB (M) 6*32kB (M) 6*64kB (M) 6*128kB (M) 5*256kB (UM) 8*512kB (UM) 9*1024kB (UM) 10*2048kB (UM) 632*4096kB (M) = 2625288kB Jul 02 20:34:53 host kernel: Node 0 Normal: 70110*4kB (UME) 528589*8kB (UME) 278440*16kB (UME) 77872*32kB (UME) 98148*64kB (UM) 34504*128kB (UME) 6830*256kB (UME) 2138*512kB (UME) 722*1024kB (UM) 167*2048kB (UME) 2693*4096kB (UM) = 37109088kB Jul 02 20:34:53 host kernel: Node 1 Normal: 1440*4kB (UME) 256581*8kB (UM) 92674*16kB (UM) 16683*32kB (UME) 36437*64kB (UM) 6712*128kB (UME) 7106*256kB (UM) 2334*512kB (UM) 2282*1024kB (UME) 609*2048kB (UM) 6809*4096kB (M) = 41753960kB Jul 02 20:34:53 host kernel: Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=1048576kB Jul 02 20:34:53 host kernel: Node 0 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB Jul 02 20:34:53 host kernel: Node 1 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=1048576kB Jul 02 20:34:53 host kernel: Node 1 hugepages_total=0 hugepages_free=0 hugepages_surp=0 hugepages_size=2048kB Jul 02 20:34:53 host kernel: 57982225 total pagecache pages Jul 02 20:34:53 host kernel: 31838959 pages in swap cache Jul 02 20:34:53 host kernel: Swap cache stats: add 684735119, delete 652970785, find 114714945/164869068 Jul 02 20:34:53 host kernel: Free swap  = 6113127072kB Jul 02 20:34:53 host kernel: Total swap = 7814100640kB Jul 02 20:34:53 host kernel: 268396680 pages RAM Jul 02 20:34:53 host kernel: 0 pages HighMem/MovableOnly Jul 02 20:34:53 host kernel: 4232461 pages reserved Jul 02 20:34:53 host kernel: 0 pages cma reserved Jul 02 20:34:53 host kernel: 0 pages hwpoisoned 

I am not able to interpret the output in order to understand which direction to look. Most similar errors are from old 32-bit kernels where the issue is resolved by passing a vmalloc=512M in the grub boot loader, but with 64-but kernels the VMALLOC is much larger, as evidenced by /proc/meminfo (vmalloctotal=34TB,vmallocused=24GB):

cat /proc/meminfo

MemTotal:       1056656876 kB MemFree:        76849680 kB MemAvailable:   200978380 kB Buffers:           74844 kB Cached:         108220668 kB SwapCached:     128272136 kB Active:         299102888 kB Inactive:       407757724 kB Active(anon):   228172048 kB Inactive(anon): 370632756 kB Active(file):   70930840 kB Inactive(file): 37124968 kB Unevictable:      675628 kB Mlocked:          675628 kB SwapTotal:      7814100640 kB SwapFree:       6112054688 kB Dirty:              2500 kB Writeback:           556 kB AnonPages:      499566192 kB Mapped:         22947384 kB Shmem:            223532 kB KReclaimable:   22638384 kB Slab:           131330980 kB SReclaimable:   22638384 kB SUnreclaim:     108692596 kB KernelStack:     1108256 kB PageTables:      7894616 kB NFS_Unstable:          0 kB Bounce:                0 kB WritebackTmp:          0 kB CommitLimit:    8342429076 kB Committed_AS:   2407556960 kB VmallocTotal:   34359738367 kB VmallocUsed:    23920452 kB VmallocChunk:          0 kB Percpu:         25101312 kB HardwareCorrupted:     0 kB AnonHugePages:         0 kB ShmemHugePages:        0 kB ShmemPmdMapped:        0 kB FileHugePages:         0 kB FilePmdMapped:         0 kB CmaTotal:              0 kB CmaFree:               0 kB HugePages_Total:       0 HugePages_Free:        0 HugePages_Rsvd:        0 HugePages_Surp:        0 Hugepagesize:       2048 kB Hugetlb:               0 kB DirectMap4k:    133753764 kB DirectMap2M:    265598976 kB DirectMap1G:    674234368 kB 

free -m

              total        used        free      shared  buff/cache   available Mem:        1031891      828580       75310         203      128001      196680 Swap:       7630957     1662143     5968813 

Could someone please indicate what specific limitation is implied by the call trace & kernel log? Considering that VMALLOC should have a much higher limit on a 64-bit system.

EDIT: further info I have followed the LXC tuning described here: https://linuxcontainers.org/lxd/docs/master/production-setup

sysctl.conf (there is excessive tuning in here, as I encountered many load issues up to this point - turns out my router was spamming out too many Router Advertisments & was bringing my server to its knees).

net.ipv4.neigh.default.gc_interval = 3600 net.ipv6.neigh.default.gc_interval = 3600 net.ipv4.neigh.default.gc_stale_time = 3600 net.ipv6.neigh.default.gc_stale_time = 3600 net.ipv4.neigh.default.gc_thresh1 = 80000 net.ipv4.neigh.default.gc_thresh2 = 90000 net.ipv4.neigh.default.gc_thresh3 = 100000 net.ipv6.neigh.default.gc_thresh1 = 80000 net.ipv6.neigh.default.gc_thresh2 = 90000 net.ipv6.neigh.default.gc_thresh3 = 100000 vm.swappiness=100 kernel.keys.maxkeys = 100000000 kernel.keys.maxbytes = 200000000 kernel.dmesg_restrict = 1 vm.max_map_count = 262144 net.ipv6.conf.default.autoconf = 0 fs.inotify.max_queued_events = 167772160 fs.inotify.max_user_instances = 167772160  # def:128 fs.inotify.max_user_watches = 167772160  # def:8192 net.core.bpf_jit_limit = 300000000000 kernel.keys.root_maxbytes = 2000000000 kernel.keys.root_maxkeys = 1000000000 kernel.pid_max = 4194304 kernel.keys.gc_delay = 300 kernel.keys.persistent_keyring_expiry = 259200 fs.aio-max-nr = 524288 kernel.pty.max = 10000 net.core.somaxconn=512000 fs.file-max = 1048576 net.ipv4.ip_local_port_range = 12000 65535 kernel.pty.reserve = 2048 net.core.rmem_max = 16777216 net.core.wmem_max = 16777216 net.core.rmem_default = 16777216 net.core.wmem_default = 16777216 net.core.optmem_max = 40960 net.ipv4.tcp_rmem = 4096 1048576 2097152 net.ipv4.tcp_wmem = 4096 65536 16777216 net.ipv4.tcp_syncookies = 1 net.ipv4.tcp_mem = 50576   64768   98152 net.core.netdev_max_backlog = 50000 net.core.netdev_budget = 10000 net.core.netdev_budget_usecs = 2000 net.ipv4.tcp_timestamps=0 net.ipv4.tcp_sack=0 net.ipv4.tcp_fin_timeout=20 kernel.sched_migration_cost_ns = 5000000 kernel.sched_autogroup_enabled = 0 

/etc/security/limits.conf

  *     soft  nofile      1048576     unset   *     hard  nofile      1048576     unset   root  soft  nofile      1048576     unset   root  hard  nofile      1048576     unset   *     soft  memlock     unlimited   unset   *     hard  memlock     unlimited   unset   root  soft  memlock     unlimited   unset   root  hard  memlock     unlimited   unset 

/etc/modprobe.d/zfs.conf

options zfs zfs_arc_max=103079215104 options zfs l2arc_noprefetch=0 options zfs zfs_arc_dnode_limit_percent=75 options zfs zfs_arc_meta_limit_percent=75  
           
         
         

Список ответов

1
 
vote

Стек вызовов находится в bpf_jit_alloc_exec , и у вас довольно много бесплатной памяти, поэтому есть хороший шанс, что вам нужно посмотреть на новый BPF_JIT_LIMIT >

 

The call stack is at bpf_jit_alloc_exec and you have quite a lot free memory, so there is a good chance you need to look into the new bpf_jit_limit tunable and increase it (it's in bytes not in pages).

 
 
     
     

Связанный проблема

1  Подключение к веб-интерфейсу Proxmox через Hamachi  ( Connecting to proxmox web gui via hamachi ) 
У меня есть сервер с несколькими сетевыми адаптерами. Я установил Proxmox, а хамачи на это. Я хочу иметь возможность получить доступ к веб-графическому интерф...

16  Почему я пропускаю / var / run / sshd после каждого загрузки?  ( Why am i missing var run sshd after every boot ) 
Я использую контейнер Ubuntu 16.04 под Proxmox 5.2-11. После нанесения последнего раунда патчей 1 Я не могу войти в консоль или более SSH. Я установил кор...

2  Как я могу перенастроить гость Linux в Proxmox, чтобы использовать дискридитор на основе вирторов, а не IDE?  ( How can i reconfigure a linux guest in proxmox to use a virtio based hdd instead ) 
Я работаю Proxmox 3.3.1, чтобы провести виртуальную машину, запущенную Linux (64 бит, версия ядра 3.2.0). Виртуальная машина использует 512 ГБ HDD, который, к...

0  Proxmox для корпоративных условий  ( Proxmox for enterprise environment ) 
Я в процессе модернизации существующей серверной инфраструктуры ведьмы состоит из пары самостробывающих серверов, работающих в Xen. для по соображениям упра...

2  Как я узнаю, если я бегу в HW RAID 1?  ( How do i know if i run hw raid 1 ) 
Я создал HW RAID 1, используя EFI. Сервер Dell PowerEdge T20 с Proxmox Контроллер RAID 00: 1f.2 Контроллер шины RAID: Corporation Intel Corporation SATA [...

4  Как мигрировать VMware VMDK в ProxMox 4.4 с локальным хранилищем LVM  ( How to migrate a vmware vmdk to proxmox 4 4 with local lvm storage ) 
До недавнего времени я использовал Proxmox 4.0, и это была моя процедура для преобразования VMware VM в Proxmox . Создать рабочую виртуальную машину. Удалит...

1  Удерживая лицензию Windows Server 2016 при миграции VMS  ( Retaining windows server 2016 licence when migrating vms ) 
Поэтому я пытаюсь выяснить, как лучше сохранить нашу активную (законную) лицензию Windows Server 2016 при миграции из ESXI в Proxmox. Я сделал быструю грязн...

0  ZFS на RAMDrive Оптимальные настройки  ( Zfs on ramdrive optimal settings ) 
После неспособности настроить ZFS для создания файла и удаления файлов без последующего диска IO ( Ramdisk, как поведение ZFS ) Я создаю ZFS через RAMDrive. ...

1  Как редактировать или создавать роли в Proxmox ve?  ( How to edit or create roles in proxmox ve ) 
Как я могу создавать роли или редактировать их с конкретными привилегиями в Proxmox ve? ...

0  PHP-двоичные файлы удаляются каждый час без видимой причины и других вопросов  ( Php binaries are deleted every hour for no apparent reason and other issues ) 
С вчерашнего дня я борюсь с очень странными проблемами на одном из наших серверов. Окружающая среда: используем Proxmox для запуска нескольких виртуальных м...

4  Поддерживает ли Proxmox VE LVM в качестве блокировки для гостей KVM?  ( Does proxmox ve support lvm as block storage for kvm guests ) 
Proxmox VE поддерживает LVM в качестве блокировки для гостей KVM, чтобы избежать накладных расходов проходить через слой файловой системы на хост-системе? ...

1  Где конфигурация гостей KVM (XML), расположенная в Proxmox?  ( Where is kvm guest configuration xml located in proxmox ) 
Я хотел проверить, использует ли мой экземпляр Proxmox LVM для гостей KVM для достижения лучшей производительности Так где, где конфигурация гостей KVM (XML...

9  Ganeti VS Proxmox [закрыто]  ( Ganeti vs proxmox ) 
<в сторону CLASS = "S-NEWACTS S-WELTIVE__info JS-Post-New Imide MB16« Роль = «Статус»> <Путь d = "M15 6.38A6.48 6.48 0 007.78. 04H-.02A6.49 6.49 0 002.05 ...

1  Управляющие дисковые светодиоды на HP DL380E G8  ( Controlling drive leds on a hp dl380e g8 ) 
обнаружил <код> ledctl через физически идентифицировать неудачный жесткий диск я пытался Используйте его указывают на привод, чтобы потянуть с сервера HP D...

3  Proxmox KVM не может начать  ( Proxmox kvm fails to start ) 
Мой новый сервер является Fujitsu Primergy RX1330 M1 с процессором Intel® Xeon® E3-1220, работает либо ProxMox V4 или Proxmox V3.4, у меня есть следующая проб...

0  Установите Grub в USB и загрузку Proxmox с другого привода  ( Install grub in a usb and boot proxmox from another drive ) 
Доброе утро мои друзья! Я попробую решение перед покупкой нового оборудования. , так что это моя ситуация : У меня есть немного красивый HP DL360P Gen8,...

0  Ubuntu 20.04 Контейнер не может запустить в Proxmox  ( Ubuntu 20 04 container failing to startup in proxmox ) 
Здравствуйте, я создал контейнер Ubuntu 20.04 и 18.04 в Proxmox и оба вернуть ту же ошибку, когда я пытаюсь запустить их после создания контейнера через Proxm...

1  Не может отображать консоль ProxMox из-за времени соединения  ( Can not display proxmox console due to connection time out ) 
Когда я пытаюсь открыть консоль в Proxmox ve ничего не происходит, и я вижу эту ошибку в журналах: <код> no connection : Connection timed out TASK ERROR: co...

0  Proxmox VMS с одним IP  ( Proxmox vms with single ip ) 
Так что я не знаю много о мостах и ​​все, но я оглянулся и пытался получить его все еще работать. У меня есть один IP для сама сервера, и я подумал использова...

1  Proxmox изменение размера не удалось: выйти из кода 1  ( Proxmox resize failed exit code 1 ) 
Как я могу изменить размер жесткого диска в Proxmox? Когда я пробовал, я получаю следующую ошибку. "команда '/ usr / bin / qemu-img изменение изменений /va...

1  Proxmox: VMS и разные публичные IPS  ( Proxmox vms and different public ips ) 
У меня есть сервер, который имеет два NIC, и оба напрямую подключены к Интернету. У меня есть пять различных публичных IP-адресов, доступных для VMS. Хост-маш...

4  Proxmox KVM маршрутизированная сеть с несколькими публичными IPS  ( Proxmox kvm routed network with multiple public ips ) 
У меня есть выделенный хостинг с Hetzner. Кроме того, я купил семянную подсеть. Мой главный IP: 148.111.111.200 Моя главная подсеть: 255.255.255.224 Мои д...

0  Proxmox Как удалить диск из узла  ( Proxmox how to remove disk from node ) 
Я новичок в Proxmox Удивительно, как мы можем удалить диски из Proxmox, как вы можете видеть, у меня есть некоторые диски, установленные Что я сделал, ч...

5  Горячие замена физических дисков, переданные в QEMU VM  ( Hot swapping physical disks passed through to a qemu vm ) 
У меня есть виртуальный сервер, работающий в Qemu на Proxmox. У него есть два физических диска, прикрепленные к хосту, используя VIRLIO: Директива в 101.CFG к...

2  MySQL не начинается после обновления до Debian Jessie  ( Mysql doesnt start after upgrading to debian jessie ) 
У меня есть сервер с Proxmox 3.4 с несколькими контейнерами OpenVZ. Хозяин и все гости бегут Debian 7 x64. Теперь я хочу перенести мою старую настройку на нов...

Связанный проблема

1  Подключение к веб-интерфейсу Proxmox через Hamachi 
16  Почему я пропускаю / var / run / sshd после каждого загрузки? 
2  Как я могу перенастроить гость Linux в Proxmox, чтобы использовать дискридитор на основе вирторов, а не IDE? 
0  Proxmox для корпоративных условий 
2  Как я узнаю, если я бегу в HW RAID 1? 
4  Как мигрировать VMware VMDK в ProxMox 4.4 с локальным хранилищем LVM 
1  Удерживая лицензию Windows Server 2016 при миграции VMS 
0  ZFS на RAMDrive Оптимальные настройки 
1  Как редактировать или создавать роли в Proxmox ve? 
0  PHP-двоичные файлы удаляются каждый час без видимой причины и других вопросов 
4  Поддерживает ли Proxmox VE LVM в качестве блокировки для гостей KVM? 
1  Где конфигурация гостей KVM (XML), расположенная в Proxmox? 
9  Ganeti VS Proxmox [закрыто] 
1  Управляющие дисковые светодиоды на HP DL380E G8 
3  Proxmox KVM не может начать 
0  Установите Grub в USB и загрузку Proxmox с другого привода 
0  Ubuntu 20.04 Контейнер не может запустить в Proxmox 
1  Не может отображать консоль ProxMox из-за времени соединения 
0  Proxmox VMS с одним IP 
1  Proxmox изменение размера не удалось: выйти из кода 1 
1  Proxmox: VMS и разные публичные IPS 
4  Proxmox KVM маршрутизированная сеть с несколькими публичными IPS 
0  Proxmox Как удалить диск из узла 
5  Горячие замена физических дисков, переданные в QEMU VM 
2  MySQL не начинается после обновления до Debian Jessie