habe mit meinen KVM Host folgende(s) Problem:
Code: Alles auswählen
[Sa Sep 22 04:57:34 2018] INFO: rcu_sched detected stalls on CPUs/tasks:
[Sa Sep 22 04:57:34 2018] 11-...0: (1 GPs behind) idle=12e/0/1 softirq=493746/493746 fqs=1415
[Sa Sep 22 04:57:34 2018] 14-...0: (1 GPs behind) idle=85a/1/4611686018427387906 softirq=271105/271105 fqs=1416
[Sa Sep 22 04:57:34 2018] (detected by 3, t=5265 jiffies, g=209387, c=209386, q=72)
[Sa Sep 22 04:57:34 2018] Sending NMI from CPU 3 to CPUs 11:
[Sa Sep 22 04:57:34 2018] NMI watchdog: Watchdog detected hard LOCKUP on cpu 2
[Sa Sep 22 04:57:34 2018] Modules linked in: rpcsec_gss_krb5 nfsv4 dns_resolver nfs fscache vfio_pci vfio_virqfd vfio_iommu_type1 vfio vhost_net vhost tap tun ebtable_filter ebtables devlink ip6table_filter ip6_tables iptable_filter binfmt_misc intel_powerclamp coretemp bridge kvm_intel kvm stp llc irqbypass mgag200 ttm crct10dif_pclmul crc32_pclmul drm_kms_helper ghash_clmulni_intel drm intel_cstate intel_uncore evdev joydev i7core_edac i5500_temp ipmi_si pcspkr iTCO_wdt ipmi_devintf ioatdma sg iTCO_vendor_support ipmi_msghandler button pcc_cpufreq acpi_cpufreq dm_mod nfsd auth_rpcgss nfs_acl lockd parport_pc grace ppdev sunrpc lp parport ip_tables x_tables autofs4 ext4 crc16 mbcache jbd2 fscrypto ecb btrfs zstd_decompress zstd_compress xxhash raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx
[Sa Sep 22 04:57:34 2018] xor raid6_pq libcrc32c crc32c_generic raid1 raid0 multipath linear md_mod ses enclosure sr_mod scsi_transport_sas sd_mod cdrom hid_generic usbhid hid ata_generic crc32c_intel aesni_intel uhci_hcd aes_x86_64 ata_piix ehci_pci ehci_hcd crypto_simd libata megaraid_sas cryptd glue_helper ixgbe igb usbcore i2c_i801 i2c_algo_bit lpc_ich usb_common mdio scsi_mod dca
[Sa Sep 22 04:57:34 2018] CPU: 2 PID: 11287 Comm: worker Kdump: loaded Not tainted 4.18.0-1-amd64 #1 Debian 4.18.6-1
[Sa Sep 22 04:57:34 2018] Hardware name: Intel Corporation S5520HC/S5520HC, BIOS S5500.86B.01.00.0064.050520141428 05/05/2014
[Sa Sep 22 04:57:34 2018] RIP: 0010:native_queued_spin_lock_slowpath+0x180/0x1c0
[Sa Sep 22 04:57:34 2018] Code: c1 ee 12 83 e0 03 83 ee 01 48 c1 e0 04 48 63 f6 48 05 40 27 02 00 48 03 04 f5 00 b7 0c 95 48 89 10 8b 42 08 85 c0 75 09 f3 90 <8b> 42 08 85 c0 74 f7 48 8b 32 48 85 f6 0f 84 4e ff ff ff 0f 18 0e
[Sa Sep 22 04:57:34 2018] RSP: 0018:ffff9014bfa43d90 EFLAGS: 00000046
[Sa Sep 22 04:57:34 2018] RAX: 0000000000000000 RBX: 0000000000000286 RCX: 00000000000c0000
[Sa Sep 22 04:57:34 2018] RDX: ffff9014bfa62740 RSI: 000000000000000b RDI: ffff9014bf52a3c0
[Sa Sep 22 04:57:34 2018] RBP: ffff9014bfa43e00 R08: 0000000000300000 R09: ffff9014bf52a3c0
[Sa Sep 22 04:57:34 2018] R10: ffff9014bfa43e20 R11: 0000000000000001 R12: 0000000000000080
[Sa Sep 22 04:57:34 2018] R13: 0000000000000204 R14: ffff9014bf502200 R15: ffff9014bf52a3c0
[Sa Sep 22 04:57:34 2018] FS: 00007efc0a6e6700(0000) GS:ffff9014bfa40000(0000) knlGS:0000000000000000
[Sa Sep 22 04:57:34 2018] CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[Sa Sep 22 04:57:34 2018] CR2: 00007fe2a408e000 CR3: 000000070e634004 CR4: 00000000000226e0
[Sa Sep 22 04:57:34 2018] Call Trace:
[Sa Sep 22 04:57:34 2018] <IRQ>
[Sa Sep 22 04:57:34 2018] _raw_spin_lock+0x1d/0x20
[Sa Sep 22 04:57:34 2018] qi_submit_sync+0x237/0x360
[Sa Sep 22 04:57:34 2018] ? qi_flush_iotlb+0x6b/0x90
[Sa Sep 22 04:57:34 2018] ? cpufreq_dbs_governor_start+0x170/0x170
[Sa Sep 22 04:57:34 2018] qi_flush_iotlb+0x6b/0x90
[Sa Sep 22 04:57:34 2018] iommu_flush_iova+0x6f/0xd0
[Sa Sep 22 04:57:34 2018] ? fq_ring_free+0xd0/0xd0
[Sa Sep 22 04:57:34 2018] iova_domain_flush+0x1d/0x30
[Sa Sep 22 04:57:34 2018] fq_flush_timeout+0x2d/0x90
[Sa Sep 22 04:57:34 2018] ? fq_ring_free+0xd0/0xd0
[Sa Sep 22 04:57:34 2018] call_timer_fn+0x2b/0x120
[Sa Sep 22 04:57:34 2018] run_timer_softirq+0x3e4/0x430
[Sa Sep 22 04:57:34 2018] ? enqueue_hrtimer+0x39/0x90
[Sa Sep 22 04:57:34 2018] ? __hrtimer_run_queues+0x138/0x290
[Sa Sep 22 04:57:34 2018] ? recalibrate_cpu_khz+0x10/0x10
[Sa Sep 22 04:57:34 2018] __do_softirq+0xe3/0x2bd
[Sa Sep 22 04:57:34 2018] irq_exit+0xb4/0xc0
[Sa Sep 22 04:57:34 2018] smp_apic_timer_interrupt+0x74/0x130
[Sa Sep 22 04:57:34 2018] apic_timer_interrupt+0xf/0x20
[Sa Sep 22 04:57:34 2018] </IRQ>
[Sa Sep 22 04:57:34 2018] RIP: 0010:smp_call_function_many+0x230/0x250
[Sa Sep 22 04:57:34 2018] Code: 55 5c 00 3b 05 05 67 01 01 0f 83 57 fe ff ff 48 63 c8 48 8b 13 48 03 14 cd 00 b7 0c 95 8b 4a 18 83 e1 01 74 0a f3 90 8b 4a 18 <83> e1 01 75 f6 eb c8 48 c7 c2 e0 92 32 95 48 89 ee 89 c7 e8 e8 55
[Sa Sep 22 04:57:34 2018] RSP: 0018:ffffb3c487f5bd00 EFLAGS: 00000202 ORIG_RAX: ffffffffffffff13
[Sa Sep 22 04:57:34 2018] RAX: 000000000000000e RBX: ffff9014bfa62ac0 RCX: 0000000000000003
[Sa Sep 22 04:57:34 2018] RDX: ffff9014bfbe6be0 RSI: 0000000000000000 RDI: ffff9014bfa62ac8
[Sa Sep 22 04:57:34 2018] RBP: ffff9014bfa62b08 R08: 0000000000000004 R09: ffff9014bfa62b08
[Sa Sep 22 04:57:34 2018] R10: ffff9014bfa62ac8 R11: 0000000000000008 R12: ffff9014bfa62ac8
[Sa Sep 22 04:57:34 2018] R13: 0000000000000200 R14: ffffffff9426a840 R15: ffffb3c487f5bd40
[Sa Sep 22 04:57:34 2018] ? flush_tlb_func_common.constprop.12+0x210/0x210
[Sa Sep 22 04:57:34 2018] flush_tlb_mm_range+0xbc/0x120
[Sa Sep 22 04:57:34 2018] ? zap_page_range+0xcd/0x150
[Sa Sep 22 04:57:34 2018] zap_page_range+0xcd/0x150
[Sa Sep 22 04:57:34 2018] ? __wake_up_common+0x76/0x170
[Sa Sep 22 04:57:34 2018] ? find_vma+0x60/0x70
[Sa Sep 22 04:57:34 2018] __x64_sys_madvise+0x46e/0x790
[Sa Sep 22 04:57:34 2018] ? do_syscall_64+0x55/0x110
[Sa Sep 22 04:57:34 2018] ? __ia32_sys_madvise+0x790/0x790
[Sa Sep 22 04:57:34 2018] do_syscall_64+0x55/0x110
[Sa Sep 22 04:57:34 2018] entry_SYSCALL_64_after_hwframe+0x44/0xa9
[Sa Sep 22 04:57:34 2018] RIP: 0033:0x7efe30bf9df7
[Sa Sep 22 04:57:34 2018] Code: ff ff ff ff c3 48 8b 15 8f 40 0c 00 f7 d8 64 89 02 b8 ff ff ff ff eb bc 66 2e 0f 1f 84 00 00 00 00 00 90 b8 1c 00 00 00 0f 05 <48> 3d 01 f0 ff ff 73 01 c3 48 8b 0d 61 40 0c 00 f7 d8 64 89 01 48
[Sa Sep 22 04:57:34 2018] RSP: 002b:00007efc0a6e57b8 EFLAGS: 00000206 ORIG_RAX: 000000000000001c
[Sa Sep 22 04:57:34 2018] RAX: ffffffffffffffda RBX: 00007efc09ee6000 RCX: 00007efe30bf9df7
[Sa Sep 22 04:57:34 2018] RDX: 0000000000000004 RSI: 00000000007fb000 RDI: 00007efc09ee6000
[Sa Sep 22 04:57:34 2018] RBP: 0000000000000000 R08: 000056299b200e90 R09: 00000000ffffffff
[Sa Sep 22 04:57:34 2018] R10: 00007efc0a6e5740 R11: 0000000000000206 R12: 00007efbf3bfe54e
[Sa Sep 22 04:57:34 2018] R13: 00007efbf3bfe54f R14: 00007efc0a6e6700 R15: 000000000000001a
<..... geht noch weiter .....>
und ein paar Sekunden spaeter friert die Kiste ein.
Habe keine Idee mehr was ich noch testen/aendern koennte.
Vor 4 Monaten habe ich im Server eine Dual-1GBit-Karte geben eine Dual-10GBit-Karte getauscht.
Nach einigen Steckplatzwechseln wegen Hitzeproblemen (Karte deaktiviert sich dann) laeuft sie
schon mehrere Wochen gut.
Da natuerlich die Vermutung nahe liegt, dass die neue Hardware fuer das Problem verantwortlich ist
habe ich in den letzten Wochen ausser einen Ruecktausch, alles moegliche mit Kerneln und Modulen
probiert, aber ohne Erfolg.
Vielleicht kann ja jemand von den Kundigen, aufgrund der obigen Zeilen, erkennen wo das Problem liegen koennte?
Ich bin da leider am Ende.
Die Laufzeiten zwischen den Problemen sind sehr unterschiedlich (min 6 Std / max 10 Tage mit Kernel 4.17.17)
Dank und Gruss klak
ps.:
eine VM bekommt eine USB Kamera eine andere eine DVB-Karte reingereicht.
Auf Host und VMs laeuft ein tagesaktuelles Testing