Bladeservere fusker under/etter oppdatering av UEFI (BIOS)

Det hender at maskiner med UEFI istedenfor BIOS nekter plent å starte opp etter at man har oppdatert UEFI. Det er da viktig å passe på at du har oppdatert management-modulen samtidig (ILO, IMM, DRAC e.l.). Dersom disse ikke er kompatible blir det bare rot. Det samme gjelder forsåvidt de sentrale managementmodulene i chassiet, de må ofte oppdateres samtidig som UEFI for at bladene skal kunne snakke sammen med chassiet. Eksemplene som er nevnt her er stort sett hentet fra IBM Bladecenter H med HS22 blade, men det meste er også opplevd på HP BL460. Flere av løsningene vil med litt fantasi fungere også på HP, eller om ikke ihvertfall peke i retning av en løsning.

Maskinen starter ikke i det hele tatt eller henger på UEFI initialisering

Forsøk disse i rekkefølge til du får respons.

  • Før du begynte burde du ha sjekket at IPv4 innstillingene for eventuelle IBM USB RNDIS nettverkskortet var satt riktig og at dette ikke var deaktivert. Sjekk dette når du får serveren opp igjen for å unngå fremtidige problemer.IBM RNDIS Og så fremt du ikke bruker IPv6, slå dette av på alle nettverkskortene.
  • Slå  av bladet og ta det ut av chassiet. Vent 2 minutt, sett det inn igjen. Vent til On-lampen blinker langsomt(1-5 minutt), og slå på.
  • Vent i minst 10 minutt på at maskinen skal boote.
  • Slå av bladet, ta det ut av chassiet og ta ut biosbatteriet under den blå gummihetten og eventuelle fiberkort. Vent i 2 minutt, sett inn batteriet men ikke eventuelle fiberkort. Sett inn bladet, vent på langsom blink og slå på.
  • Vent i opptil 30 minutt på at maskinen skal boote. Første boot etter batteribortfall eller firmwareoppdatering tar av og til fryktelig lang tid, og så plutselig bare virker den. Etter 30 minutt kan du dog trygt gi opp.
  • Dersom første boot etter batteribortfall feiler, slå av og slå på igjen.
  • Dersom det fortsatt ikke virker, feilmeld til produsenten. Du har da klart å “forsteine” hovedkortet og det må sannsynligvis skiftes.

Maskinen finner ikke boot disk

  • Sjekk at start options er satt riktig i bios:
    Start options
  • Sjekk om du får kontakt med disken ved å boote til en windows server setup cd med samme versjon som er installert på disken. Pass på forskjellen på 64 og 32 bit.
  • Start installasjonen og gå frem til valg av disk. Sjekk at disken står listet der. Avbryt installasjonen, velg repair and recovery, og åpne et kommandoprompt.
  • Start diskpart (den kan bruke noen minutt på å starte opp)
  • Skriv kommandoen “select disk n”, der n er nummeret på den disken som operativsystemet ligger på (Du kan se hvilke du har ved å kjøre list disk)
  • Skriv kommandoen “select volume n”, der n er nummeret på den partisjonen som operativsystemet ligger på (Du kan se hvilke du har ved å kjøre list volume)
  • Skriv kommandoen “online volume”
  • Du kan sjekke om det virker ved å skrive kommandoen “detail volume”
  • Gå ut av diskpart ved å skrive “exit”image
  • Kjør disksjekk på C: (“chkdsk c: /F”) og vent til den er ferdig
  • Restart server.

Maskinen krasjer etter oppdatering, BSOD (HS22)

Under gitte forutsetninger kan man ende opp med et ustabilt system etter oppdatering, der maskinen går en stund for så å gå i blåskjerm. En analyse av minidump ga meg følgende:

BUGCHECK_STR:  0x124_GenuineIntel

CUSTOMER_CRASH_COUNT:  1

DEFAULT_BUCKET_ID:  DRIVER_FAULT_SERVER_MINIDUMP

PROCESS_NAME:  System

CURRENT_IRQL:  f

STACK_TEXT:
fffffa60`01b91958 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KeBugCheckEx

STACK_COMMAND:  kb

FOLLOWUP_NAME:  MachineOwner

MODULE_NAME: hardware

IMAGE_NAME:  hardware

DEBUG_FLR_IMAGE_TIMESTAMP:  0

FAILURE_BUCKET_ID:  X64_0x124_GenuineIntel__UNKNOWN

BUCKET_ID:  X64_0x124_GenuineIntel__UNKNOWN

Followup: MachineOwner

Dette gjentok seg en par tre ganger i løpet av 12 timer, så jeg feilmeldte. De hyggelige folkene hos IBM kunne da fortelle meg at jo, dette var en kjent feil. Det har seg nemlig sånn at dersom man hadde rett type ekspansjonskort installert i serveren så må man endre en av standardinnstillingene i BIOS. Mer spesifikt må man endre System Settings –> Devices and I/O Ports –> PCIe Gen1/Gen2 Speed Selection fra Gen2 til Gen1.

image

Tilleggskort som fører til denne feilen per 2010.11.12:

Broadcom 10 Gb 2-port Ethernet Expansion Card (CFFh) for
IBM BladeCenter, Option 44W4466, FRU 44W4469
Broadcom 10 Gb 4-port Ethernet Expansion Card (CFFh) for
IBM BladeCenter, Option 44W4465, FRU 44W4472
Emulex 8 Gb Fibre Channel Expansion Card (CIOv) for IBM
BladeCenter, Option 46M6140, FRU 46M6138
NetXen 10 Gb Ethernet Expansion Card (CFFh), Option
39Y9271, FRU 39Y9269
QLogic 2-port 10 Gb Converged Network Adapter (CFFh) for
IBM BladeCenter, Option 42C1830, FRU 42C1832
QLogic 4 Gb Fibre Channel Expansion Card (CIOv) for IBM
BladeCenter, Option 46M6065, FRU 46M6068
QLogic 8 Gb Fibre Channel Expansion Card (CIOv) for IBM
BladeCenter, Option 44X1945, FRU 44X1948
QLogic Ethernet and 4 Gb Fibre Channel Expansion Card
(CFFh) for IBM BladeCenter, Option 39Y9306, FRU 39Y9304
QLogic Ethernet and 8 Gb Fibre Channel Expansion Card
(CFFh) for IBM BladeCenter, Option 44X1940, FRU 44X1943
SAS Connectivity Card (CIOv) for IBM BladeCenter, Option
43W4068, FRU 46C4069
ServeRAID-MR10ie (CIOv) Controller for IBM BladeCenter,
Option 46C7167, CRU 46C7171

Author: DizzyBadger

SQL Server DBA, Cluster expert, Principal Analyst

Leave a Reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.