Linbo/Grub Boot-Probleme
Liebe Liste,
ich habe mich nun seit letzten Sommern in die Musterlösung eingearbeitet
(zurzeit nutze ich noch die paedml 5,.1 in den Sommerferien will ich
dann (wieder) umsteigen auf die offene Lösung).
Ich habe nach und nach 3 PC Räume, Arbeitsräume und die Bibliothek
angehängt (zusammen ca. 60PCs, Wind XP und Win7), 1100 Nutzer
eingepflegt und alles funktioniert mehr oder weniger.
Seit Ende Februar habe ich unsere 35 Smartboard-PCs ebenfalls angehängt
und seither komm ich nicht mal mehr zum Schlafen, aufgrund bislang
unerklärlichen und unlösbaren Probleme. Mit Hilfe des Supports habe ich
auch schon daran gearbeitet, aber leider bislang auch ohne Erfolg. Darum
wollte ich mein Problem mal hier dem „großen“ Kreis vortragen,
vielleicht hat ja jemand schon etwas ähnliches gehabt.
Problem:
Normalerweise sollte beim starten (grub-Variante) nach Linbo und nach
"Launching Grub...
Begin pxe scann.... Starting cmain() …. "
die Meldung "Will boot NTLDR from device=0x80, partition.[...]"
erscheinen und Windows 7 starten. Statt dessen erscheint - scheinbar
völlig zufällig bei immer wieder anderen PCs und mit unterschiedlichen
Häufigkeiten:
"GRUB4DOS 0.4.4 2012-01-28, Memory: 630K / 511M, MenuEnd: 0x570F0
[ Minimal BASH-like line editing is supported. For the first word, TAB
lists possible command completions. Anywhere else TAB lists the
possible completions of a device/filename. ]
grub> _ "
und entweder hat das System an dieser Stelle kein USB Support oder es
hängt vollständig - Tastatureingaben sind jedenfalls nicht möglich.
Ich habe 1000ende Tests gemacht, konnte das Problem jedoch kaum
eingrenzen. Meine Beobachtungen:
- Das Problem tritt NUR bei normalem start und sync auf!! Bei new
(format + sync) tritt es NIE auf. (Damit behebe ich es dann immer =>
einmal Reset durch 10sek. Powerknopf drücken + Neustart mit „new“)
- Das Problem tritt nur bei den 3 Hardwareklassen an den Smartboards auf
(Fujitsu Q9000 und Q510 PCS, Win7 32bit und Win7 64bit), bei allen
anderen 6-7 Hardwareklassen in der Schule tritt es NIE auf.
- Das Problem tritt NUR auf, wenn die PCs mindestens 20-30 min
angeschaltet waren und dann ausgeschaltet und sofort oder später wieder
neu gestartet werden. Bei einem Neustart (oder Ausschalten) innerhalb
der ersten 1-30min nach dem Hochfahren tritt das Problem NICHT auf.
- Ist es einmal aufgetreten helfen auch dutzende Kaltstarts nichts – nur
durch Startoption „new“ bringt man die Kiste wieder zum booten.
- es tritt sowohl auf, wenn der PC einfach nur in der Loginmaske steht,
als auch, wenn durchgehend Benutzer (oder auch nur der admin) angemeldet
sind. Ich habe aber die Vermutung (statistisch nicht genug gefestigt),
das es seltener auftritt, wenn durchgehend Benutzer angemeldet sind (nur
50% Ausfall statt 90% nach 2h).
- Häufigkeit: schwankend. Nach 40-60min bleiben beim Neustart ca. 50%
hängen. Nach einem halben Tag in der Loginmaske bleiben fast alle hängen
- Die Häufigkeit scheint durch neue images beeinflusst zu werden. Wenn
ich ein neues image (mit kleineren updates) ausrolle tritt es danach
scheinbar mit geänderter Häufigkeit auf. Extremfall: ich habe ein neues
image ausgerollt (Windows, Firefox, Java, Antivir und Soundtreiber
Update) und es trat danach 12 Tage bei einer Hardwareklasse überhaupt
nichtmehr auf (!!), danach schlagartig (ohne Imageänderung!!!) wieder
extrem. Bei der anderen Hardwareklasse trat es auch zunächst nicht
wieder auf, nach und nach dann aber doch wieder (weniger häufig). Bei
allen weiteren Imageausrollungen ist es nie wieder ganz verschwunden,
bzw. hat auch nie wieder extreme Änderungen an der Häufigkeit bewirkt.
- Netzwerk habe ich dutzende Male umgestaltet um es auszuschließen,
inkl. nur ein Board über einen kleinen Desktop-Switch mit dem Server
verbunden => immer das gleiche Problem.
- Reboot Workaround hilft nicht -> Pc läuft dann eben in 20% der Fälle
in einer endlos Linbo >Reboot > Linbo Schleife (configdatei unter
pxelinux.cfg hatte ich nicht vergessen auf reboot zu setzen)
Weiteres was evtl. mit dem Problem auch zusammen hängen könnte aber
nicht muss:
Ich habe bei bestimmten (neuen!) Switches (im wesentlichen HP ProCurve
1810-24) ein DHCP Problem mit genau diesen Hardwareklassen, welches ich
bisher nicht lösen konnte. (Die Smartboard PCs bekommen über diese
Switches mit einer zufälligen Wahrscheinlichkeit, welche stark an das
Bootproblem erinnert keine IP zugewiesen (IP und MAC in der Linbo-Gui
„offline“). Ich habe es umgangen, indem ich die Smartboards nur noch
über Switches laufen habe, bei denen es keine Probleme gibt.
Nicht direkt mit dem Problem zusammenhängend, aber vll. wichtig zu wissen:
Ich habe ein Log Problem, welches ich schon einmal versucht habe (auch
mit Hilfe der Liste) zu lösen, aber nicht weiter kam und seither mit
niedriger Priorität immer hinten anhänge => Die Logs werden nicht auf
den Server übertragen. Ich kann mir sie aber lokal mit Knoppix CD oder
in der Linbo Console problemlos anschauen.
Unabhängig von der Lösung dieses Problems könnt ihr mir evtl. mit einer
Kleinigkeit weiterhelfen:
Ich hatte irgendwann ganz am Anfang mal eine Anleitung gefunden, wie
man durch Eintragung in config Dateien auf dem Server eine vorgeschaltet
Bootauswahl (noch vor der Linbo-gui) bekam und dann auch Windows direkt
starten auswählen konnte, was den Boot-Vorgang erheblich beschleunigte.
War auch nicht schwer oder umständlich. Ich find das aber nicht wieder,
weiß jemand was ich meine? ;) Vielleicht hilft mir das zumindest einmal
als Workaround oder zum weiteren testen.
Viele Grüße und sorry für den langen Text!
Michael
Eingesetztes System:
paedml linux 5.1, Linbo 2.0.9-0, Clients: WinXP Pro SP3, Win7 32bit und
64bit
--------------------------------------
Die Mailingliste linuxmuster wird betrieben vom Landesbildungsserver Baden-Württemberg http://www.schule-bw.de/