星期日, 9月 27, 2009

最近機房得【機瘟】了

這幾天,先是學務主機硬碟有壞軌,開機後會卡在Smart:....
好不容易開機會,查看message log發現
Aug 24 14:50:07 www smartd[2593]: Device: /dev/sda, 6 Currently unreadable (pending) sectors
Aug 24 14:50:07 www smartd[2593]: Device: /dev/sda, 6 Offline uncorrectable sectors
Aug 24 15:20:07 www smartd[2593]: Device: /dev/sda, 6 Currently unreadable (pending) sectors
Aug 24 15:20:07 www smartd[2593]: Device: /dev/sda, 6 Offline uncorrectable sectors
Aug 24 15:50:07 www smartd[2593]: Device: /dev/sda, 6 Currently unreadable (pending) sectors
Aug 24 15:50:07 www smartd[2593]: Device: /dev/sda, 6 Offline uncorrectable sectors
Aug 24 16:20:07 www smartd[2593]: Device: /dev/sda, 6 Currently unreadable (pending) sectors
Aug 24 16:20:07 www smartd[2593]: Device: /dev/sda, 6 Offline uncorrectable sectors
Aug 24 16:50:07 www smartd[2593]: Device: /dev/sda, 6 Currently unreadable (pending) sectors
Aug 24 16:50:07 www smartd[2593]: Device: /dev/sda, 6 Offline uncorrectable sectors

上網查了一下,大概是硬碟有壞軌,想說還可以開機,而且檔案也有備份所以不怕掛,結果就開始發生一堆以前沒發生過的怪事,先是學務內將學生升級,過二天後, 模組內的學生人數統計非常怪,連一年級的資料還沒匯進去,竟然會出現3個班各有一個學生,其他年級也有幾個班的人數和學籍資料有出入,再來又發生註冊組及導師無法修改學生資料,資料修改完送出後,會出現sql update 的一些訊息,但是沒有更新資料,最後只好再找一台機器將系統重裝,不過重裝的過程也不是很順利。

今天,在機房整理資料,突然整個斷電,UPS一直狂叫,可是電燈還是亮著,最後發現應該是電力負載過量,開機自行跳掉了,重開就好了!

可是有一兩台機器,因為沒有接UPS ,那就很慘了,尤其是行政FTP的硬碟,開機後發現磁碟陣列出現Critical的訊息,還好是作raid1,先忽略掉,沒關係,還有一顆硬碟就再撐著吧,可是開機到一半,竟出現

>> Checking root filesystem
>> /dev/hda1 Contains a file system with errors, check forced.
>> Error reading block 2378098 (Attempt to read block from filesystem resulted in
>> short read) while doing inode scan.
>> /dev/hda1 : UNEXPECTED INCONSISTENCY ; RUN fsck MANUALLY.
>>                  ( i.e. , without -a or -p options )
>>                                                                                               [FAILED]
>> *** An error occurred during the file system check .
>> *** Dropping you to a shell ; the system will reboot .
>> *** When you leave the shell .
>> Give root password for maintenance
>> ( or type Control-D for normal startup ) :
上網查了一下,應該是斷電造成的,但是網路上查到的資料不多,修正的方式也不一,最後只好先試最簡單的方法,沒想到竟成功了,方法如下:

  1. 先依提示,輸入root 的密碼

  2. 將每個partition執行fsck指令,我是下這樣
    fsck /dev/sda1
    若check後有問題,系統會你是否要修正inode並寫入,按Y,不過這個程序要很久,
    將每個partition fsck後(註:/boot 這個partition因為正在執行,所以不能執行fsck),再reboot,看看是否可以正常開機吧!

  3. 要找機會將硬碟換掉,並且重新安裝

沒有留言: