You are on page 1of 3

Monitorando a sade do HD com o SMART possvel monitorar os erros de leitura do HD (mesmo antes dos badblocks comearem a aparecer) usando

o o SMART, um recurso de monitoramento disponvel em todos os HDs modernos, onde a prpria controladora monitora o status do HD e disponibiliza um log numa rea reservada, que pode ser lida pelo sistema operacional. No Linux, este recurso disponibilizado atravs do "smartmontools", um pacote disponvel nos repositrios da maioria das distribuies e tambm no http://smartmontools.sourceforge.net/. O smartmontools baseado no "smartsuite", um pacote mais antigo, que ainda includo em algumas distribuies (como no Debian), mas que oferece menos funes e no mais desenvolvido ativamente. A maior parte das funes podem ser acessadas usando o utilitrio "smartctl", includo no pacote. Comece usando a opo "-i", seguida do device do HD (como em "smartctl -i /dev/hda") para ver informaes sobre o drive:

Note que neste caso, embora o SMART seja suportado pelo drive, ele est desativado. Antes de mais nada, precisamos ativ-lo, usando o comando: # smartctl -s on /dev/hda Para um diagnstico rpido da sade do drive (fornecido pela prpria controladora), use o parmetro "-t short", que executa um teste rpido, de cerca de dois minutos, e (depois de alguns minutos) o parmetro "-l selftest" que exibe o relatrio do teste: # smartctl -t short /dev/hda Sending command: "Execute SMART Short self-test routine immediately in off-line mode". Drive command "Execute SMART Short self-test routine immediately in off-line mode" successful. Testing has begun. Please wait 2 minutes for test to complete. # smartctl -l selftest /dev/hda Este comando exibe um relatrio de todos os autotestes realizados e o status de cada um. Num HD saudvel, todos reportaro "Completed without error". Voc pode executar tambm um teste longo (que dura cerca de uma hora) usando o parmetro "-t long". Ambos os testes no interferem com a operao normal do HD, por isso podem ser executados com o sistema rodando. Em casos de erros, o campo "LBA_of_first_error" indica o nmero do primeiro setor do HD que apresentou erros de leitura, como em: Status Remaining LBA_of_first_error Completed: unknown failure 90% 0xfff00000 Nestes casos, execute novamente o teste e verifique se o erro continua aparecendo. Se ele desaparecer no teste seguinte, significa que o setor defeituoso foi remapeado pela controladora, um sintoma benigno. Caso o erro persista, significa que no se trata de um badblock isolado, mas sim o indcio de um problema mais grave.

O parmetro "-H" (health) exibe um diagnstico rpido da sade do drive, fornecido pela prpria controladora: # smartctl -H /dev/hda SMART overall-health self-assessment test result: PASSED Neste caso, o SMART informa que no foi detectado nenhum problema com o drive. Em casos de problemas iminentes, ele exibir a mensagem "FAILING". Este diagnstico da controladora baseado em vrias informaes, como erros de leitura, velocidade de rotao do disco e movimentao da cabea de leitura. Um disco "FAILING" no um local seguro para guardar seus dados, mas em muitos casos ainda pode funcionar por alguns meses. Se ainda no houver muitos sintomas aparentes, voc pode aproveit-los em micros sem muita importncia, como estaes que so usados apenas para acessar a Web, que no armazenam dados importantes. Note que, embora relativamente raro, em muitos casos o drive pode realmente se perder menos de 24 horas depois de indicado o erro, por isso transfira todos os dados importantes imediatamente. Voc pode ver mais detalhes sobre o status de erro do HD usando o parmetro "-A", que mostra todos os atributos suportados pelo HD e o status de cada um. Na sexta coluna (Type) voc pode verificar a importncia de cada um; os marcados como "Old_age" indicam sintomas de que o HD est no final de sua vida til, mas no significam por si s problemas iminentes. Os mais graves so os "Pre-Fail", que indicam que o HD est com os dias contados. Na coluna "WHEN_FAILED" (a mais importante), voc v o status de cada opo. Num HD saudvel, esta coluna fica limpa para todas as opes, indicando que o HD nunca apresentou os erros:

O nmero de setores defeituosos no drive (no remapeados) pode ser visto nos atributos "197 Current_Pending_Sector" e "198 Offline_Uncorrectable", onde o nmero de badblocks informado na ltima coluna. Em situaes normais, os badblocks no remapeados contm pedaos de arquivos, que a controladora muitas vezes tenta ler por muito tempo antes de desistir. Em casos extremos, onde existam vrios badblocks no marcados, voc pode usar o truque de encher o HD com zeros, usando o comando "dd if=/dev/zero of=/dev/hda" para forar a controladora a escrever em todos os blocos e assim remapear os setores (perdendo todos os dados, naturalmente). O nmero de setores defeituosos j remapeados, por sua vez, pode ser acompanhado atravs dos atributos "5 Reallocated_Sector_Ct" e "196 Reallocated_Event_Count". Naturalmente, no basta executar estes testes apenas uma vez, pois erros graves podem aparecer a qualquer momento. Voc s ter segurana se eles forem executados periodicamente. Para automatizar isso, existe o servio "smartd" ("smartmontools" no Debian), que fica responsvel por executar o teste a cada 30 minutos e salvar os resultados no log do sistema, que voc pode acompanhar usando o comando "dmesg".

No caso do Debian, alm de configurar o sistema para inicializar o servio no boot, voc precisa configurar tambm o arquivo "/etc/default/smartmontools", descomentando a linha "start_smartd=yes". O padro do servio monitorar todos os HDs disponveis. Voc pode tambm especificar manualmente os HDs que sero monitorados e os parmetros para cada um atravs do arquivo "/etc/smartd.conf". Comece comentando a linha "DEVICESCAN". O arquivo contm vrios exemplos de configurao manual. Uma configurao comum a seguinte: /dev/hda -H -l error -l selftest -t -I 194 -m tux@gmail.com Esta linha monitora os logs do "/dev/hda" (erros e testes realizados) e monitora mudanas em todos os atributos (incluindo a contagem de badblocks e setores remapeados), com exceo da temperatura (que muda freqentemente), e envia e-mails para a conta especificada sempre que detectar mudanas. Para que ele use apenas o log do sistema, sem enviar o e-mail, remova a opo "-m". Para que os relatrios via e-mail funcionem, preciso que exista algum MTA instalado na mquina, como o Sendmail ou o Postfix. O smartd simplesmente usa o comando "mail" (que permite o envio de e-mails via linha de comando) para enviar as mensagens. No Debian (alm do MTA) necessrio que o pacote "mailutils" esteja instalado. Depois de alterar a configurao, lembre-se de reiniciar o servio, usando o comando: # /etc/init.d/smartd restart ou: # /etc/init.d/smartmontools restart Caso o SMART indique algum erro grave e o HD ainda esteja na garantia, voc pode imprimir o relatrio e pedir a troca. A vida til mdia de um HD IDE de cerca de dois anos de uso contnuo. HDs em micros que no ficam ligados continuamente podem durar muito mais, por isso saudvel trocar os HDs dos micros que guardam dados importantes anualmente e ir movendo os HDs mais antigos para outros micros. Normalmente, os fabricantes do um ano de garantia para os HDs destinados venda direta ao consumidor e seis meses para os HDs OEM (que so vendidos aos integradores, para uso em micros montados, mas que freqentemente acabam sendo revendidos). Uma dica geral na hora de comprar HDs nunca comprar HDs com apenas trs meses de garantia, que normalmente dada s para HDs remanufaturados.

You might also like