Dazkarieh
To fold or to FOLD?
Ora então aqui fica uma lista de erros usuais no Folding@Home. É explicada a causa e colocada a resolução (se conhecida). Esta lista irá sendo actualizada com novos erros e problemas que ocorram, logo se não encontrarem aqui a resposta para um problema, coloquem-no que tudo faremos para tentar encontrar solução. Espero também que vão dando soluções para o que colocar aqui.
Erros:
• EARLY_UNIT_END
• FILE_IO_ERROR
• CLIENT_DIED
• UNKNOWN_ERROR
• Client-Core Communications Error
• BAD_FRAME_CHECKSUM
• SPECIAL_EXIT
EARLY_UNIT_END:
É possivelmente o mais comum de todos os erros, e deve-se a uma destas possibilidades: ou uma WU deficiente ou um sistema instável.
Se isto acontece uma vez isoladamente, muito provavelmente deve-se a uma WU deficiente. Não é um problema e não se devem preocupar com isso. Usualmente acontece quando átomos na WU atingem posições impossíveis e então o processo não pode continuar.
Múltiplos deste problema é um sinal de problemas no vosso PC. Demasiado Overclock ou problemas de aquecimento geram este erro. É aconselhável parar o F@H se este ocorrer mais do que uma vez por semana. Façam testes de saturação ao CPU (usem o stressCPU) e memórias (CPU, FSB e memórias têm de estar estáveis), verifiquem temperaturas e configurações do sistema.
EARLY_UNIT_END é na maior parte das vezes causado pelo PC do utilizador, e decerto que deve levar a um exame ao sistema.
Este erro pode ser acompanhado por uma mensagem (LINCS WARNING) que dá mais detalhes técnicos sobre o que aconteceu.
Nota: Vejam a descrição sobre "-forceasm" que causam SPECIAL_EXIT em alguns PC baseados em AMD. Se estão a correr o folding num AMD Athlon XP com core Barton ou Thoroghbred, devem remover a opção "-forceasm" que os vossos problemas devem desaparecer.
FILE_IO_ERROR
É um erro que acontece quando operações de disco correm mal. É um erro muito comum. Acontece muito desde o Gromacs Core 1.46. Normalmente acontece quando temos um erro de hardware, algo como “Write 0010, read back 0011". Se este erro ocorrer, certifique-se de que o disco está em bom estado: corra o ScanDisk, CHKDSK ou fsck. Certifique-se ainda de que o bus IDE está activo, que os cabos IDE estão em bom estado e se o disco não está mesmo a deixar de funcionar.
Também ocorre se duas Consolas a trabalhar na mesma WU, ou seja, se por acidente começa um cliente duas vezes, em vez de dois clientes uma vez.
Outro exemplo deste erro prende-se com a utilização da flag "-SMP" em WU's que não são deste tipo.
CLIENT_DIED:
Isto acontece quando, simplesmente, o cliente é encerrado indevidamente, quer pelo utilizador quer por erros. O core continua a correr, mas visto que não encontra o cliente, é encerrado. Este problema também está relacionado com demasiado Overclock ou pelos timings das memórias estarem demasiado agressivos.
UNKNOWN_ERROR:
Um agora raro erro do Gromacs que usualmente acontece quando uma WU corrompida está a ser usada. Actualmente já não é comum e em caso de ocorrer deverão informar-nos, colocando o respectivo fragmento do FahLog. Também deverá efectuar testes ao hardware.
Client-Core Communications Error:
Existem vários e deferentes tipos deste erro.
ERROR 0xX é basicamente outra forma do UNKNOWN_ERROR. Pode ser encontrado em Linux se tem problemas na versão Glibc. Também pode ser causado por excesso de Overclock Se não for devido a nenhum destes casos, coloque o FahLog para uma análise mais precisa..
No caso particular do ERROR 0x1, este ocorre muitas vezes se o Core é “morto” enquanto o cliente o processa,ou seja, se por exemplo desligam o cliente pelo task manager.
ERROR 0x________ (no espaço em branco são 8 digitos em hexadecimal), é geralmente um erro geral do Windows.
No caso particular do ERROR 0xC0000005 significa que foi violado o acesso à memória. Este é um código-erro standard do Windows para qualquer programa que tente aceder a memória que não controla. Também pode ser um raro erro de Hardware e não é motivo de preocupação. Versões desactualizadas de cliente ou cores podem também ser a causa. Para exclerecimento, coloque o FahLog que geralmente encontra-se a causa.
BAD_FRAME_CHECKSUM:
No seu FahLog aparecerá algo do género:
SPECIAL_EXIT:
Este erro significa que algo desconhecido ocorreu “dentro” do core Gromacs. A única causa conhecida é quando “-forceasm” é aplicado a um sistema AMD que não está totalmente estável. CPUs com problemas conhecidos são o Thoroughbred B, Barton e o Opteron. Neste caso, estará associado a um EARLY_UNIT_END (ver em cima). Remova o “-forceasm” que resolverá o problema. Estes erros são cada vez menos comuns.
Se não está a usar a flag “-forceasm”, deverá colocar o log pois poderá ser um problema sério.
E pronto... recomendações gerais: mantenham o sistema estável, usem sempre a versão mais recente do Folding e não se metam em aventuras
Irei actualizando este post com erros que surjam. Recomendações também venham elas.
Keep Folding
Erros:
• EARLY_UNIT_END
• FILE_IO_ERROR
• CLIENT_DIED
• UNKNOWN_ERROR
• Client-Core Communications Error
• BAD_FRAME_CHECKSUM
• SPECIAL_EXIT
EARLY_UNIT_END:
É possivelmente o mais comum de todos os erros, e deve-se a uma destas possibilidades: ou uma WU deficiente ou um sistema instável.
Se isto acontece uma vez isoladamente, muito provavelmente deve-se a uma WU deficiente. Não é um problema e não se devem preocupar com isso. Usualmente acontece quando átomos na WU atingem posições impossíveis e então o processo não pode continuar.
Múltiplos deste problema é um sinal de problemas no vosso PC. Demasiado Overclock ou problemas de aquecimento geram este erro. É aconselhável parar o F@H se este ocorrer mais do que uma vez por semana. Façam testes de saturação ao CPU (usem o stressCPU) e memórias (CPU, FSB e memórias têm de estar estáveis), verifiquem temperaturas e configurações do sistema.
EARLY_UNIT_END é na maior parte das vezes causado pelo PC do utilizador, e decerto que deve levar a um exame ao sistema.
Este erro pode ser acompanhado por uma mensagem (LINCS WARNING) que dá mais detalhes técnicos sobre o que aconteceu.
Nota: Vejam a descrição sobre "-forceasm" que causam SPECIAL_EXIT em alguns PC baseados em AMD. Se estão a correr o folding num AMD Athlon XP com core Barton ou Thoroghbred, devem remover a opção "-forceasm" que os vossos problemas devem desaparecer.
FILE_IO_ERROR
É um erro que acontece quando operações de disco correm mal. É um erro muito comum. Acontece muito desde o Gromacs Core 1.46. Normalmente acontece quando temos um erro de hardware, algo como “Write 0010, read back 0011". Se este erro ocorrer, certifique-se de que o disco está em bom estado: corra o ScanDisk, CHKDSK ou fsck. Certifique-se ainda de que o bus IDE está activo, que os cabos IDE estão em bom estado e se o disco não está mesmo a deixar de funcionar.
Também ocorre se duas Consolas a trabalhar na mesma WU, ou seja, se por acidente começa um cliente duas vezes, em vez de dois clientes uma vez.
Outro exemplo deste erro prende-se com a utilização da flag "-SMP" em WU's que não são deste tipo.
CLIENT_DIED:
Isto acontece quando, simplesmente, o cliente é encerrado indevidamente, quer pelo utilizador quer por erros. O core continua a correr, mas visto que não encontra o cliente, é encerrado. Este problema também está relacionado com demasiado Overclock ou pelos timings das memórias estarem demasiado agressivos.
UNKNOWN_ERROR:
Um agora raro erro do Gromacs que usualmente acontece quando uma WU corrompida está a ser usada. Actualmente já não é comum e em caso de ocorrer deverão informar-nos, colocando o respectivo fragmento do FahLog. Também deverá efectuar testes ao hardware.
Client-Core Communications Error:
Existem vários e deferentes tipos deste erro.
ERROR 0xX é basicamente outra forma do UNKNOWN_ERROR. Pode ser encontrado em Linux se tem problemas na versão Glibc. Também pode ser causado por excesso de Overclock Se não for devido a nenhum destes casos, coloque o FahLog para uma análise mais precisa..
No caso particular do ERROR 0x1, este ocorre muitas vezes se o Core é “morto” enquanto o cliente o processa,ou seja, se por exemplo desligam o cliente pelo task manager.
ERROR 0x________ (no espaço em branco são 8 digitos em hexadecimal), é geralmente um erro geral do Windows.
No caso particular do ERROR 0xC0000005 significa que foi violado o acesso à memória. Este é um código-erro standard do Windows para qualquer programa que tente aceder a memória que não controla. Também pode ser um raro erro de Hardware e não é motivo de preocupação. Versões desactualizadas de cliente ou cores podem também ser a causa. Para exclerecimento, coloque o FahLog que geralmente encontra-se a causa.
BAD_FRAME_CHECKSUM:
No seu FahLog aparecerá algo do género:
Note que as duas linhas de hexadecimal são iguais. Este erro ocorre com unidades Tinker. Uma das causas conhecidas é quando dois ou mais clientes são colocados na mesma directoria. Muitas vezes, por muito estranho que pareça, este erro ocorre como EARLY_UNIT_END mas apenas é detectado no final da WU processada. BAD_FRAME_CHECKSUM, semelhante ao FILE_IO_ERROR do Gromacs, também pode significar um erro de Hardware que ocorre quando existe uma discrepância entre o que foi lido e o que era esperado: algo como escrever 101010 e ler 110110. Mais uma vez, só é detectado quando a unidade é terminada.[hh:mm:ss] Header on frame 220 differs from expected header
[hh:mm:ss] Got: A028B-5C-3E84B02E-EA1B7D4: 0220
[hh:mm:ss] Expected: A028B-5C-3E84B02E-EA1B7D4: 0219
SPECIAL_EXIT:
Este erro significa que algo desconhecido ocorreu “dentro” do core Gromacs. A única causa conhecida é quando “-forceasm” é aplicado a um sistema AMD que não está totalmente estável. CPUs com problemas conhecidos são o Thoroughbred B, Barton e o Opteron. Neste caso, estará associado a um EARLY_UNIT_END (ver em cima). Remova o “-forceasm” que resolverá o problema. Estes erros são cada vez menos comuns.
Se não está a usar a flag “-forceasm”, deverá colocar o log pois poderá ser um problema sério.
E pronto... recomendações gerais: mantenham o sistema estável, usem sempre a versão mais recente do Folding e não se metam em aventuras
Irei actualizando este post com erros que surjam. Recomendações também venham elas.
Keep Folding
Última edição pelo moderador: