terça-feira, 3 de maio de 2022

vRops - Cloud Proxy - Agent Install Errors - Parte 2

Dando continuidade ao problema com os agent do Telegraf, caso não tenha visto a primeira parte recomendo a leitura (vrops-cloud-proxy-agent-install-errors.html).

Apos resolvido o problema anterior ao tentar instalar novamente o agent do Telegraf foi reportado o erro abaixo:

"error connect to salt master"

Como os testes de conectividades ja havia sido executados anteriormente, iniciamos as validações dos serviços dentro da VM do cloud proxy através dos comando abaixo:

  • docker ps - para checar o status do control plane:
    • Caso o control plane esteja parado ou com algum erro usar o comando seguinte para restart (docker restart ucp-controlplane-saltmaster).
  • docker exec -it ucp-controlplane-saltmaster bash - para conectar no container e fazer teste de conectividade com o agent do Telegraf:   
  • Comandos para executar no S.O que hospeda o agent do Telegraf:
    • service ucp-minion status
    • service ucp-telegraf status
    • service ucp-salt-minion status

Todos os serviços estavam operacionais e não reportando nenhum problema, porem a instalação do agent continuava a falhar.

Realizando uma pesquisa interna e após analise dos logs, descobrimos um problema que pode ocorrer na instalação/upgrade de novos agents Telegraf quando foi realizado um upgrade no vRops (exatamente nosso caso) conforme descrito nesse link.

Basicamente o documento pede para logarmos em todos os cloud proxy do ambiente e executar o comando abaixo:

        rpm-content/ucp/subsequentboot.sh

Feito isso a instalação dos agents ocorreu com sucesso em todos os S.O e tanto pela UI do vRops como por linha de comando.


Com o agent Telegraf instalado e operacional agora sim podemos iniciar a monitoração e configuração de métricas e serviços mais avançados dentro do S.O.


Espero que os posts ajudem a não sofrerem o tanto que eu sofri, pois no que tange Telegraf+vRops ainda temos muito pouco conteúdo disponível.

Quem sabe começo a colocar mais alguns exemplos aqui no futuro.

quinta-feira, 28 de abril de 2022

vRops - Cloud Proxy - Agent Install Errors - Parte 1

Essa semana durante a instalação e configuração do vRops Cloud Proxy me deparei com diferentes erros na instalação do Telegraf Agent, vou detalhar em alguns posts os erros apresentados e os passos para resolução do mesmo.

O primeiro erro apresentado durante a instalação do agent Telegraf foi o erro abaixo;

obs: imagem sofrível, sorry.

Bootstrap failed for VM e21eda1e-6782-48dc-9ec7-b7c591f7166c_vm-198593

with error message:{"status":"FAILED","data":[ {"status":"FAILED",

"message":"Prerequisite Check Failed. ARC Ports Unreachable: 4505 4506",

"stage":"0" }], "action":"install","job":"install","currentstage":"0,

"totalstages":"-1"}

O erro aponta diretamente para as portas de conexão usadas pelo CP para comunicação com o agent dentro da VM. A mesma mensagem era apresentada independente do S.O Windows ou Linux, e tentando realizar a instalação do agent via UI do vRops ou linha de comando direto no S.O.

Foi validado que não havia nenhum tipo de bloqueio nas portas "4505", "4506" e "443" todas elas necessárias para configuração e comunicação do agent Telegraf com o CP.

Feito todas as verificações possíveis e imagináveis tanto no S.O com na VM do CP, não conseguimos encontrar nada que justificasse o erro apresentado. Por incrível que pareça a solução foi fazer o redeploy do CP e pasmem após isso o erro relacionado as portas não ocorreu novamente. Como não realizei o deploy inicial do Cloud Proxy não tenho como validar o histórico da VM e ajustes que podem ter sido realizados após o deploy inicial para ocasionar esse problema.

Portando caso esteja em projeto e seja apresentado o erro mencionado acima, a solução mais simples e rápida é partir para o redeploy do CP,  o deploy e configuração do CP é bem simples e rápido, não ira tomar mais que 30min para estar no ar e funcional novamente.

Esse passo acima resolveu o primeiro erro, como mencionado houve alguns e irei detalhar eles nos próximos posts.

Vejo vocês por lá, abraços.!

quinta-feira, 31 de março de 2022

NSX-T Upgrade Tool

Se voce esta planejando o upgrade do seu ambiente VMware NSX-T para a ultima versão 3.2.0.1 não deixe de utilizar a nova ferramenta de pre-check que a VMware disponibilizou recentemente.

O VMware  NSX Upgrade Evaluation Tool foi desenvolvido para auxiliar nos checks realizados antes e durante o processo de upgrade do NSX-T.

A principal checagem feita com essa ferramenta é nos database existentes na manager do NSX-T, onde ele irá realizar um copia dessa informações e posteriormente a checagem direto no appliance do NSX-Upgrade Evaluation.

Todos esse processo é feito em background com a copia que foi realizado do DB, não gerando riscos ou deteriorando a performance de um ambiente produtivo.

É recomendado realizar esse pre-check duas vezes durante o processo de upgrade:

    1- antes de iniciar o upgrade e/ou o upload do .MUB.

    2- após o upgrade das Transport Nodes (EDGE, Host), antes das Manager.

O pre-check após a atualização das Transport Nodes é para validar novamente o DB e verificar se alguma das atualização realizadas podem ter gerado algum dano nas informações contidas e vinculas a Manager.

O NSX Upgrade Evaluation Tool é disponibilizado através de um OVF na mesma pagina de download do produto NSX-T nesse link.

Com funciona o NSX Upgrade Evaluation Tool:

    1- Realizar o deploy do OVF - O deploy pode ser feito no próprio o vCenter e/ou outra estrutura, a única ressalva é que o NSX Upgrade Tool tenha acesso as Manager via port22.

   2- Acessar a tool via ssh na porta 22 com o usuário admin:

   3- Rodar o comando "start dry-run data-migration mp-ip < IP DA MANAGER> ".

   4- Entrar com a senha root da Manager.

Com isso ele ira iniciar o processo de validação, caso o processo seja concluído com sucesso irá resultar em um output como o abaixo:   


Caso apresente alguma falha e/ou inconsistência terá um output similar ao abaixo:


Nesse caso voce poderá realizar uma analise nos logs abaixo:

    /var/log/cloudnet/data-migration.log
    /var/log/proton/data-migration.log
    /var/log/policy/data-migration.log 
    /var/log/proton/logical-migration.log

Porem o recomendado é entrar em contato com o suporte da VMware para que seja feita uma analise do ocorrido e assim ter os próximos passos para correção.

Lembrando que o NSX Upgrade Evaluation Tool apenas valida se o ambiente esta apto para realizar o upgrade, ele não realiza nenhum tipo de ajustes ou FIX, ficando a cargo do time responsável fazer os ajustes quando houver a necessidade.
Outro ponto importante, a utilização dessa ferramenta não elimina a necessidade de usar o pre-check upgrade disponível na UI do NSX-T. 
Os 2 processos de pre-check se complementa e um não elimina o outro.

Segue alguns links de consulta que pode ajudar no entendimento:

   

Espero ajudar com as informações aqui disponibilizadas, caso ainda tenha alguma duvida pode deixar nos comentários e/ou entrar em contato comigo.