https://docs.google.com/presentation/d/e/2PACX-1vSBszOL9_B5Vf8UxYsYXr6iSkIbqk1_EMVm-m3LBiNkitgGEQ-HLQh62RgwjLJXRA/pubembed?start=false&loop=false&delayms=3000
A avaliação de métodos de eXplainable AI (XAI) requer métricas objetivas que quantifiquem quão bem as explicações refletem o comportamento real do modelo e atendem às necessidades dos usuários. A seguir, apresenta-se uma taxonomia das principais propriedades avaliadas e as métricas mais usadas para cada uma delas.

Taxonomia de métricas de avaliação de XAI
1. Fidelidade (Faithfulness)
Definição: mede o quão fielmente a explicação reproduz o comportamento interno do modelo.
- Inserção / remoção (Insertion/Deletion): remove (ou insere) progressivamente regiões de maior importância e observa o impacto na saída do modelo. A Área Sobre a Curva de Perturbação (AOPC) quantifica essa mudança cumulativa1.
- Perturbação de Região (Region Perturbation): substitui superpixels ou segmentos da imagem por ruído e mede a queda de confiança da classe prevista2.

Curva AOPC para métricas de fidelidade
2. Robustez e Estabilidade
Robustez avalia a sensibilidade da explicação a pequenas perturbações na entrada; Estabilidade mede a consistência das importâncias atribuídas a cada característica ao longo de múltiplas amostras.
- Estimativa Local de Lipschitz (LLE) e Sensibilidade Média (Average Sensitivity): técnicas baseadas em Monte Carlo que calculam constantes de Lipschitz ou variação média da explicação para perturbações limitadas1.
- Feature Stability: representa a variabilidade das distribuições de importância de cada recurso usando desvio-padrão relativo ou divergência de Jensen–Shannon3.
3. Completude (Completeness) e Localização (Localization)
Completude (ou coverage) avalia se a explicação cobre todos os fatores relevantes para a decisão do modelo; Localização mede a sobreposição entre regiões de destaque e o “verdadeiro” objeto de interesse na imagem.
- Coverage Completeness: percentagem de predições para as quais o método gera justificativas para todos os fatores-chave4.
- Relevance Rank Accuracy / Point Game: quantifica a fração de top-k valores de relevância que caem dentro da máscara de solo-verdade (ground-truth) do objeto2.
4. Compacidade (Compactness)
Mede o quão sucinta é a explicação, facilitando a compreensão.