No campo de aprendizado de máquina e, especificamente, no problema de classificação estatística , uma matriz de confusão , também conhecida como matriz de erros, [6] é um layout de tabela específico que permite a visualização do desempenho de um algoritmo, tipicamente um aprendizado supervisionado (em aprendizado não supervisionado , geralmente é chamado de matriz correspondente ). Cada linha da matriz representa as instâncias em uma classe prevista, enquanto cada coluna representa as instâncias em uma classe real (ou vice-versa). [2] O nome deriva do fato de que é fácil ver se o sistema está confundindo duas classes (ou seja, geralmente classificando incorretamente uma como outra).
É um tipo especial de tabela de contingência , com duas dimensões (“real” e “previsto”) e conjuntos idênticos de “classes” em ambas as dimensões (cada combinação de dimensão e classe é uma variável na tabela de contingência).
Exemplo
Se um sistema de classificação foi treinado para distinguir entre cães e gatos, uma matriz de confusão resumirá os resultados do teste do algoritmo para uma inspeção mais aprofundada. Supondo que uma amostra de 13 animais – 8 gatos e 5 cães – a matriz de confusão resultante possa se parecer com a tabela abaixo:
|
Nesta matriz de confusão, dos 8 gatos reais, o sistema previu que três eram cães, e dos cinco cães, previu que dois eram gatos. Todas as previsões corretas estão localizadas na diagonal da tabela (destacadas em negrito), portanto é fácil inspecionar visualmente a tabela quanto a erros de previsão, pois eles serão representados por valores fora da diagonal.
Tabela de confusão
Na análise preditiva , uma tabela de confusão (às vezes também chamada de matriz de confusão ) é uma tabela com duas linhas e duas colunas que relata o número de falsos positivos , falsos negativos , verdadeiros positivos e verdadeiros negativos. Isso permite uma análise mais detalhada do que a mera proporção de classificações corretas (precisão). A precisão não é uma métrica confiável para o desempenho real de um classificador, porque produzirá resultados enganosos se o conjunto de dados for desequilibrado (ou seja, quando o número de observações em diferentes classes varia muito). Por exemplo, se houvesse 95 gatos e apenas 5 cães nos dados, um classificador específico poderia classificar todas as observações como gatos. A precisão geral seria de 95%, mas com mais detalhes o classificador teria uma taxa de reconhecimento de 100% ( sensibilidade ) para a classe de gatos, mas uma taxa de reconhecimento de 0% para a classe de cães. A pontuação F1 é ainda mais confiável nesses casos, e aqui renderia mais de 97,4%, enquanto a informação remove esse viés e gera 0 como a probabilidade de uma decisão informada para qualquer forma de adivinhação (aqui, sempre adivinhando o gato).
De acordo com Davide Chicco e Giuseppe Jurman, a métrica mais informativa para avaliar uma matriz de confusão é o coeficiente de correlação de Matthews (MCC) [5] .
Assumindo a matriz de confusão acima, sua tabela de confusão correspondente, para a classe cat, seria:
Classe real | ||||
---|---|---|---|---|
Gato | Não gato | |||
Classe prevista
|
Gato | 5 verdadeiros positivos | 2 falsos positivos | |
Não gato | 3 negativos falsos | 3 verdadeiros negativos |
A tabela final de confusão conteria os valores médios para todas as classes combinadas.
Vamos definir um experimento a partir de instâncias P positivas e N negativas para alguma condição. Os quatro resultados podem ser formulados em uma matriz de confusão 2 × 2 , da seguinte maneira:
Condição verdadeira | ||||||
População total | Condição positiva | Condição negativa | Prevalência = Σ Condição positiva/population População total | Precisão (ACC) = Σ Verdadeiro positivo + Σ Verdadeiro negativo/Σ População total | ||
Condição prevista |
Condição prevista positiva |
Verdadeiro positivo | Falso positivo , erro tipo I |
Valor preditivo positivo (VPP), Precisão = Σ Verdadeiro positivo/Σ Condição prevista positiva | Taxa de descoberta falsa (FDR) = Σ Falso positivo/condition Condição prevista positiva | |
Condição prevista negativa |
Falso negativo , erro tipo II |
Verdadeiro negativo | Taxa de falsa omissão (FOR) = Σ Falso negativo/Σ Condição prevista negativa | Valor preditivo negativo (VPN) = negative Verdadeiro negativo/Σ Condição prevista negativa | ||
Taxa positiva verdadeira (TPR), Rechamada , Sensibilidade , probabilidade de detecção, Potência = Σ Verdadeiro positivo/Σ Condição positiva | Taxa de falso positivo (FPR), Fallout , probabilidade de alarme falso = Σ Falso positivo/Σ Condição negativa | Razão de verossimilhança positiva (LR +) = TPR/FPR | Odds ratio diagnóstico (DOR) = LR +/LR− | F 1 pontuação = 2 · Precisão · Recuperação/Precisão + Recuperação | ||
Taxa de falsos negativos (FNR), taxa de faltas = Σ Falso negativo/Σ Condição positiva | Especificidade (RCM), Seletividade, Taxa negativa verdadeira (TNR) = Σ Verdadeira negativa/Σ Condição negativa | Razão de verossimilhança negativa (LR−) = FNR/TNR |
Referências
- ^ Fawcett, Tom (2006). “Uma introdução à análise ROC” (PDF) . Cartas de reconhecimento de padrão . 27 (8): 861–874. doi : 10.1016 / j.patrec.2005.10.010 .
- ^ Salte para:a b Poderes, David MW (2011). “Avaliação: da precisão, rechamada e medida F ao ROC, informação, marcação e correlação” (PDF) . Jornal de Tecnologias de Aprendizado de Máquina . 2 (1): 37-63.
- ^ Ting, Kai Ming (2011). Enciclopédia de aprendizado de máquina . Springer. ISBN978-0-387-30164-8.
- ^ Brooks, Harold; Castanho, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26-01- 2015). “Grupo de Trabalho Conjunto WWRP / WGNE sobre Pesquisa de Verificação de Previsão” . Colaboração para a pesquisa australiana sobre clima e clima . Organização Meteorológica Mundial . Recuperado em 17/07/2019 .
- ^ Salte para:a b Chicco D, Jurman G (janeiro de 2020). “As vantagens do coeficiente de correlação de Matthews (MCC) sobre o escore F1 e a precisão na avaliação da classificação binária” . BMC Genomics . 21 (6) doi : 10.1186 / s12864-019-6413-7 . PMC 6941312 . PMID 31898477 .
- ^ Stehman, Stephen V. (1997). “Seleção e interpretação de medidas de precisão de classificação temática”. Sensoriamento Remoto do Ambiente . 62 (1): 77-89. doi : 10.1016 / S0034-4257 (97) 00083-7 .