O terceiro bloco de análise no documento da ERS é referente à qualidade, fazendo uso da informação recolhida directamente pela própria ERS e por informada prestada pela ACSS.
O primeiro conjunto de indicadores, com base em informação da ACSS, surgem como diferença face à média do grupo de comparação, embora, ao contrário do que foi feito anteriormente no relatório, não haja qualquer referência à significância estatística destas diferenças (e não é de excluir que diferenças de 2316 casos por 100,000 episódios não sejam afinal significativas – é uma variação de 2,3% em 100,000 episódios, e não se sabe qual a variância dentro do grupo de referência para cada hospital). Haverá certamente hospitais públicos com melhores resultados e provavelmente hospitais públicos com piores resultados.
O conjunto seguinte de informação resulta do SINAS – Sistema Nacional de Avaliação em Saúde, que é mantido pela Entidade Reguladora da Saúde. A informação utilizada é relativamente actual, referente a Fevereiro de 2016. A participação no SINAS é voluntária, pelo que a existência de efeitos de seleção pode ser relevante – os hospitais que antecipem piores resultados poderão auto-excluir-se. Em qualquer caso, a comparação com os melhores, caso haja efeito selecção na participação, é também ela relevante. Para este conjunto de informação, volta a ERS à utilização explicita de testes estatísticos de comparação de distribuições, concluindo-se (uma vez mais) pela ausência de “diferenças estatisticamente significativas” entre os grupos no que se refere a cumprirem os requisitos mínimos da ERS para receberem uma classificação por níveis (“estrelas”). Dado que existe um limite natural no 100% dos hospitais cumprirem esses mínimos, a comparação das PPP com os melhores hospitais públicos daria tendencialmente ausência de diferença entre eles. Parece-me que seria fácil prever que para este indicador (ter ou não estrela) dificilmente se poderia ter um resultado diferente, dado que existe um limite superior ao que é o melhor resultado. Mesmo a capacidade de discriminação fina de diferenças entre um grupo com 4 observações e um grupo de comparação que pode ter mais de 20 observações será tipicamente pouca. A própria variação ao longo do tempo do número de estrelas atribuído a cada hospital tenderá a variar pouco. Caso haja um score mais quantitativo subjacente à atribuição de estrelas, com uma escala cardinal, teria sido, a meu ver, melhor utilizar essa informação. É que transformar a escala cardinal em ordinal para estrelas (uma, duas ou três), e depois fazer a média das estrelas é pouco interessante. Não só reduz a informação que é usada como realizar a média implica uma cardinalidade que não está provavelmente presente dessa forma nos scores subjacentes – o nível de qualidade 3 não tem certamente o triplo da qualidade do nível de qualidade 1, mas ao fazer-se a média é isso que se está a admitir. E igualmente aqui seria bom ter-se dado informação, mesmo que em nota de rodapé, de qual a capacidade do teste estatístico usado (teste de Wilcoxon-Mann-Whitney) em discriminar as duas distribuições quando uma tem 4 observações.
O terceiro conjunto de informação usado pela ERS é baseado nas reclamações dos utentes em hospitais públicos, usando para o efeito o indicador “percentagem de reclamações das PPP face ao total de reclamações dos hospitais públicos” e comparar com a percentagem de hospitais que são PPP. Esta comparação não é necessariamente informativa uma vez que com hospitais que servem populações distintas, em dimensão da área de influência e composição da população, não há qualquer razão para pensar que a percentagem de reclamações deverá ser igual em todos os hospitais. Seria mais relevante, creio, olhar para a percentagem de reclamações face ao número de cidadãos na área de influência ou face ao número de atendimentos no hospital (nenhum dos indicadores é perfeito, ainda assim). Por um lado, quem não “experimentou” o hospital não tem porque reclamar, e pode não ter “experimentado” por não ter tido necessidade ou por ter preferido ir a outro lado. Talvez um indicador mais elaborado seja ter a percentagem de utentes que reclamaram explicitamente somados aos que “reclamaram indo a outro hospital ainda que residindo na área de influência” sobre o total de pessoas da área de influência que foram atendidos em hospitais. Além disso, há que perceber se a propensão a reclamar é independente do hospital ser PPP ou não do ponto de vista do cidadão. Isto é, a decisão de um cidadão reclamar pode depender do atendimento que recebeu, das características pessoais do cidadão e da interação entre as características pessoais e as características do hospital. Por exemplo, uma faixa populacional pode ser mais propensa a reclamar. Se um hospital tiver mais pessoas dessa faixa populacional, terá mais reclamações para o mesmo tipo de problemas que apresente. Se os cidadãos tenderem a reclamar mais quando se trata de uma PPP por entenderem que sendo gestão privada se justifica, então as PPP para os mesmos problemas tenderão a ter mais reclamações. E temos por estes efeitos reclamações diferentes entre hospitais, mesmo que tenham os mesmos problemas. Como não houve a preocupação de decompor as percentagens de reclamações nos vários efeitos, não creio que seja licito concluir imediatamente que todas as diferenças se devem a diferenças de resultados. Até pode suceder que seja esse o caso, mas sem efectuar uma análise mais detalhada não se pode afirmar com segurança que tal suceda. Por fim, a análise de casos extremos pode, ou não, ser representativa de diferenças sistemáticas.