Confiabilidade dos Chatbots em Questões de Saúde
Um estudo recente analisou a eficácia dos chatbots de inteligência artificial (IA) em fornecer conselhos de saúde, revelando que eles muitas vezes não superam o Google, uma ferramenta já conhecida por suas falhas na orientação médica. Os pesquisadores descobriram que, apesar das expectativas em torno do uso de tecnologia na saúde, os chatbots podem gerar recomendações imprecisas e dependem fortemente da forma como as perguntas são formuladas pelos usuários.
O estudo, publicado na Nature Medicine, é o primeiro a realizar uma análise randomizada dessa natureza. Os autores observaram que, mesmo após três anos da introdução dos chatbots ao público, há crescentes preocupações sobre sua capacidade de ajudar os usuários a chegarem a diagnósticos corretos ou a decidirem sobre os próximos passos em suas condições de saúde.
Com o crescente uso de chatbots para consultas iniciais, a pesquisa revelou que cerca de um em cada seis adultos recorre a essas ferramentas ao menos uma vez por mês. Importantes empresas de IA, como Amazon e OpenAI, têm desenvolvido produtos específicos para responder dúvidas de saúde, o que gerou tanto empolgação quanto ceticismo entre profissionais da área.
Como o Estudo Foi Conduzido
O professor Adam Mahdi, da Universidade de Oxford e autor sênior da pesquisa, levantou a questão se as interações simples, muitas vezes utilizadas em testes de chatbots, realmente refletem a complexidade da medicina na prática. Ele enfatizou que a medicina é um campo multifacetado que envolve nuances e informações muitas vezes incompletas.
Para avaliar a capacidade dos chatbots, Mahdi e sua equipe recrutaram mais de 1.200 participantes britânicos, na maioria sem formação médica. Cada um recebeu um cenário clínico detalhado, que incluía sintomas e histórico médico, e foram solicitados a interagir com chatbots populares, como o ChatGPT e o Llama. O objetivo era descobrir os passos adequados a serem tomados em cada situação, como se deveriam chamar uma ambulância ou optar pela automedicação.
Os resultados foram preocupantes: os participantes acertaram a conduta “correta” sugerida por médicos em menos da metade das interações, e apenas 34% identificaram corretamente condições como cálculos biliares ou hemorragia subaracnóidea. Além disso, não conseguiram obter resultados melhores do que um grupo de controle que usou métodos tradicionais de pesquisa, como o Google.
Desafios e Limitações dos Chatbots de Saúde
Embora este experimento não represente a totalidade das interações reais com chatbots, os dados levantam questões significativas sobre sua utilidade. O especialista Ethan Goh, da Universidade de Stanford, destacou que a abordagem do estudo pode não refletir a forma como os usuários realmente se comunicam com essas plataformas em situações de saúde reais.
As empresas operadoras de IA, como a OpenAI, estão constantemente aprimorando seus sistemas. Um porta-voz da empresa mencionou que as versões atuais do ChatGPT são significativamente mais eficazes em responder a questões sobre saúde do que aquelas testadas no estudo, que já foram descontinuadas. Entretanto, o estudo ainda traz à tona os perigos potenciais que podem ocorrer durante as interações, tanto por erros dos usuários quanto por limitações dos chatbots.
Os pesquisadores notaram que muitas vezes os erros eram atribuídos à falta de informações relevantes fornecidas pelos participantes. Em um exemplo, um chatbot sugeriu que dores de estômago intensas poderiam ser causadas por indigestão, ignorando sintomas críticos que poderiam ter levado a um diagnóstico correto.
A Importância da Interação Humana na Medicina
Robert Wachter, chefe do departamento de medicina da Universidade da Califórnia, acrescentou que uma das habilidades mais valiosas que os médicos adquirem é a capacidade de discernir quais informações são cruciais para a tomada de decisões. Ele argumentou que a responsabilidade de formular a pergunta perfeita não deveria recair unicamente sobre os usuários, mas também sobre os chatbots, que deveriam ser programados para fazer perguntas complementares, assim como os médicos.
O estudo também revelou que, mesmo quando os pesquisadores inseriam informações completas nos chatbots, as respostas ainda eram inconsistentes. Por exemplo, sintomas semelhantes eram tratados de maneira diametralmente oposta, dependendo de como eram descritos. O cenário evidencia a necessidade urgente de aprimorar a comunicação entre humanos e IAs, especialmente em situações que envolvem decisões críticas de saúde.
Com estes novos dados, a comunidade médica e tecnológica é chamada a repensar a integração dos chatbots no cuidado ao paciente, buscando formas de torná-los ferramentas mais eficazes e seguras para orientação em saúde.

