ChatGPT: inteligência artificial é capaz de passar na prova de residência médica dos EUA

25 de janeiro, 2023

Um grupo de pesquisadores ousou em testar a inteligência artificial ChatGPT no USMLE (United States Medical Licensing Examination), um teste que permite o licenciamento médico nos Estados Unidos.

Sem treinamento especializado nenhum, o chatbot demonstrou um alto nível de concordância nas explicações, e se manteve no limite de aprovação em todas as etapas dos testes.

Conteúdo ocultar

1 ChatGPT – você já conhece?

2 Desempenho do ChatGPT no USMLE

3 O impacto na literatura científica – Nota da Editora WeMEDS®

ChatGPT – você já conhece?

A inteligência artificial (IA) mais falada atualmente é o ChatGPT, pela ampla capacidade de executar tarefas. É um modelo de código aberto desenvolvido pela OpenAI, um instituto de pesquisa focado no desenvolvimento de IA de forma segura.

O ChatGPT é um sistema de aprendizado de máquina projetado para entender e gerar linguagem, e para auxiliar diversas tarefas, como responder a perguntas e fornecer informações. Obviamente não é humano, mas foi desenvolvido para ser capaz de se comunicar e interagir de uma maneira semelhante à de uma pessoa.

A IA é ótima, mas ainda há limitações. Nem sempre a mesma pergunta pode gerar a mesma resposta, pois o aprendizado de máquina permite a constante melhora dos padrões – e algumas respostas podem ser mais precisas depois de um tempo.

Além disso, o chatbot pode ser repetitivo, prolixo, criar frases muito longas e sempre é necessário uma revisão.

O ChatGPT foi lançado em dezembro do ano passado, e em uma semana mais de 1 milhão de usuários já haviam testado.

Desempenho do ChatGPT no USMLE

Um grupo de cientistas testou se a IA era capaz de realizar o Teste de Licenciamento Médico dos Estados Unidos (USMLE) – é a licença para praticar a medicina. É um teste de 3 etapas:

Primeira etapa: análise de conceitos importantes das ciências básicas para a prática da medicina – em geral, após os dois primeiros anos de medicina.

Segunda etapa: análise da capacidade de aplicar o conhecimento médico e de compreender a clínica, que é essencial para a prestação de cuidados ao paciente.

Terceira etapa: análise da capacidade de trabalho sem supervisão, com ênfase no manejo do paciente em ambientes ambulatoriais. É o teste final que permite a prática médica.

No teste, o ChatGPT mostrou precisão moderada nas respostas, com um desempenho médio de 60%, suficiente para aprovação. Os resultados são consistentes – quando avaliados por mais de um “entrevistador”, há quase 95% de concordância nas respostas.

Os autores comentam que o modelo deve se aprimorar conforme mais usuários utilizem, e esses resultados tendem a ser melhores caso sejam novamente testados. Isso é evidenciado, por exemplo, pela menor eficácia da versão anterior (< 40%).

Outro dado interessante é que a acurácia do chatbot foi maior na etapa 3, seguida pela etapa 2 e depois a etapa 1. Os autores acreditam que isso reflete a realidade do teste, que apresenta questões mais difíceis nas primeiras etapas, somado a menor representatividade de dados que a plataforma deve conter sobre ciências básicas vs. aplicadas.

Claro que o trabalho apresenta limitações e não podemos desconsiderá-las. Inclusive, o artigo ainda não foi publicado, está em fase de revisão, e modificações ainda podem aparecer. Mas a proposta dos autores é de que o modelo de IA seja um auxiliar – e não um substituto – na aprendizagem de conteúdo médico. Sua utilização pode ser valiosa para os estudos, visto a alta capacidade de respostas e a linguagem acessível. Além disso, é uma plataforma disponível publicamente!

O impacto na literatura científica – Nota da Editora WeMEDS®

Com a popularidade do chatbot, era de se esperar sua utilização na escrita de artigos científicos. Afinal, os textos são muito bem elaborados e convincentes que os cientistas geralmente não conseguem identificá-los como “não humanos”. Porém, temos diversas limitações e questionamentos.

Uma notícia recente publicada na revista Nature aponta alguns dos artigos nos quais o ChatGPT aparece como coautor – incluindo o que comentamos, sobre o USMLE.

É importante destacar que, ao avaliar um artigo científico, a escolha de um autor deve ser criteriosa. Em geral, o coautor é alguém que contribuiu de forma essencial para o trabalho – sem ele, o produto / manuscrito final não estaria completo, como é apresentado à revista para publicação.

Ainda, um dos critérios importantes é que qualquer autor dentro de um artigo concorde, e saiba explicar e assumir a responsabilidade (intelectual e legal) pelo conteúdo e a integridade do trabalho publicado.

De fato, há uma contribuição na escrita dos artigos, mas deve-se questionar o quanto é apropriado citar um bot como um autor. Quais as responsabilidades atribuídas à inteligência artificial, referente ao artigo? Como essa IA concordou com isso?

Esse artigo em questão, citado pela Nature, ainda está em fase de revisão e a autoria do ChatGPT provavelmente já está sendo questionada. Em um caso anterior já foi verificado que “houve um engano” e que a revista iria providenciar as correções. Esse não é o primeiro caso, e provavelmente não vai ser o último.

Por isso é tão essencial essa verificação das revistas, revisão por pares e conferência dos editores. Na ciência, há muitos casos (famosos, inclusive) de tentativa de inclusão de autores de forma aleatória – incluindo nomes de animais de estimação, pessoas fictícias.

Estamos diante de uma situação nova, e que precisa ser muito questionada ainda. Um dos artigos comentados pela Nature tem como título “Can GPT-3 write an academic paper on itself, with minimal human input?” – “O GPT-3 pode escrever um artigo acadêmico sobre si mesmo, com o mínimo de intervenção humana?”. A conclusão foi que sim, embora com limitações.

Qual será o impacto do uso dessa inteligência artificial nos estudos universitários e na produção de pesquisa? Quantos trabalhos acadêmicos, dissertações de mestrado e teses de doutorado realmente serão elaboradas pelo próprio acadêmico pesquisador?

Outro detalhe: atualmente, o ChatGPT não inclui as referências das quais gera as informações. Pelo modelo da IA, o plágio é muito improvável, mas se nós (humanos) apenas copiarmos suas informações, o quanto isso deve ser considerado plágio?

Seguimos atentos e focados em produzir ciência de verdade!

—

Referências:

ChatGPT listed as author on research papers: many scientists disapprove. Nature 613, 620-621 (2023). doi: https://doi.org/10.1038/d41586-023-00107-z

[PRÉ-PRINT] Gpt Generative Pretrained Transformer, Almira Osmanovic Thunström, Steinn Steingrimsson. Can GPT-3 write an academic paper on itself, with minimal human input? 2022. ⟨hal-03701250⟩

Else H. Abstracts written by ChatGPT fool scientists. Nature. 2023 Jan;613(7944):423. doi: 10.1038/d41586-023-00056-7. PMID: 36635510.

[PRÉ-PRINT] Tiffany H. Kung et al. Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical 2 Education Using Large Language Models. https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2.full.pdf

QUIZ – Recém-nascido com dispneia logo após o nascimento

QUIZ – Tratamento da Pagofagia?

QUIZ – Profilaxia na Doença Hemolítica Perinatal, quando fazer?

QUIZ – Qual a principal causa de Isquemia Intestinal Aguda?

QUIZ – Auto-anticorpo do Lúpus Farmacoinduzido?

Edital autoriza a abertura de novos cursos de Medicina

Comissão Nacional de Residência Médica: mudanças propostas não agradam entidades médicas

Flashcards WeMEDS®: a chave para a sua aprovação

A face cruel da Nova Medicina Germânica

Por que todo profissional de saúde deveria ler AnaMi?

Histórias que cuidam: uma viagem literária pela vida sob as palavras…

Demência Frontotemporal: saiba mais sobre a doença de Bruce Willis

Nobel de Fisiologia ou Medicina 2022: o que nos torna humanos…

Flashcards WeMEDS®: a chave para a sua aprovação

Melhor app de Medicina: você conhece o WeMEDS®?

Calculadora de Doses Pediátricas! Super novidade no app!

WeMEDS® é eleito um dos melhores apps da área de saúde!

WeMEDS 3.0: conheça as novidades do app!

ChatGPT: inteligência artificial é capaz de passar na prova de residência médica dos EUA

ChatGPT – você já conhece?

Desempenho do ChatGPT no USMLE

O impacto na literatura científica – Nota da Editora WeMEDS®

DEIXE UMA RESPOSTA Cancelar resposta

EM ALTA

Child-Pugh para avaliar prognóstico na doença hepática crônica

Corantes artificiais e o aumento do risco de câncer colorretal

Metformina pode prolongar a gestação em pré-eclâmpsia pré-termo

Transtorno Opositor Desafiador e Transtorno de Conduta: semelhanças e diferenças

MAIS RECENTES

O ChatGPT pode ajudar no manejo do câncer ginecológico?

Dengue: inteligência artificial pode auxiliar na detecção de focos do Aedes...

Como utilizar a Escala de Depressão Pós-parto de Edimburgo (EPDS)

Como diagnosticar e tratar um paciente com Erisipela