Um grupo de pesquisadores ousou em testar a inteligência artificial ChatGPT no USMLE (United States Medical Licensing Examination), um teste que permite o licenciamento médico nos Estados Unidos.
Sem treinamento especializado nenhum, o chatbot demonstrou um alto nível de concordância nas explicações, e se manteve no limite de aprovação em todas as etapas dos testes.
ChatGPT – você já conhece?
A inteligência artificial (IA) mais falada atualmente é o ChatGPT, pela ampla capacidade de executar tarefas. É um modelo de código aberto desenvolvido pela OpenAI, um instituto de pesquisa focado no desenvolvimento de IA de forma segura.
O ChatGPT é um sistema de aprendizado de máquina projetado para entender e gerar linguagem, e para auxiliar diversas tarefas, como responder a perguntas e fornecer informações. Obviamente não é humano, mas foi desenvolvido para ser capaz de se comunicar e interagir de uma maneira semelhante à de uma pessoa.
A IA é ótima, mas ainda há limitações. Nem sempre a mesma pergunta pode gerar a mesma resposta, pois o aprendizado de máquina permite a constante melhora dos padrões – e algumas respostas podem ser mais precisas depois de um tempo.
Além disso, o chatbot pode ser repetitivo, prolixo, criar frases muito longas e sempre é necessário uma revisão.
O ChatGPT foi lançado em dezembro do ano passado, e em uma semana mais de 1 milhão de usuários já haviam testado.
Desempenho do ChatGPT no USMLE
Um grupo de cientistas testou se a IA era capaz de realizar o Teste de Licenciamento Médico dos Estados Unidos (USMLE) – é a licença para praticar a medicina. É um teste de 3 etapas:
Primeira etapa: análise de conceitos importantes das ciências básicas para a prática da medicina – em geral, após os dois primeiros anos de medicina.
Segunda etapa: análise da capacidade de aplicar o conhecimento médico e de compreender a clínica, que é essencial para a prestação de cuidados ao paciente.
Terceira etapa: análise da capacidade de trabalho sem supervisão, com ênfase no manejo do paciente em ambientes ambulatoriais. É o teste final que permite a prática médica.
No teste, o ChatGPT mostrou precisão moderada nas respostas, com um desempenho médio de 60%, suficiente para aprovação. Os resultados são consistentes – quando avaliados por mais de um “entrevistador”, há quase 95% de concordância nas respostas.
Os autores comentam que o modelo deve se aprimorar conforme mais usuários utilizem, e esses resultados tendem a ser melhores caso sejam novamente testados. Isso é evidenciado, por exemplo, pela menor eficácia da versão anterior (< 40%).
Outro dado interessante é que a acurácia do chatbot foi maior na etapa 3, seguida pela etapa 2 e depois a etapa 1. Os autores acreditam que isso reflete a realidade do teste, que apresenta questões mais difíceis nas primeiras etapas, somado a menor representatividade de dados que a plataforma deve conter sobre ciências básicas vs. aplicadas.
Claro que o trabalho apresenta limitações e não podemos desconsiderá-las. Inclusive, o artigo ainda não foi publicado, está em fase de revisão, e modificações ainda podem aparecer. Mas a proposta dos autores é de que o modelo de IA seja um auxiliar – e não um substituto – na aprendizagem de conteúdo médico. Sua utilização pode ser valiosa para os estudos, visto a alta capacidade de respostas e a linguagem acessível. Além disso, é uma plataforma disponível publicamente!
O impacto na literatura científica – Nota da Editora WeMEDS®
Com a popularidade do chatbot, era de se esperar sua utilização na escrita de artigos científicos. Afinal, os textos são muito bem elaborados e convincentes que os cientistas geralmente não conseguem identificá-los como “não humanos”. Porém, temos diversas limitações e questionamentos.
Uma notícia recente publicada na revista Nature aponta alguns dos artigos nos quais o ChatGPT aparece como coautor – incluindo o que comentamos, sobre o USMLE.
É importante destacar que, ao avaliar um artigo científico, a escolha de um autor deve ser criteriosa. Em geral, o coautor é alguém que contribuiu de forma essencial para o trabalho – sem ele, o produto / manuscrito final não estaria completo, como é apresentado à revista para publicação.
Ainda, um dos critérios importantes é que qualquer autor dentro de um artigo concorde, e saiba explicar e assumir a responsabilidade (intelectual e legal) pelo conteúdo e a integridade do trabalho publicado.
De fato, há uma contribuição na escrita dos artigos, mas deve-se questionar o quanto é apropriado citar um bot como um autor. Quais as responsabilidades atribuídas à inteligência artificial, referente ao artigo? Como essa IA concordou com isso?
Esse artigo em questão, citado pela Nature, ainda está em fase de revisão e a autoria do ChatGPT provavelmente já está sendo questionada. Em um caso anterior já foi verificado que “houve um engano” e que a revista iria providenciar as correções. Esse não é o primeiro caso, e provavelmente não vai ser o último.
Por isso é tão essencial essa verificação das revistas, revisão por pares e conferência dos editores. Na ciência, há muitos casos (famosos, inclusive) de tentativa de inclusão de autores de forma aleatória – incluindo nomes de animais de estimação, pessoas fictícias.
Estamos diante de uma situação nova, e que precisa ser muito questionada ainda. Um dos artigos comentados pela Nature tem como título “Can GPT-3 write an academic paper on itself, with minimal human input?” – “O GPT-3 pode escrever um artigo acadêmico sobre si mesmo, com o mínimo de intervenção humana?”. A conclusão foi que sim, embora com limitações.
Qual será o impacto do uso dessa inteligência artificial nos estudos universitários e na produção de pesquisa? Quantos trabalhos acadêmicos, dissertações de mestrado e teses de doutorado realmente serão elaboradas pelo próprio acadêmico pesquisador?
Outro detalhe: atualmente, o ChatGPT não inclui as referências das quais gera as informações. Pelo modelo da IA, o plágio é muito improvável, mas se nós (humanos) apenas copiarmos suas informações, o quanto isso deve ser considerado plágio?
Seguimos atentos e focados em produzir ciência de verdade!
—
Referências:
ChatGPT listed as author on research papers: many scientists disapprove. Nature 613, 620-621 (2023). doi: https://doi.org/10.1038/d41586-023-00107-z
[PRÉ-PRINT] Gpt Generative Pretrained Transformer, Almira Osmanovic Thunström, Steinn Steingrimsson. Can GPT-3 write an academic paper on itself, with minimal human input? 2022. ⟨hal-03701250⟩
Else H. Abstracts written by ChatGPT fool scientists. Nature. 2023 Jan;613(7944):423. doi: 10.1038/d41586-023-00056-7. PMID: 36635510.
[PRÉ-PRINT] Tiffany H. Kung et al. Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical 2 Education Using Large Language Models. https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2.full.pdf