Un estudio encuentra que la última versión de ChatGPT pasa la prueba estilo rayboard, destacando el “potencial de crecimiento de la inteligencia artificial”

La última versión de ChatGPT, archivo inteligencia artificial Un nuevo estudio de la Universidad de Toronto encuentra que el chatbot de OpenAI es lo suficientemente inteligente como para pasar una prueba estilo rayboard.

GPT-4, que se lanzó oficialmente el 13 de marzo de 2023, respondió correctamente el 81 % de las 150 preguntas de opción múltiple del examen.

A pesar de la alta precisión del chatbot, el estudio, que se publicó en Radiology, una revista de la Sociedad Radiológica de América del Norte (RSNA), descubrió algunos errores preocupantes.

Se descubrió que CHATGPT brinda mejores consejos médicos que los médicos reales en un estudio ciego: ‘Esto cambiará las reglas del juego’

“Los radiólogos hacen tres cosas cuando interpretan imágenes médicas: buscan resultados, usan lógica avanzada para comprender lo que significan los resultados y luego comunican esos hallazgos a los pacientes y otros médicos”, explicó el autor principal, Rajesh Bhayana, MD, radiólogo abdominal. y liderazgo tecnológico en imágenes médicas en la Universidad de Toronto, Hospital General de Toronto en Toronto CanadaEn un comunicado a Fox News Digital.

tecnología de rayos x

Un nuevo estudio de la Universidad de Toronto encuentra que la última versión de ChatGPT, el chatbot de inteligencia artificial de OpenAI, es lo suficientemente inteligente como para pasar una prueba estilo rayboard. (iStock)

“La mayor parte de la investigación de IA en radiología se ha centrado en la visión artificial, pero los modelos de lenguaje como ChatGPT realizan principalmente el segundo y tercer paso (tareas lógicas y de lenguaje avanzadas)”, continúa.

“Nuestra investigación proporciona información sobre el rendimiento de ChatGPT en el contexto de la radiología y destaca el increíble potencial de los modelos de lenguaje grande, junto con las limitaciones actuales que los hacen poco confiables”.

Charla con proveedores de atención médica: ¿Puede la IA facilitar el trabajo de los profesionales?

Los investigadores diseñaron las preguntas de una manera que refleja el estilo, el contenido y la dificultad de los exámenes del Royal College of Canada y la American Board of Radiology, según la discusión del estudio en la revista médica.

(Debido a que ChatGPT aún no acepta imágenes, los investigadores se limitaron a preguntas de texto).

Las preguntas se formularon luego a dos preguntas diferentes. Versiones de ChatGPT: GPT-3.5 y GPT-4 más reciente.

Mejora significativa en el pensamiento avanzado

La versión GPT-3.5 de ChatGPT respondió correctamente el 69 % de las preguntas (104 de 150), cerca del 70 % de la puntuación de aprobación utilizada por el Imperial College of Canada, según los resultados del estudio.

Tuvo más problemas con las preguntas relacionadas con “habilidades de pensamiento de orden superior”, como la descripción de los resultados de las imágenes.

especialista en rayos x

dijo el autor principal de un nuevo estudio (no en la foto). (iStock)

En cuanto a GPT-4, respondió correctamente el 81 % (121 de 150) de las mismas preguntas, superando el umbral de aprobación del 70 %.

La versión más nueva respondió mucho mejor a preguntas de pensamiento de orden superior.

“El propósito del estudio fue ver cómo se desempeña ChatGPT en un contexto de radiología, tanto en razonamiento avanzado como en conocimiento básico”, dijo Bhayana.

GPT-4 respondió correctamente el 81 % de las preguntas, superando el umbral de aprobación del 70 %.

“GPT-4 se desempeñó muy bien en ambas áreas y demostró una mejor comprensión del contexto lingüístico específico de la radiología, lo cual es fundamental para permitir que las herramientas más avanzadas que los radiólogos pueden usar sean más eficientes y efectivas”, agregó.

Los investigadores se sorprendieron por la “mejora significativa” de GPT-4 en las habilidades de pensamiento avanzado sobre GPT-3.5.

“Nuestros hallazgos resaltan el creciente potencial de estos modelos en radiología, pero también en otras áreas de la medicina”, dijo Bhayana.

El médico brasileño utiliza inteligencia artificial para diagnosticar enfermedades

“Nuestros hallazgos resaltan el creciente potencial de estos modelos en radiología, pero también en otras áreas de la medicina”, dijo el autor principal de un nuevo estudio. (Nelson Almeida/AFP vía Getty Images)

Dr. Harvey Castro A. Basado en Dallas, Texas Médico de urgencias certificado por la junta y portavoz nacional de AI in Healthcare, no participó en el estudio, pero revisó los resultados.

“El salto en el rendimiento de GPT-3.5 a GPT-4 se puede atribuir a un conjunto de datos de entrenamiento más completo y un mayor enfoque en el aprendizaje por refuerzo humano”, dijo a Fox News Digital.

“Esta capacitación ampliada permite que GPT-4 interprete, comprenda y use de manera más efectiva el conocimiento incorporado”, agregó.

Chat y atención médica: ¿Puede un chatbot impulsado por IA cambiar la experiencia del paciente?

Castro señaló que una puntuación más alta en una prueba estandarizada no equivale necesariamente a una comprensión más profunda de un tema médico como la radiología.

“Muestra que GPT-4 es mejor para reconocer patrones en función de la gran cantidad de información con la que ha sido entrenado”, dijo.

El futuro de ChatGPT está en el cuidado de la salud

mucho Expertos en tecnología de la saludincluido Bhayana, creen que los modelos de lenguaje extenso (LLM, por sus siglas en inglés) como GPT-4 cambiarán la forma en que las personas interactúan con la tecnología en general, y más específicamente con la medicina.

“Ya están integrados en motores de búsqueda como Google, registros médicos electrónicos como Epic y software de dictado médico como Nuance”, dijo a Fox News Digital.

“Pero hay muchas aplicaciones avanzadas de estas herramientas que harán eso Transformando el cuidado de la salud Más allá de eso.”

Aplicación OpenAI ChatGPT en el sitio web de la App Store

“El salto en el rendimiento de GPT-3.5 a GPT-4 se puede atribuir a un conjunto de datos de capacitación más completo y un mayor enfoque en el aprendizaje de refuerzo humano”, dijo el Dr. Harvey Castro, MD, médico de emergencia certificado por la junta y orador nacional en IA en el cuidado de la salud, dijo Fox News Digital. (Jacob Borzycki/NourPhoto)

En el futuro, cree Bhayana, estos modelos podrían responder con precisión las preguntas de los pacientes, ayudar a los médicos a realizar diagnósticos y guiar las decisiones de tratamiento.

Con su refinamiento en radiología, anticipó que los LLM podrían ayudar a aumentar las capacidades de los radiólogos y hacerlos más eficientes y efectivos.

“Aún no hemos llegado, los modelos no son lo suficientemente confiables para usarse en la práctica clínica, pero nos estamos moviendo rápidamente en la dirección correcta”, agregó.

Limitaciones de ChatGPT en Medicina

Quizás la mayor limitación de los LLM en radiología, dijo Castro, es su incapacidad para interpretar datos visuales, que es un aspecto importante de la radiología.

Modelos grandes de lenguaje (LLM) como ChatGPT Bhayana señaló que también son conocidos por su tendencia a “alucinar”, es decir, cuando presentan información inexacta de una manera que parece segura.

“Los modelos aún no son lo suficientemente confiables para ser utilizados en la práctica clínica”.

“Estas alucinaciones disminuyeron en GPT-4 en comparación con 3,5, pero aún ocurrían con demasiada frecuencia para ser confiables en la práctica clínica”, dijo.

“Los médicos y los pacientes deben ser conscientes de las fortalezas y limitaciones de estos modelos, incluido el conocimiento de que no se puede confiar en ellos como la única fuente de información en este momento”, agregó Bhayana.

ChatGPT en PC

“Los médicos y los pacientes deben ser conscientes de las fortalezas y limitaciones de estos modelos, incluido el conocimiento de que no se puede confiar en ellos como la única fuente de información en este momento”. (Alianza Frank Rampenhorst / Foto vía Getty Images)

Castro estuvo de acuerdo en que, si bien un LLM puede tener suficiente conocimiento para aprobar las pruebas, no puede competir con los médicos humanos cuando se trata de determinar los diagnósticos de los pacientes y desarrollar planes de tratamiento.

“Los exámenes estandarizados, incluidos los de radiología, se centran principalmente en casos ‘escritos'”, dijo.

“Pero en la práctica clínica, los pacientes rara vez muestran síntomas típicos”.

Haga clic aquí para la aplicación FOX NEWS

Castro dijo que cada paciente tiene síntomas, antecedentes y factores de personalidad únicos que pueden diferir de los casos “estándar”.

“Esta complejidad a menudo requiere un buen juicio y toma de decisiones, una capacidad de la que actualmente carece la IA, incluidos modelos avanzados como GPT-4”.

Haga clic aquí para suscribirse a nuestro boletín de salud

Si bien los resultados mejorados de GPT-4 son prometedores, dijo Castro, “se debe trabajar mucho para garantizar que las herramientas de IA sean precisas, seguras y valiosas en un entorno clínico real”.