Logo de la UNED

Madrid, 7 de diciembre de 2021




La investigación de la UNED sobre asignación automática de códigos CIE-10 a informes médicos, publicada en Artificial Intelligence in Medicine

La investigación presenta un sistema creado con técnicas de Inteligencia Artificial que se puede entender como un modelo de información que permite una recomendación eficiente de códigos CIE-10, con unos resultados muy competitivos en comparación con los sistemas que más se usan en la actualidad.

La Clasificación Internacional de Enfermedades (CIE), desarrollada por la Organización Mundial de la Salud es una indexación de documentos basada en la clasificación médica de enfermedades, síntomas, hallazgos anómalos, circunstancias sociales o causas externas de lesiones o enfermedades. Se divide en dos grandes grupos: enfermedades y procedimientos. La décima versión de esta clasificación, denominada CIE-10, o ICD-10 en inglés International Classification of Diseases, ha sido ampliamente adoptada por médicos y otros profesionales de la salud para estandarizar el almacenamiento, acceso y recuperación de todo tipo de información diagnóstica. Sin embargo, el número total de códigos posibles que se pueden asignar a un informe médico es muy elevado, alrededor de 140.000 códigos diferentes.

Además, el número de códigos asignado a cada informe es variable, por lo que el proceso de asignación manual de códigos CIE-10 es extremadamente complejo e ineficiente, debido a que los informes médicos suelen contener grandes cantidades de información textual no estructurada. En este contexto se desarrolla el trabajo de los investigadores de la UNED. Según explican los autores, el objetivo fundamental de la investigación fue “el desarrollo de sistemas basados en el Procesamiento del Lenguaje Natural (PLN), que permitan una asignación automática de códigos CIE-10 a partir de los textos de los informes médicos, en concreto informes médicos escritos en español”, señala el profesor de la UNED Andrés Duque.


Foto

En opinión de Duque, la principal aportación que puede derivarse de la investigación es la utilización de sistemas automáticos que permitan el etiquetado o clasificación automática de informes médicos utilizando el sistema de codificación CIE-10. “De forma directamente práctica esto se puede traducir en sistemas de recomendación para el etiquetado tentativo de documentos, que propongan un conjunto de códigos probables, de tal forma que puedan ser validados por los médicos. Alcanzar un buen rendimiento en este tipo de sistemas permitirá reducir enormemente el tiempo que se tarda actualmente en etiquetar manualmente los informes médicos con sus códigos correspondientes”, explica el profesor.

UNED


Los autores del artículo señalan que la aplicación del Procesamiento del Lenguaje Natural al campo de la medicina es un área de investigación muy desarrollada en los últimos años. “La gran cantidad de recursos textuales no estructurados que se generan en el ámbito de la práctica médica (artículos de investigación, informes médicos, estudios, etc.), suponen un gran desafío a la hora de automatizar cualquier tarea relacionada con el tratamiento de dichos textos. Además, se trata de una oportunidad de aplicar nuestros conocimientos en el área del PLN a un campo como la medicina, en el cuál los avances en la investigación se pueden transformar rápidamente en herramientas extremadamente útiles para la sociedad en su conjunto”.

La hipótesis de los investigadores estaba relacionada con la extracción de frases clave. Las frases clave son palabras o conjuntos de palabras que aparecen en un texto analizado y representan los contenidos y conceptos más importantes de dicho texto. “En nuestro estudio consideramos que la utilización de frases clave para modelar informes médicos para los cuáles ya conocemos sus códigos CIE-10 asignados (conjunto de entrenamiento), puede servir para encontrar los códigos CIE-10 más adecuados correspondientes a un nuevo informe médico”, explica Duque.



UNED

En el sistema desarrollado, tras extraer las frases clave más importantes de los informes médicos, se realiza un tratamiento estadístico de la información que enlaza cada frase clave con un conjunto de códigos CIE-10 relacionados. De esta manera, cuando el sistema recibe un nuevo informe médico, es capaz de extraer sus frases clave y a través de ellas acceder a los códigos CIE-10 más susceptibles de ser asignados a dicho informe. “Los resultados obtenidos corroboran estas hipótesis de investigación, y por tanto nuestro sistema se puede entender como un modelo de información que permite una recomendación eficiente de códigos CIE-10, y que ofrece unos resultados muy competitivos en comparación con los sistemas que, en la actualidad, representan el estado del arte de la tarea abordada”.

Para Andrés Duque la mayor aportación de este trabajo al problema específico de asignación automática de códigos CIE-10 a informes médicos es “la alta interpretabilidad de los resultados obtenidos”. “En la actualidad, una gran mayoría de los sistemas más competitivos son sistemas de aprendizaje profundo (Deep Learning) que, en general, pueden ser entendidos como "cajas negras" que devuelven respuestas específicas para problemas concretos, pero en los que es muy complicado desentrañar las razones que llevan a la generación de dicha respuesta. El sistema desarrollado en nuestro trabajo no sólo ofrece el conjunto de códigos CIE-10 más susceptibles de ser asignados a un informe médico, sino que también indica cuáles son las frases clave del informe que han llevado al sistema automático a tomar esa decisión”.


UNED

En la práctica médica, es importante que las decisiones tomadas por un sistema automático vayan acompañadas de una información que permita su interpretabilidad, de cara a facilitar a los profesionales de la salud la comprensión y posterior explicación de dichas decisiones. “Además de esta aportación, en este artículo en particular el sistema desarrollado se centra en el idioma español para analizar los informes médicos, mientras que la mayoría de los trabajos desarrollados en el área están más enfocados al inglés”, explica Duque.

La publicación de este artículo en una revista como Artificial Intelligence in Medicine, que se encuentra dentro del primer cuartil del ranking "Journal Citation Report" (JCR) en las categorías "Computer Science, Artificial Intelligence", "Engineering, Biomedical" y "Medical Informatics", supone un importante reconocimiento a la calidad de la investigación, ya que el artículo ha superado una exhaustiva revisión por pares previa a su publicación en dicha revista.

En la actualidad el equipo de investigación se compone del profesor Andrés Duque; el investigador Hermenegildo Fabregat, la catedrática Lourdes Araujo y el profesor Juan Martínez-Romo.

La publicación del presente trabajo, por una parte, supone un hito importante dentro del proyecto DOTT-HEALTH (Development Of Text-based Technology to support diagnosis, prevention and HEALTH institutions management), y se lleva a cabo en conjunto con la Universidad del País Vasco y la Universidad Politécnica de Cataluña.


UNED

Sigue a nuestros científicos en sus redes sociales

• Andrés Duque:

o Linkedin: https://www.linkedin.com/in/andresduqfer

o Google Scholar: https://scholar.google.es/citations?user=hMunNCgAAAAJ&hl=es&oi=ao

o UNED: https://nlp.uned.es/~aduque

o ORCID: https://orcid.org/0000-0002-0619-8615

• Hermenegildo Fabregat:

o Linkedin: https://www.linkedin.com/in/hermenegildo-fabregat-marcos/

o DBLP: https://dblp.org/pid/205/8203.html

o UNED: http://nlp.uned.es/~gildo/

o ORCID: https://orcid.org/0000-0001-9820-2150

• Lourdes Araujo:

o DBLP: https://dblp.org/pid/24/6640.html

o UNED: http://nlp.uned.es/~lurdes/

o ORCID: https://orcid.org/0000-0002-7657-4794

• Juan Martínez-Romo:

o LinkedIn: https://www.linkedin.com/in/juanmartinezromo/

o UNED: https://nlp.uned.es/~juaner

o Twitter: @jmartinezromo

o ORCID: https://orcid.org/0000-0002-6905-7051

UNED


Comunicación UNED

Edición web: Rafael Carretero del Puerto
UNED

C/ Bravo Murillo, 38, 3ª planta. 28015 Madrid
comunicacion@adm.uned.es
uned.es