banner

Noticias

Aug 11, 2023

Identificación precisa y rápida de fenotipos bacterianos mínimamente preparados mediante espectroscopia Raman asistida por aprendizaje automático

Scientific Reports volumen 12, Número de artículo: 16436 (2022) Citar este artículo

1997 Accesos

4 citas

4 Altmetric

Detalles de métricas

El aumento mundial de la resistencia a los antimicrobianos (RAM) es una grave amenaza para la salud humana. Para evitar la propagación de la RAM, las herramientas de diagnóstico rápidas y confiables que facilitan la administración óptima de antibióticos son una necesidad insatisfecha. En este sentido, la espectroscopia Raman promete una identificación rápida y libre de etiquetas y cultivos y pruebas de susceptibilidad antimicrobiana (AST) en un solo paso. Sin embargo, a pesar de que muchos estudios de AST y de identificación de bacterias basados ​​en Raman han demostrado resultados impresionantes, se deben abordar algunas deficiencias. Para cerrar la brecha entre los estudios de prueba de concepto y la aplicación clínica, hemos desarrollado técnicas de aprendizaje automático en combinación con un novedoso algoritmo de aumento de datos, para la identificación rápida de fenotipos de bacterias mínimamente preparados y las distinciones de resistentes a la meticilina (MR) de bacterias sensibles a la meticilina (MS). Para ello hemos implementado un modelo de transformador espectral para imágenes Raman hiperespectrales de bacterias. Mostramos que nuestro modelo supera a los modelos estándar de redes neuronales convolucionales en una multitud de problemas de clasificación, tanto en términos de precisión como en términos de tiempo de entrenamiento. Logramos una precisión de clasificación de más del 96 % en un conjunto de datos que consta de 15 clases diferentes y una precisión de clasificación del 95,6 % para seis especies de bacterias MR-MS. Más importante aún, nuestros resultados se obtienen utilizando solo datos de prueba y entrenamiento rápidos y fáciles de producir.

Resumen de hardware (microscopio Raman) y software (arquitectura de transformador espectral). (a) La preparación simple de muestras de bacterias, donde las bacterias de las placas de agar simplemente se transfieren directamente a los portaobjetos de CaF\(_2\) y luego se miden. El proceso de transferir y encontrar la bacteria toma menos de un minuto. (b) Esquema del microscopio Raman construido en casa. El microscopio Raman utiliza una longitud de onda de excitación de 785 nm, ya que se ha demostrado que es óptimo para identificar bacterias, ya que evita en gran medida la fluorescencia y aún proporciona una señal Raman lo suficientemente alta como para permitir la detección mediante un CCD con una relación razonable de señal. relación de ruido (SNR). Se utiliza un objetivo de microscopio (MO) de 100 aumentos para enfocar el láser de excitación (tamaño de punto \(\sim \) 1 \(\upmu \)m), recopilación de la luz dispersada Raman e imágenes visuales. El escaneo de trama se logra con una etapa XYZ automatizada. Se utiliza un espejo dicroico (DM) (paso alto de 750 nm) para acoplar la luz de iluminación visible a un CCD para generar imágenes y localizar bacterias, mientras que otro DM (paso alto de 805 nm) separa la luz dispersada Raman de la bomba. Se utiliza un filtro de paso alto adicional (HPF, 800 nm) y un filtro de paso de banda (BPF, 785 nm ± 10 nm) para filtrar la bomba de 785 nm. El microscopio integrado tiene un campo de visión de aproximadamente 60 \(\upmu \)m \(\times \) 60 \(\upmu \)m, y los espectros Raman se recopilan con un cambio de número de onda de 700-1600 cm\(^{-1}\) por un espectrómetro Horiba. (c) El diagrama de bloques de la herramienta de aprendizaje automático desarrollada. El transformador espectral (ST) consta de una capa de incrustación posicional opcional, seguida de una capa de eliminación. La siguiente capa es un bloque de transformador-codificador que contiene secuencialmente normalización de capas, atención multicabezal, normalización de capas y luego un perceptrón multicapa (MLP) con una no linealidad GELU. La salida del transformador-codificador es seguida por la normalización de capas y una capa de agrupación de secuencias. Finalmente, la capa de salida es una capa lineal completamente conectada.

Si bien algunas crisis de salud, como la pandemia del coronavirus, son imprevisibles y requieren medidas inmediatas, otras se desarrollan lentamente, son intratables por naturaleza, pero con el tiempo pueden convertirse en una amenaza mayor para la salud humana1,2. Un ejemplo de esto último es la resistencia antimicrobiana (RAM)3,4,5,6. La RAM ocurre cuando los microbios, como las bacterias y los hongos, sobreviven a la exposición a compuestos que normalmente inhibirían su crecimiento o los matarían. Esto impulsa un proceso de selección, lo que permite que las cepas con resiliencia crezcan y se propaguen. Aunque la AMR es un proceso que ocurre naturalmente, se acelera drásticamente por presiones selectivas como el uso excesivo de antimicrobianos7,8,9,10,11. Las técnicas convencionales utilizadas para identificar RAM en bacterias son la prueba de difusión en disco, la prueba de epsilómetro y la microdilución, que requieren cultivo y pueden demorar días12,13. El largo tiempo de procesamiento de estas técnicas puede poner en peligro la vida del paciente infectado, pero también es problemático, ya que las bacterias patógenas pueden propagarse e infectar a más personas. Por lo tanto, es una práctica común prescribir antibióticos de amplio espectro a los pacientes, lo que conduce a un tratamiento innecesario14. Por lo tanto, la insuficiencia ya generalizada y creciente de la terapia antimicrobiana se atribuye al uso excesivo de antimicrobianos en el cuidado de la salud y la agricultura5,8,15. En 2019, la Organización Mundial de la Salud (OMS) declaró a la RAM como "una de las 10 mayores amenazas mundiales para la salud pública a las que se enfrenta la humanidad" y, según un informe publicado por el Grupo de Coordinación Interinstitucional ad hoc sobre la Resistencia a los Antimicrobianos (IACG) de las Naciones Unidas, si no se toman medidas se toma, los patógenos resistentes a los antimicrobianos podrían causar anualmente 10 millones de muertes para 20502.

Para mitigar el desastre potencial de una era posterior a los antibióticos, organizaciones como la OMS y el IACG piden el desarrollo de diagnósticos rápidos en el punto de atención que facilitarán el tratamiento con antimicrobianos específicos1,5. Para conseguirlo se han estudiado muchas tecnologías diferentes12,16,17,18,19. Una tecnología muy prometedora es la espectroscopia Raman (RS). RS es una técnica basada en la dispersión inelástica que ocurre cuando los fotones chocan con las moléculas y permite la descomposición de señales únicas para una amplia gama de moléculas20. Es importante destacar que RS tiene la ventaja de ser rápido, de bajo costo, sin etiquetas y no requiere necesariamente un cultivo preanalítico. Varios estudios han demostrado que las capacidades de RS se pueden fortalecer significativamente con la ayuda de herramientas quimiométricas y aprendizaje automático (ML)19,21,22,23,24,25,26,27,28,29,30,31. Sin embargo, se deben abordar algunas deficiencias antes de que sea una plataforma viable para la identificación confiable de bacterias y aplicaciones de diagnóstico en el punto de atención. Ante todo, RS es sensible a factores como la etapa de crecimiento de las células analizadas, los cambios en el entorno de medición y la inconsistencia en la preparación de la muestra23. Por lo tanto, es conveniente preparar las muestras de forma que se reduzca la dificultad de clasificación. Desafortunadamente, enfoques como la preparación de bacterias individuales o placas de bacterias de una sola capa son complejos y requieren experiencia, equipo personalizado y pueden llevar horas25,32,33. Además, las inconsistencias en la preparación de muestras pueden causar cambios en los espectros Raman, lo que requiere más datos para que los modelos ML capturen la amplitud de variaciones necesarias para alcanzar precisiones clínicamente relevantes19. Además, los estudios de bacterias RS que se ocupan de muestras de pacientes son raros y no se puede suponer que el uso de datos de muestras cultivadas en laboratorio permitirá la identificación precisa de muestras genuinas de pacientes. Además, hay poca o ninguna aprobación de los estándares para los parámetros de medición Raman y los métodos y parámetros de preparación de muestras22,23. Esta carencia impide estupendamente la consolidación de las bases de datos, lo que ralentiza la agregación de grandes datos que podrían utilizarse para aplicaciones clínicas. Para alcanzar precisiones clínicamente relevantes utilizando RS, estos problemas deben abordarse y resolverlos requerirá un esfuerzo colectivo.

En este trabajo, nos enfocamos en abordar los problemas de la preparación simple de muestras y los cambios en el entorno de medición34. Reducimos la preparación de la muestra a simplemente transferir las bacterias al entorno de medición (como se muestra en la Fig. 1a), minimizando el problema de la inconsistencia de la muestra. Este procedimiento viene con el beneficio adicional de eliminar la preparación de muestras como un parámetro inhibidor para la consolidación de datos. Además, para aliviar la situación de disponibilidad limitada de datos para el entrenamiento del modelo ML, hemos desarrollado un nuevo modelo ML de transformador espectral (ST) que es eficiente después del entrenamiento en conjuntos de datos de bacterias RS pequeñas y grandes. Para alimentar el ST con buenos datos de entrenamiento representativos, hemos desarrollado un nuevo algoritmo de aumento de datos, en adelante conocido como NoiseMix. Demostramos que nuestro modelo ST, junto con NoiseMix, permite una clasificación precisa tanto de bacterias individuales como de capas múltiples de bacterias de una sola vez, mientras que, lo que es más importante, solo se basa en datos de entrenamiento rápidos y fáciles de producir adquiridos en capas gruesas de bacterias. . Hasta donde sabemos, este es un enfoque completamente nuevo para adquirir datos de entrenamiento y, posteriormente, la clasificación de bacterias utilizando RS asistido por ML. Explícitamente, demostramos las capacidades de nuestro modelo ST ML desarrollado y NoiseMix en un conjunto de datos que consta de 12 clases de bacterias de muestras de bacterias mínimamente preparadas y 3 clases de no bacterias. Descubrimos que NoiseMix mejora la precisión de la clasificación promedio en un 12,9 % para las cuatro pruebas diferentes en comparación con el uso exclusivo del equilibrio de clases y la eliminación de pendientes. Además, demostramos que el modelo ST puede distinguir entre fenotipos resistentes y susceptibles a los antibióticos, es decir, MR S. epidermidis (MRSE), MS S. epidermidis (MSSE), 2 tipos de MR S. aureus (MRSA) y dos tipos de EM S. aureus (MSSA). Obtenemos precisiones de identificación de 97,7\(\%\) y 94,6\(\%\) entre los aislamientos MRSE-MSSE y MRSA-MSSA, respectivamente. Además de identificar muestras mínimamente preparadas, realizamos pruebas comparativas detalladas del ST al compararlo con una red neuronal convolucional (CNN) desarrollada en el trabajo de Ho. et al. en múltiples conjuntos de datos de bacterias RS25. Encontramos que nuestro modelo ST supera significativamente al modelo CNN en términos de tiempo de cálculo, que se mejora en un orden de magnitud, y que generalmente supera al modelo CNN en términos de precisión de clasificación, para lo cual logramos una mejora de 7.5 \( \%\) en comparación con el modelo CNN de referencia25.

Se utiliza un microscopio Raman construido en casa para adquirir conjuntos de datos de entrenamiento y validación de muestras de bacterias mínimamente preparadas. Los esquemas de nuestro microscopio Raman para adquirir mapas hiperespectrales Raman se muestran en la Fig. 1b. La razón para usar un sistema construido en casa es que nos da la posibilidad de optimizar la relación señal-ruido (SNR) de los microscopios Raman y adaptar el sistema a la tarea de detectar bacterias. De este modo, podemos adquirir espectros Raman utilizando tiempos de medición muy cortos, de hasta 0,1 segundos, y también tener un sistema relativamente económico en comparación con los microscopios Raman comerciales. Para obtener más detalles sobre el microscopio y el espectrómetro, consulte la sección Métodos.

La clasificación exitosa de bacterias usando RS y ML depende en gran medida de tener una gran base de datos de entrenamiento para usar en los pasos de entrenamiento y validación del modelo. Por lo tanto, la recopilación de datos a menudo se vuelve tan importante como los propios algoritmos de ML, ya que los datos sobrerrepresentados o subrepresentados conducirán a predicciones sesgadas. Si se va a considerar RS para aplicaciones de diagnóstico rápido in situ, la complejidad y el costo de tiempo de preparación de la muestra deben reducirse significativamente34,35,36. Para explorar cuánto podemos simplificar y reducir el tiempo y la complejidad de la preparación de muestras, experimentamos simplemente transfiriendo muestras de bacterias de un monocultivo bacteriano directamente a un portaobjetos CaF\(_2\) seguido de mediciones de barrido de trama Raman. Este enfoque hace que la profundidad de las muestras bacterianas varíe naturalmente de tapetes de una sola capa a multicapa, lo que provoca grandes variaciones en el SNR32 dentro de la muestra. Los mapas de datos de entrenamiento producidos de esta manera requieren una segmentación manual, ya que los mapas pueden contener áreas sin bacterias (fondo). Para evitar la necesidad de una segmentación manual, producimos datos de entrenamiento exclusivamente a partir de mediciones de tapetes bacterianos multicapa. Sin embargo, los datos que se originan a partir de mediciones de tapetes bacterianos multicapa tienen una distribución de SNR limitada en comparación con los datos adquiridos de monocapas o multicapas bacterianas. Con el fin de recrear sintéticamente las variaciones naturales que pueden aparecer en los datos de prueba, producimos datos de entrenamiento variando el tiempo de integración del espectroscopio de 0,1 a 1 segundo (10 promedios para cada adquisición). Con este proceso y una configuración de espectroscopia Raman automatizada (ver Métodos), adquirimos varios miles de espectros de entrenamiento al día. Nuestra base de datos de bacterias de referencia final contiene más de 5200 espectros Raman sin procesar para cada una de las 12 especies bacterianas y 3 especies no bacterianas. Todos los datos sin procesar se preprocesan linealmente mediante un procedimiento simple (ver Métodos) antes de usarse para el aumento de datos, el entrenamiento de modelos o la predicción de modelos.

Inspirándonos en la visión por computadora, en la que los datos de entrenamiento "adicionales" a menudo se aumentan, por ejemplo, rotando, volteando, desenfocando o agregando ruido blanco a las imágenes, hemos desarrollado un algoritmo de aumento de datos (NoiseMix) que nos permite crear sintéticamente datos de entrenamiento adicionales y mejorar así la generalización y el rendimiento del modelo. El algoritmo de aumento NoiseMix (consulte el material complementario para obtener detalles técnicos) funciona tomando espectros Raman de producción rápida y fácil a partir de placas bacterianas multicapa y luego mezclando los datos con aún más "ruido" tanto de la superficie o el entorno de medición como de los datos de ruido. a partir de mediciones en el medio ambiente. Además de aumentar la cantidad de ejemplos de datos de entrenamiento, NoiseMix, tal como se implementa aquí, ofrece dos ventajas adicionales. En primer lugar, permite una extensión sintética del conjunto de datos RS hacia la región de distribuciones SNR más bajas. En este sentido, en principio se pueden realizar datos de entrenamiento con una SNR arbitrariamente baja, aunque en la práctica la SNR se mantiene por encima de un cierto valor mínimo para evitar la inclusión de ejemplos de entrenamiento que consisten en ruido puro. Sorprendentemente, encontramos que el algoritmo de aumento de NoiseMix permite la identificación de alta precisión de bacterias individuales, aunque los ejemplos de entrenamiento originales se obtienen exclusivamente de tapetes bacterianos multicapa. En segundo lugar, el algoritmo NoiseMix proporciona un medio para aprovechar todos los datos de los conjuntos de datos de clases desequilibradas al garantizar que todas las clases estén representadas por la misma cantidad de datos en cada época de entrenamiento.

Descripción general del rendimiento de la identificación de bacterias con el modelo ST y el algoritmo NoiseMix. (a) Muestra la matriz de confusión obtenida para la tarea de clasificación que incluye 12 clases bacterianas y 3 no bacterianas (agar, poliestireno y CaF\(_2\)). La columna de clasificación de CaF\(_2\) (a la derecha) contiene elementos distintos de cero, ya que las superficies de las muestras en algunos casos solo estaban parcialmente cubiertas por bacterias. Por este motivo, las clases no bacterianas aparecen atenuadas, ya que no se incluyen en la precisión de la identificación bacteriana. (b) Muestra una comparación del rendimiento entre cuatro modelos ML diferentes entrenados con y sin aplicar NoiseMix. Los resultados que se muestran en la matriz de confusión se obtienen utilizando el modelo ST-pe(1,10,3)* entrenado con un tamaño de lote de 300 y el optimizador AdamW. Los otros tres modelos también se entrenan con el optimizador AdamW pero con un tamaño de lote más pequeño de 100. Las precisiones (y densidades) del modelo representan promedios de 10 divisiones de entrenamiento. En (c) mostramos los resultados de una prueba comparativa entre los modelos CNN y ST cuando se aplica a tres tareas de clasificación diferentes. Los tres conjuntos de datos se describen en el Material complementario. En este caso, las precisiones informadas representan el promedio de 10 ejecuciones utilizando una división de entrenamiento/validación de 90\(\%\)/10\(\%\).

En los últimos años, la identificación de bacterias mediante RS ha experimentado un aumento significativo del rendimiento, ya que las técnicas de aprendizaje profundo, como las conexiones residuales y las CNN, han demostrado ser más capaces que los métodos de aprendizaje supervisado más clásicos, como la regresión logística y las máquinas de vectores de soporte25,37,38. Para mejorar aún más esto, hemos desarrollado un modelo de aprendizaje profundo basado en la atención inspirado en el estado del arte actual en visión por computadora y programación en lenguaje natural. El modelo ST (esbozado en la Fig. 1c y explicado con más detalle en Métodos) es una versión compacta del codificador de transformador estándar39, pero se diferencia en el uso de agrupación de secuencias para asignar las salidas secuenciales del transformador a una clase singular.

Nuestra arquitectura de modelo ST está inicialmente parametrizada por tres argumentos ST(-pe)(i, j, k), donde i es la profundidad del codificador del transformador, j es el número de cabezas en la capa de atención de cabezas múltiples, k es la relación de perceptrón multicapa, y la inclusión de -pe significa una incrustación posicional opcional. Los tres argumentos se trataron como hiperparámetros adicionales de nuestro modelo y se seleccionaron utilizando un estimador de Parzen con estructura de árbol, utilizando una división de entrenamiento y validación en la tarea de clasificación aislada25, es decir, no usamos nuestros propios datos de RS para ajustar la arquitectura de nuestro modelo a la tarea en cuestión.

Nuestros principales resultados se resumen en la Fig. 2, con una muestra de la matriz de confusión de la tarea de clasificación de 15 clases (12 bacterias y 3 no bacterias). Se logra una precisión general superior al 96\(\%\) en las 12 clases de bacterias utilizando un modelo ST-pe(1,10,3) entrenado con el optimizador AdamW y aplicando NoiseMix. La Figura 2b desglosa una comparación de precisión entre varios modelos de ML diferentes, con y sin aplicar NoiseMix, en la misma tarea de clasificación de 15 clases. Observamos que aumentar los datos de entrenamiento con NoiseMix mejora significativamente el rendimiento del modelo en la fase de prueba tanto para los tres modelos ST como para el modelo CNN de referencia, y encontramos que ambas arquitecturas del modelo ST superan al modelo CNN de referencia en nuestro conjunto de datos de 15 clases.

Además de la precisión del modelo (dada como la relación entre las clasificaciones de bacterias correctas y el número total de clasificaciones de bacterias), también informamos una métrica de densidad en la Fig. 2b. La densidad (o cobertura de bacterias) se define como la relación entre las clasificaciones de bacterias y la cantidad total de clasificaciones realizadas en cada prueba. Esta métrica se incluye en nuestro caso porque parte de nuestros datos de prueba para algunas bacterias consisten en datos de fondo (ver, por ejemplo, la Fig. 3 a continuación) y, por lo tanto, no todas las mediciones deben asociarse con un tipo de bacteria. En particular, la métrica de densidad aumenta significativamente al aplicar NoiseMix, que se atribuye a la capacidad de los algoritmos para mejorar la clasificación de las señales de baja SNR.

La Figura 2c compara el rendimiento de la clasificación del modelo en tres conjuntos de datos de bacterias diferentes (para obtener una descripción general de los conjuntos de datos y el proceso de entrenamiento aplicado, consulte Material complementario). Los conjuntos de datos "Bacteria ID 1" y "Bacteria ID 2" se originan a partir del trabajo de Ho et. al.25. Para estos conjuntos de datos, observamos solo una mejora marginal, en promedio, al usar cualquiera de los dos modelos ST probados. El conjunto de datos final "binario de E. coli" se origina en nuestra propia base de datos RS y contiene espectros Raman de E. coli ATCC 25922 y E. coli ATCC 35218. Para este conjunto de datos, los modelos ST nuevamente superan significativamente a los modelos CNN, lo que sugiere que ST La arquitectura puede funcionar bien en una tarea más amplia de problemas de clasificación basados ​​en espectroscopia.

Como punto de referencia de rendimiento final, comparamos el tiempo de cálculo del modelo ST con el del modelo CNN de referencia25 (ver Material complementario). Generalmente observamos una aceleración aproximada de un orden de magnitud a favor del modelo ST desarrollado. Sin embargo, debe tenerse en cuenta que una pequeña cantidad de esta aceleración puede deberse a diferencias en los hiperparámetros del modelo, como la disminución del peso, la cantidad de parámetros y la tasa de aprendizaje, y que la diferencia, por lo tanto, no puede atribuirse únicamente a las arquitecturas del modelo.

Imágenes Raman e identificación ST de E. coli ATCC 25922 y E. coli ATCC 35218. La primera columna muestra imágenes visuales de las áreas de medición e ilustra las profundidades bacterianas que van desde una capa hasta varias capas (4–6 \(\upmu \) m de espesor). Los mapas Raman se muestran en la segunda columna para un cambio Raman de 1004 cm\(^{-1}\), asignados a las vibraciones del modo de respiración anular de l-Phe, y finalmente los mapas de predicción ST se muestran en la tercera y cuarta columnas. . El tamaño de los mapas es 51 \(\upmu \)m \(\times \) 51 \(\upmu \)m y cada uno consta de 2601 espectros Raman (700–1600 cm\(^{-1}\) ) con 1 \(\upmu \)m de espacio entre los puntos. Los espectros Raman se adquieren con un promedio de 10 veces de integración de 0,5 s. (a) Mediciones Raman de E. coli ATCC 25922. La tasa de predicción general (cobertura de la superficie de densidad) es 49,1 % para E. coli ATCC 25922, 10,4 % para E. coli ATCC 35218 y 40,2 % para el fondo de CaF\(_2\) . Para el resto de bacterias/clases, la tasa de predicción total asciende al 0,3 %. El mapa de predicción de la derecha muestra la predicción para el resto de las clases trazadas para >0,5, donde solo E. coli ATCC 35218 tiene valores superiores a 0,5. (b) Mediciones de E. coli ATCC 35218. La tasa de predicción general es 8,0 % para E. coli ATCC 25922, 49,0 % para E. coli ATCC 35218 y 42,8 % para el fondo. Para el resto de bacterias/clases la predicción suma un 0,2%. Una vez más, el ST comete algunas clasificaciones erróneas de E. coli ATCC 25922. (c) Mediciones Raman para una mezcla binaria de E. coli ATCC 25922 y E. coli ATCC 35218 que dieron como resultado una tasa de predicción (cobertura de superficie) de 48,8 % y 51,2 %, respectivamente. En este caso, el ST no comete errores de clasificación. Toda predicción de otras bacterias además de las dos E. coli es cero. Para los tres mapas adquiridos, los mapas de predicción ST concuerdan muy bien con el mapa Raman y el mapa visual.

Para una mejor comprensión de la capacidad y el rendimiento de nuestro modelo ST desarrollado y NoiseMix, visualizamos el análisis mostrando los mapas Raman y los mapas de predicción ST. Realizamos pruebas tanto en monocultivos como en mezclas de monocultivos como se ve en la Fig. 3. Las Figuras 3a,b muestran imágenes visuales del área de prueba para dos monocultivos de E. coli ATCC 25922 y E. coli ATCC 35218, respectivamente. Los mapas Raman se adquieren con un tamaño de paso de 1 \(\upmu \)m sobre un área de 50\(\upmu \)mx 50\(\upmu \)m y se trazan para las vibraciones del modo de respiración anular de l-Phe ( Desplazamiento Raman 1004 cm\(^{-1}\)). Cada mapa Raman consta de 2601 puntos y cada punto (espectro Raman, 700-1600 cm\(^{-1}\)) se adquiere a partir de 10 promedios con un tiempo de integración de 0,5 segundos, con un tiempo de medición completo de 217 minutos. Al comparar las imágenes visuales, los mapas de intensidad Raman y los mapas de predicción en la Fig. 3a,b, encontramos una excelente concordancia entre las diferentes formas de visualización. A partir de los mapas de contorno de intensidad Raman representados en la Fig. 3, es evidente que la intensidad Raman disminuye en la zona de demarcación entre CaF\(_2\) y bacterias. Esto se debe en parte a una capa de bacterias más delgada (monocapa) y en parte a la superposición de bacterias láser más pequeñas. Sin el método NoiseMix, los mapas de predicción de ST subestimarían la región con cobertura de bacterias y cometerían más clasificaciones erróneas significativas en la zona de demarcación entre el CaF\(_2\) y las bacterias. Por lo tanto, la disminución resultante en SNR de las señales Raman tiene como consecuencia que los modelos ML, que se entrenan exclusivamente en tapetes bacterianos multicapa, subestiman la región cubierta con bacterias y cometen una gran cantidad de clasificaciones erróneas en la zona de demarcación. Sin embargo, al aplicar NoiseMix en la fase de entrenamiento, el modelo ST se vuelve extremadamente eficiente incluso en la detección e identificación de bajas concentraciones de bacterias (monocapas), aunque los datos de entrenamiento originales solo contienen mediciones de tapetes bacterianos multicapa. Lo que se atribuye a la capacidad de los algoritmos NoiseMix para mejorar la clasificación de señales Raman de baja SNR. Definimos una precisión para una clase como: correcto/(cruces + correcto), donde los cruces son todas predicciones incorrectas con valores superiores a >0.5 y excluyendo la predicción de fondo (CaF\(_2\)). Esto da una precisión de 87,3 % y 87,9 % para la Fig. 3a,b, respectivamente. Comparando las precisiones con la cobertura de la superficie, encontramos que nuestro clasificador ST para este caso específico es indeterminado en aproximadamente el 10% del tiempo, donde la tasa de predicción es inferior a 0,5. El clasificador ST de 15 clases realiza principalmente las clasificaciones erróneas en la zona de demarcación. Tenga en cuenta que al aumentar el tiempo de integración a 2 segundos o más, esto disminuiría la ocurrencia de clasificaciones erróneas, pero tiene la consecuencia de que el tiempo de medición completo de un mapa Raman con 2601 espectros Raman tomaría más de 14 horas.

La figura 3c muestra una mezcla aleatoria de cultivos de E. coli ATCC 25922 y E. coli ATCC 35218. Las dos muestras de monocultivo se transfieren directamente al portaobjetos de CaF\(_2\), donde se mezclan y posteriormente se miden. De la imagen visual y el mapa Raman, no se puede obtener información sobre la mezcla de E. coli ATCC 35218 y E. coli ATCC 25922. La única información que se deduce es que la capa es ligeramente más gruesa en el lado izquierdo, lo que se puede ver desde la proyección de 10 píxeles del gráfico de contorno en los ejes x e y. Sin embargo, en el mapa de predicción de ST vemos claramente la mezcla de las dos bacterias E. coli. Encontramos que el modelo ST, con NoiseMix aplicado en la fase de entrenamiento del modelo, no cometió ninguna clasificación errónea y predijo solo las especies correctas, a saber, E. coli, con una relación de densidad estimada de 48,8% de E. coli ATCC 25922 y 51,2% de E. coli ATCC 35218. El motivo de este impresionante resultado de clasificación, en el que solo se predice E. coli, se debe a la gruesa capa de distribución de bacterias de 4–6 \(\upmu \)m. Por lo tanto, la señal Raman SNR siempre es relativamente alto. Además, encontramos una precisión general del 98,1 % para E. coli ATCC 25922 y E. coli ATCC 35218, donde el último 1,9 % son puntos de datos indeterminados con una tasa de predicción igual a 0,5, lo que suma aproximadamente 49 puntos en el Raman. mapa.

Mediciones Raman y diferenciación de fenotipos resistentes a antibióticos. La figura muestra las imágenes visuales y los mapas de predicción de ST para (a) S. epidermidis resistente a la meticilina ATCC 35984 (MRSE), (b) S. epidermidis sensible a la meticilina ATCC 14990 (MSSE), (c) S. epidermidis resistente a la meticilina. aureus MRSA ATCC252, y d) S. aureus sensible a la meticilina MSSA ATCC 2752. La distribución de bacterias varía desde una sola bacteria hasta capas gruesas (4–6 \(\upmu \)m de espesor) de bacterias. De las imágenes visuales vemos que a) MRSE yb) MSSE se adquieren para una sola (pocas) bacterias. El tiempo de integración utilizado fue de 10 segundos para adquirir cada espectro Raman y un promedio de 10 veces. Para MRSE, el tamaño de los mapas es 5 \(\upmu \)m \(\times \) 5 \(\upmu \)m y consta de 441 espectros Raman individuales (700–1600 cm\(^{-1}\ )) con 0.25 \(\upmu \)m de espacio entre los puntos. Para MSSE, el tamaño de los mapas es 10 \(\upmu \)m \(\times \) 10 \(\upmu \)m con 1 \(\upmu \)m de espacio entre los puntos y consta de 441 espectros Raman individuales . El tiempo de integración utilizado fue de 2 segundos para adquirir cada espectro Raman y un promedio de 10 veces. En ambos casos, el ST no hace clasificaciones erróneas, sin embargo, existe poca certeza de que las bacterias sean MSSE y MRSE, como se ve en los mapas de predicción de MSSE y MRSE en (a) y (b), respectivamente. En (c) y (d) se muestran los mapas visuales y de predicción para MRSA y MSSA. Los 50 \(\upmu \)m \(\times \) 50 \(\upmu \)m y consisten en 2601 espectros Raman (700–1600 cm\(^{-1}\)) con 1 \(\upmu \)m espacio entre los puntos. El tiempo de integración utilizado es de 0,5 segundos y un promedio de 10 veces para adquirir cada espectro.

La Figura 4 muestra medidas y pruebas para la diferenciación de bacterias resistentes a antibióticos. Para este AST de prueba de concepto, recopilamos mapas Raman de aislamientos clínicos de MR S. epidermidis ATCC 35984 (MRSE), MR S. aureus ATCC 252 (MRSA 252), MR S. aureus ATTCC 4951 (MRSA4951) y en MS S epidermidis ATCC 14990 (MSSE), MS \(\textit{S. aureus}\) ATTCC 4699 (MSSA 4699), y MS \(\textit{S. aureus}\) ATCC 2752 (MSSA 2752). El rendimiento general del modelo del clasificador de 15 clases en la tarea de clasificación MR-MS se puede ver en la matriz de confusión de la Fig. 2. El clasificador ST también contiene S. lugdunensis, S. haemolyticus y S. pettenkoferi. Estas cepas se eligieron para representar la variación biológica, la posible interferencia cruzada para hacer una tarea de clasificación más difícil para el ST y crear una visión realista de las posibilidades de nuestra técnica. En particular, encontramos que ST distingue entre aislamientos MRSE y MSSE de S. epidermidis con una precisión de predicción superior al 99,5\(\%\). En la Fig. 4 se pueden ver ejemplos de mapas de predicción para MRSE, MSSE, MRSA 252 y MSSA 2752 y bacterias de referencia. En la Fig. 4c,d se muestra la medición de MRSA y MSSA para dos monocultivos de MRSA 252 y MSSA 2752 bacterias de referencia, respectivamente. La figura 4c muestra que el ST estima que las tasas de predicción (cobertura de la superficie de densidad) son 40,5\(\%\) para el fondo CaF\(_2\), 56\(\%\) para MRSA 252, 0,4\(\%\ ) para MSSA 2752 y 3.1\(\%\) para E. coli ATCC 25922. Nuevamente, es evidente que en la zona de demarcación entre CaF\(_2\) y la bacteria MRSA las tasas de clasificación errónea son más altas, debido a la disminución en SNR. Para esta medición, el ST de hecho comete 69 clasificaciones erróneas, que se pueden ver en la Fig. 4c, donde se encuentra una tasa de predicciones entre 0,5 y hasta 0,99 para E. coli ATCC 25922. Sin embargo, esto también podría estar relacionado con la contaminación de la muestra de prueba. En la Fig. 4b se muestran las medidas de MSSA 2752. Encontramos que las tasas de predicción (cobertura de superficie) son 41.6\(\%\) para CaF\(_2\) de fondo, 55.4\(\%\) para MSSA 2752 y 3\(\%\) para MSSA 4699. ST tiene algunas clasificaciones erróneas, donde ST predice que la bacteria es MSSA 4699, como se ve en la Fig. 4b, nuevamente, estos se encuentran principalmente en la zona de demarcación y, por lo tanto, están relacionados con la baja SNR que se encuentra aquí. Al aumentar el tiempo de integración, a 2 segundos o más, se habrían evitado estas clasificaciones erróneas; sin embargo, dado que el mapa consta de 2601 espectros individuales, el tiempo de adquisición llevaría más de 14 horas. A partir de la matriz de confusión, encontramos que el rendimiento general del clasificador ST de 15 clases tiene una precisión de predicción de 94,6\(\%\), para la submatriz de los dos aislados de MRSA y dos de MSSA. Si comparamos nuestros resultados con un clasificador binario utilizado en la Ref. 25, donde distinguen entre MRSA y MSSA con una precisión de 89,1\(\%\), encontramos que nuestro modelo ST claramente supera al modelo CNN. Tenga en cuenta que si las mediciones solo se realizan en capas gruesas de monocultivos de bacterias, encontramos que el ST tiene una precisión muy alta. No se muestra visualmente, pero encontramos como ejemplo para MSSA 2752 y MRSA 4951 precisiones de 99,7% y 99,9%, respectivamente. Lo que podría no ser sorprendente ya que los conjuntos de datos de validación de entrenamiento son muy similares.

Además de distinguir entre aislados resistentes a los antibióticos y sensibles a los antibióticos, también probamos nuestro método ST y NoiseMix desarrollado en bacterias individuales (pocas bacterias), como se puede ver en la Fig. 4a,b. Los mapas se adquieren con un tiempo de integración de 10 segundos; sin embargo, sin NoiseMix, descubrimos que el modelo ST no podía identificar ninguna bacteria, lo que demuestra cómo NoiseMix mejora la sensibilidad de los modelos ML. Las tasas de predicción (cobertura de superficie de densidad) para la Fig. 4a son 96,8\(\%\) CaF\(_2\) de fondo, 2,9\(\%\) MRSE y 0,3\(\%\) MSSE. El pico de predicción más alto para MSSE es solo 0,15. Por lo tanto, ST no hace ninguna clasificación errónea entre MRSE y MSSE o cualquier otra clase de bacterias. Para la Fig. 4b encontramos que las tasas de predicción son 93\(\%\) CaF\(_2\) background, 0.2\(\%\) E. coli ATCC 35218, 1.3\(\%\) MRSE y 5.5 \(\%\) de MSSE. Nuevamente, el ST no hace ninguna clasificación errónea entre MRSE y MSSE, ya que el pico de predicción más alto encontrado para MSSE es 0,45. Cabe destacar que nuestro ST junto con NoiseMix también permite la identificación de alta precisión de bacterias individuales, aunque los ejemplos de entrenamiento originales se recopilan exclusivamente a partir de placas bacterianas multicapa.

Mediciones Raman y clasificaciones ST de tres cultivos. coli muestras de pacientes. La figura muestra las imágenes visuales de las áreas de medición, donde se puede ver que la distribución de bacterias varía nuevamente desde una capa profunda (4–6 \(\upmu \)m de espesor) hasta una sola profundidad de bacterias y los mapas de predicción de ST para E . coli ATCC 25922 y E. coli ATCC 35218. El tamaño de los mapas es 50 \(\upmu \)m \(\times \) 50 \(\upmu \)m y cada uno consta de 2601 espectros Raman (700– 1600 cm\(^{-1}\)) con 1 \(\upmu \)m de espacio entre los puntos. El tiempo de integración utilizado es de 0,5 segundos para la adquisición de los espectros y un promedio de 10 veces por punto/espectro. La tabla muestra las tasas de predicción generales para el fondo CaF\(_2\), E. coli ATCC 25922, E. coli ATCC 35218 y el resto de las clases. Específicamente, vemos que (a) la muestra del paciente 1 tiene una tasa de predicción general para las otras bacterias del 6,9 %, (b) la muestra del paciente 2 del 4,7 % y c) la muestra del paciente 3 del 8,1 %. Sin embargo, las precisiones (índice de predicción >0,5) son para P1: 98,5 %, P2: 99,4 % y P3: 98 % de que la muestra es E. coli.

En la Fig. 3, investigamos el rendimiento de ST y NoiseMix en bacterias de referencia de E. coli de los mismos aislamientos de monocultivo clínico. Sin embargo, para demostrar que nuestro ST también funciona potencialmente para aislados de pacientes clínicos, realizamos pruebas en tres nuevos aislados de pacientes clínicos de E. coli obtenidos del Departamento de Microbiología Clínica del Hospital Universitario de Odense. Los aislados de E. coli P1, P2 y P3 (que se muestran en la Fig. 5) se aislaron de la orina y se identificaron las especies a partir de la prueba de mancha de indol (positiva) y del cultivo en placas de agar CHROMID®CPS ELITE (Biomérieux, EE. UU.). Tenga en cuenta que el ST nunca antes había visto estos espectros Raman. Por lo tanto, las muestras de pacientes tienen o pueden tener un fenotipo ligeramente diferente al de la bacteria de referencia E. coli utilizada para el entrenamiento de la ST. Por lo tanto, esperaríamos que el ST arroje predicciones para una mezcla de las dos bacterias de referencia de E. coli. Las imágenes visuales y los mapas de predicción para los 3 aislamientos de pacientes de E. coli se muestran en la Fig. 5. A partir de los mapas de predicción de ST podemos estimar la superposición (tasas de predicción) con E. coli ATCC 25922 y E. coli ATCC 35218. Encontramos que la clasificación errónea promedio para las 3 muestras de pacientes es del 1,4 % y se debe en parte al hecho de que el ST no ha visto ningún dato de entrenamiento para las 3 muestras de pacientes antes. Nuevamente vemos que la clasificación errónea se encuentra principalmente en la zona de demarcación entre el fondo de CaF\(_2\) y la estera de bacterias y, por lo tanto, también está relacionada con la baja Raman SNR. Los perfiles de resistencia a los antibióticos para los tres aislamientos clínicos y para las dos cepas de E. coli ATCC también se realizaron mediante la prueba de difusión en disco. A partir de estos datos (ver Materiales complementarios), podría sugerir que P1 tiene la mayor similitud con E. coli ATCC 25922 en lo que respecta al perfil de resistencia a los antibióticos, mientras que P2 y P3 muestran un patrón de resistencia similar al de E. coli ATCC 35218. Tal como está evidente en la Fig. 5, la clasificación ST también prefiere clasificar el aislado P1 como E. coli ATCC 25922, mientras que P2 y P3 se clasifican más a menudo como E. coli ATCC 35218, lo que indica una tendencia del perfil de resistencia de los aislados a guiar las medidas Raman. Sin embargo, es necesario realizar más muestras y mediciones para verificar esto y llegar a una conclusión. Sin embargo, podemos concluir que nuestro ST sí puede distinguir en unos pocos segundos/minutos los fenotipos microbianos de E. coli con una precisión de clasificación promedio del 98,6 % para las tres muestras de pacientes.

Para la identificación rápida de bacterias y para combatir la propagación de AMR, hemos realizado un experimento de prueba de concepto utilizando RS asistido por ML. Hemos demostrado que RS es una tecnología prometedora para estudios de microbiología. Para ello hemos desarrollado un modelo de ML basado en la atención y un novedoso algoritmo de aumento de datos (NoiseMix) para obtener resultados de última generación en la identificación de bacterias. La arquitectura del modelo ST utilizada en este trabajo está inspirada en el éxito del transformador visual (VIT)40 y los transformadores convolucionales compactos (CCT) por su capacidad de generalizar bien, cuando se entrenan en pequeños conjuntos de datos41. A diferencia de los VIT y los CCT, descubrimos que cuando se trata de datos RS, dividir los espectros Raman en parches e implementar convoluciones para inducir un sesgo inductivo es perjudicial para el rendimiento del modelo. Además, hemos encontrado que limitar la profundidad del modelo aumenta sustancialmente la eficacia del modelo, al menos en problemas con disponibilidad limitada de datos. Sospechamos que esto se debe a la capacidad de sobreajuste de los modelos de transformadores profundos, lo que se convierte en un factor limitante, cuando la varianza dentro de la muestra es alta, como observamos para nuestros conjuntos de datos. Lo cual también sería el caso de implementaciones prácticas de RS para mediciones in situ en clínicas y hospitales. Creemos firmemente que nuestro método de aumento de datos novedosos y RS asistidos por nuestro ST desarrollado pueden cerrar la brecha entre la investigación básica y la aplicación práctica en laboratorios clínicos42. Demostramos explícitamente que nuestro ST supera a un CNN residual específico de dominio de última generación tanto en términos de precisión como de tiempo de cálculo25. La reducción significativa en el tiempo de cálculo reduce significativamente tanto el tiempo de diagnóstico como el costo del aparato de diagnóstico ya que el tiempo de inferencia del ST es rápido, incluso en hardware de bajo costo. Los modelos ST utilizados en este trabajo también podrían aplicarse a otros problemas de clasificación basados ​​en espectroscopia, como la detección de cáncer o la identificación de minerales. Nuestro sistema Raman asistido por el modelo ST distingue entre 15 clases diferentes con una precisión de clasificación general de más del 96\(\%\), mientras que la CNN tiene una precisión de clasificación general ligeramente inferior al 88,6%. Dado que se trataba de una prueba de concepto, nuestro conjunto de datos solo contiene 15 clases; sin embargo, la base de datos se puede expandir fácilmente para contener cualquier cantidad de bacterias y no bacterias.

Al comparar nuestro método con los métodos que se utilizan actualmente en los hospitales, es decir, las pruebas que requieren mucho tiempo y mano de obra en los laboratorios, RS asistido por ML es una mejora con respecto a la velocidad, la cobertura, el precio y el manejo. Otras tecnologías, como la citometría de flujo, la reacción en cadena de la polimerasa y la espectrometría de masas MALDI-TOF, también se estudian intensamente por su potencial como tecnologías de diagnóstico rápidas y fiables12,16,17,18. La desventaja de estas tecnologías es que requieren equipos grandes y costosos, necesitan personal especialmente capacitado y no se pueden usar localmente como una herramienta de detección/diagnóstico en el punto de atención. Es importante destacar que los espectrómetros de masas requieren cultivo, tienen dificultades para discriminar especies bacterianas estrechamente relacionadas y para diferenciar algunos fenotipos de resistencia a antibióticos, como MRSA y MSSA19. Por el contrario, demostramos que nuestro RS asistido por el enfoque ST y NoiseMix permite una clasificación precisa de diferentes fenotipos de bacterias, a saber, E. coli, S. Epidermidis y S. Aureus. Es importante destacar que nuestro resultado se obtiene con datos de entrenamiento Raman fáciles de producir que se recopilaron a partir de esteras profundas de monocultivo de bacterias. Con este enfoque de preparación simple para adquirir datos de entrenamiento, logramos tiempos de diagnóstico de menos de unos pocos minutos, si no se tiene en cuenta el cultivo. La importancia de nuestro método de recopilación de datos es primordial, ya que nuestro enfoque facilita el desarrollo fácil, rápido y económico de grandes conjuntos de datos, lo cual es crucial para la aplicación clínica. En consecuencia, es posible simplemente crear datos de entrenamiento a partir de bacterias cultivadas y luego incorporar ruido de fondo y contaminante con NoiseMix en los datos de entrenamiento rápidos y fáciles de producir. Esto permitiría una producción rápida de datos, una preparación rápida de muestras y no necesitaría ninguna forma de filtrado o cultivo de bacterias. Por lo tanto, es razonable suponer que nuestro enfoque puede adoptarse fácilmente para el diagnóstico directo de sepsis a partir de muestras de pacientes genuinos, sin ningún tipo de prepotencia. Suponiendo esto, se puede lograr un diagnóstico preciso y, por lo tanto, un tratamiento con antimicrobianos específicos en pocos minutos.

Las bacterias provienen de aislados bacterianos que se cultivaron durante la noche en placas de agar y se sellaron con parafilm y se almacenaron a 5 °C hasta la preparación de la muestra. El tiempo de almacenamiento varió, pero no resultó en cambios espectrales en las características de la cepa o el fenotipo. Todas las demás condiciones de preparación de muestras se mantuvieron constantes entre las muestras. Las muestras de prueba se prepararon por separado de las muestras utilizadas para el entrenamiento, para garantizar que la clasificación no se viera influenciada por las diferencias en la preparación de las muestras. Para preparar las muestras para la medición Raman, simplemente se transfirió una muestra de una sola colonia directamente a un portaobjetos esterilizado CaF\(_2\) de grado Raman.

Bacteria-surface + NoiseMix y Bacteria-surface: el conjunto de datos de entrenamiento Bacteria-surface se compone de tres tiempos de integración para cada clase. El conjunto de datos consta de 12 clases de bacterias (E. coli ATCC 35218, E. coli ATCC 25922, S. epidermidis resistente a la meticilina ATCC 35984 (MRSE), S. epidermidis sensible a la meticilina ATCC 14990 (MSSE), Micrococcus luteus, S. lugdunensis, S. haemolyticus, S. pettenkoferi, S. aureus ATCC 252 resistente a la meticilina, S. aureus ATTCC4951 resistente a la meticilina, S. aureus ATTCC4699 sensible a la meticilina, S. aureus ATCC 2752 sensible a la meticilina y 3 clases de no bacterias , fluoruro de calcio, (CaF\(_2\)), agar y perlas de poliestireno. Los datos de las clases de bacterias en el conjunto de datos de entrenamiento Bacteria-surface se adquirieron midiendo sobre portaobjetos de CaF\(_2\), que estaban completamente cubiertos por tapetes bacterianos multicapa. Los datos de la clase de fondo CaF\(_2\) en el conjunto de datos de entrenamiento Bacteria-surface, se adquirieron midiendo portaobjetos limpios de CaF\(_2\). Los datos de la clase de agar en el conjunto de datos de entrenamiento Bacteria-surface , se adquirió midiendo sobre portaobjetos de CaF\(_2\) cubiertos por una capa profunda de agar. Los datos de la clase de poliestireno en el conjunto de datos de entrenamiento Bacteria-surface se adquirieron midiendo sobre portaobjetos de CaF\(_2\), que se completamente cubierto por perlas de poliestireno. Para las pruebas que utilizan NoiseMix, por ejemplo, en las Figs. 2,3,4, el CaF\(_2\) y los datos de entrenamiento de la superficie de bacterias de agar se utilizan como entradas de mezcla para el algoritmo. El conjunto de datos de prueba de superficie de bacterias utilizado en la Fig. 2 consta de 12 clases de bacterias y 3 clases de no bacterias. Cada clase en el conjunto de datos de prueba de superficie de bacterias está representada por una medición sobre una superficie de CaF\(_2\) parcialmente cubierta. Por lo tanto, las clases de bacterias en el conjunto de datos de prueba de superficie de bacterias no están representadas por el mismo número de espectros Raman de bacterias. El conjunto de datos de validación de superficie de bacterias se produce de la misma manera que el conjunto de datos de prueba de superficie de bacterias, pero no contiene las 15 clases. Las medidas mostradas en las Figs. 3,4,5 se adquieren siguiendo el mismo procedimiento utilizado para producir el conjunto de datos de prueba de superficie de bacterias. El preprocesamiento de los datos del conjunto de datos de entrenamiento de superficie de bacterias consiste en normalizar cada espectro entre 0 y 1. El preprocesamiento de los datos mostrados en las Figs. 3,4,5 de la prueba Bacteria-surface y los datos de validación, consta de dos pasos. (i) la pendiente de los espectros se elimina restando la función lineal entre los valores inicial y final de los espectros, y (ii) un paso de normalización en el que cada espectro Raman se normaliza entre 0 y 1. Para los resultados que se muestran en las Figs. . 3,4,5, usamos 100\(\%\) de datos del conjunto de datos de entrenamiento de superficie de bacteria para el entrenamiento y luego usamos el conjunto de datos de validación de superficie de bacteria retenido para la selección del modelo. Como el conjunto de validación se produce con el mismo procedimiento que el conjunto de datos de prueba real, es un mejor indicador de la eficacia de la clasificación del modelo.

Bacteria ID 1: los modelos se entrenan en el conjunto de datos de referencia de Stanford25, que consta de 30 aislados bacterianos y de levadura con 2000 espectros para cada uno de los 30 aislados. Luego, los modelos se ajustaron en el conjunto de datos de ajuste fino de referencia que consta de 30 aislados de bacterias y levaduras con 100 espectros para cada uno de los 30 aislados25. Posteriormente, los modelos se prueban en el conjunto de datos de prueba de referencia, que consta de 30 aislados bacterianos y de levadura con 100 espectros para cada uno de los 30 aislados25.

Bacteria ID 2: los modelos se entrenaron solo en el conjunto de datos de ajuste fino de referencia y, posteriormente, se probaron en el conjunto de datos de prueba de referencia25.

Binario de E. coli: los modelos se entrenaron y probaron en conjuntos de datos binarios que consisten en E. coli ATCC 35218 y E. coli ATCC 25922. Los datos de los conjuntos de datos binarios de E. coli se adquirieron midiendo sobre portaobjetos de CaF\(_2\), las cuales estaban cubiertas por tapetes bacterianos multicapa. El conjunto de datos de entrenamiento binario de E. coli tiene 5180 espectros para cada clase, y cada clase se compone de dos tiempos de integración diferentes, cada uno con 2590 espectros. El conjunto de datos de prueba binaria de E. coli tiene 2590 espectros para cada clase y los tiempos de integración son diferentes a los del conjunto de entrenamiento. El preprocesamiento de los conjuntos de datos binarios de E. coli consta de dos pasos que se realizan automáticamente sin la intervención del usuario: (i) un paso de corrección de línea de base con Zhangfit43 y (ii) un paso de normalización en el que cada espectro Raman se normaliza entre 0 y 1 .

El microscopio Raman para adquirir datos Raman se muestra en la Fig. 1b. El microscopio Raman utiliza un láser de excitación de 785 nm (TA pro, Toptica, Alemania) con 60 mW de potencia. El haz de la bomba se limpia espacialmente con una fibra monomodo (SM) de 1 metro de largo (cable de conexión PANDA PM FC/PC a FC/APC) con un diámetro de campo modal de 5,3 \(\upmu \)m. Se utiliza un objetivo de microscopio (MO) de larga distancia de trabajo \(100\times \) (LMPLN-IR/LCPLN-IR, apertura numérica NA = 0,85) de Olympus para obtener imágenes, enfocar el láser de excitación y recoger la luz retrodispersada . Las muestras de bacterias se colocan en portaobjetos de fluoruro de calcio de grado Raman (CaF\(_2\)) y la posición se controla con una etapa de escaneo XYZ automatizada. Se utiliza un espejo dicroico (DM) (paso alto de 750 nm, Semrock) para acoplar la luz de iluminación visible a un dispositivo de carga acoplada (CCD) para obtener imágenes. Se utiliza un segundo DM (paso alto de 800 nm) para separar la señal Raman de la bomba. Se utilizan filtros adicionales (paso alto, 800 nm, Semrock) y (paso de banda, 785 nm ± 10 nm, Semrock) para filtrar la bomba de 785 nm. Una fibra multimodo (MM) de 5 m de longitud (ø200 m, 0,39 NA, cables de conexión FC/PC a FC/PC) recoge la señal Raman y la dirige al espectrómetro. Para la adquisición de espectros Raman, utilizamos un espectrómetro HR320 Horiba. Todas las mediciones se realizaron con un tamaño de rendija de 300 \(\upmu \)m y la rejilla utilizada tiene una densidad de línea de 950 L/mm. Para la detección se utiliza un dispositivo de acoplamiento de carga enfriado termoeléctricamente (CCD) (Synapse, 1024 256 con un tamaño de píxel de 26 \(\upmu \)m). Los píxeles CCD se agrupan en grupos de 2x20 píxeles para reducir el ruido y, por lo tanto, aumentar la SNR. Con cada espectro Raman adquirido que consta de 480 puntos en el rango de 700-1600 cm\(^{-1}\), la resolución espectral del espectrómetro es de aproximadamente 10 cm\(^{-1}\).

Para controlar la posición y cambiar el punto de muestreo para RS, utilizamos una etapa de exploración XYZ de Instrumentación científica aplicada (ASI). Los motores paso a paso ASI proporcionan un control preciso mediante el uso de servomotores de CC de circuito cerrado que emplean codificadores de alta resolución para el posicionamiento y la retroalimentación. La platina XY tiene un rango de recorrido de 100 mm \(\times \) 100 mm y una precisión posicional de aproximadamente 200 nm. Se desarrolló un software Python personalizado para la automatización del microscopio Raman completo para controlar de forma asíncrona la etapa de escaneo y el espectrómetro Horiba para adquirir mapas Raman hiperespectrales de las muestras de bacterias.

Para la calibración espectral (y optimización) del microscopio Raman y la calibración de la etapa de traducción, utilizamos perlas de poliestireno que varían en tamaño de 1 a 5 \(\upmu \)m. Las perlas de poliestireno son comparables en tamaño a las bacterias y constituyen múltiples picos Raman en la misma región de desplazamiento Raman que las bacterias. A partir de las mediciones y los mapas de predicción de ST, estimamos que la resolución espacial de los mapas Raman es \(\approx \) 2 \(\upmu \)m \(\pm 500\) nm) y para el mapa de predicción de ST es \( \approx \) 3 \(\upmu \)m \(\pm 500\) nm).

Los espectros Raman sin procesar se limpiaron inicialmente de picos cosméticos. Posteriormente se identifica y resta la función lineal entre los valores inicial y final de cada espectro. Como paso final de preprocesamiento, los espectros se normalizaron individualmente al rango entre cero y uno. Cabe destacar que también investigamos los métodos de corrección de la línea de base con Zhangfit [36]; sin embargo, descubrimos que cualquier tipo de eliminación de la línea de base no lineal era perjudicial para el rendimiento del modelo, especialmente cuando se usaba junto con NoiseMix.

Para mejorar el rendimiento del modelo en la fase de prueba, aplicamos el aumento de datos en la fase de entrenamiento del modelo. El algoritmo NoiseMix funciona seleccionando aleatoriamente y luego mezclando espectros de bacterias \(S_{bacteria}(\nu )\) y espectros de fondo \(S_{bg}(\nu )\). Un espectro Raman aumentado \(S_{bacteria}^{(aug)}(\nu )\) viene dado por

donde \(\alpha \) se elige aleatoriamente de una distribución uniforme en el rango \([0, \alpha _{max}]\), y \(\alpha _{max} <1\) es un límite superior para la contribución de los espectros de fondo.

El modelo ST ML desarrollado aquí es una versión compacta del codificador de transformador estándar39, pero se diferencia en que utiliza la agrupación de secuencias para asignar las salidas secuenciales a una clase singular. La estructura del modelo ST se puede ver en la Fig. 1c. Consiste en una capa de incrustación posicional opcional (ST-pe), seguida de una capa de exclusión. La siguiente capa es un bloque que contiene secuencialmente, norma de capa, atención multicabezal (MHA), norma de capa y luego un perceptrón multicapa (MLP) con una no linealidad GELU. A esto le sigue la norma de capa y luego una capa de agrupación de secuencias. Finalmente, la capa de salida es una capa lineal completamente conectada. Nuestra arquitectura ST está parametrizada por tres argumentos ST(i,j,k), donde i es la profundidad del codificador del transformador, j es el número de cabezales en la capa MHA y k es la relación de perceptrón multicapa. Por lo tanto, en la versión ST(1,2,7), el codificador del transformador tiene una profundidad de 1, la capa MHA tiene 2 cabezales y la dimensión de la capa oculta del MLP es 7 veces mayor que la dimensión de entrada del MLP. Estos hiperparámetros, así como todos los hiperparámetros utilizados para el entrenamiento, se seleccionaron mediante un estimador de Parzen estructurado en árbol, utilizando una división de entrenamiento y validación en la tarea de clasificación aislada25.

Como hemos incluido clases de fondo no bacterianas en nuestro modelo, optamos por utilizar dos métricas de rendimiento: precisión y densidad. La precisión se define en el sentido habitual como la relación entre las clasificaciones de bacterias correctas y el número total de clasificaciones de bacterias. La densidad, por otro lado, es una medida de la cobertura de bacterias y se da como el número de clasificaciones de bacterias al número total de clasificaciones.

Los datos que respaldan los hallazgos de este estudio están disponibles del autor correspondiente a pedido razonable.

Organización Mundial de la Salud. Plan de acción mundial sobre la resistencia a los antimicrobianos (2015).

sobre resistencia a los antimicrobianos, Informe del ICG al secretario general de las naciones unidas (2019).

Stekel, D. El primer informe de resistencia a los antimicrobianos es anterior a la penicilina. Naturaleza 562, 1 (2018).

Artículo Google Académico

O'Neill, J. Abordar las infecciones resistentes a los medicamentos a nivel mundial: informe final y recomendaciones (2016).

Murray, CJ et al. Carga mundial de resistencia bacteriana a los antimicrobianos en 2019: un análisis sistemático. La lanceta (2022).

grupo bancario, W. Infecciones resistentes a los medicamentos: una amenaza para nuestro futuro económico (2017).

Tenover, FC Mecanismos de resistencia antimicrobiana en bacterias. Soy. J.Med. 119, T3–T10 (2006).

Artículo CAS Google Académico

Holmes, AH et al. Comprender los mecanismos y los impulsores de la resistencia a los antimicrobianos. The Lancet 387, 176–187 (2016).

Artículo CAS Google Académico

Dadgostar, P. Resistencia a los antimicrobianos: Implicaciones y costos. Infectar. Resistencia a las drogas. 12, 3903 (2019).

Artículo CAS Google Académico

Nathan, C. Resistencia a la resistencia a los antimicrobianos. Nat. Rev. Microbiol. 18, 259–260 (2020).

Artículo CAS Google Académico

Aslam, B. et al. Resistencia a los antibióticos: un resumen de una crisis mundial. Infectar. Resistencia a las drogas. 11, 1645 (2018).

Artículo CAS Google Académico

Khan, ZA, Siddiqui, MF & Park, S. Métodos actuales y emergentes de prueba de susceptibilidad a los antibióticos. Diagnóstico 9, 49 (2019).

Artículo CAS Google Académico

Reverter, M. et al. La acuicultura en la encrucijada del calentamiento global y la resistencia a los antimicrobianos. Nat. común 11, 1870 (2020).

Artículo ADS CAS Google Académico

Amann, S., Neef, K. & Kohl, S. Resistencia antimicrobiana (amr). EUR. J.Hosp. Farma.: Sci. Practica 26, 175–177 (2019).

Artículo Google Académico

Abushaheen, MA et al. Resistencia antimicrobiana, mecanismos y su significado clínico. Dis. Lun. 66, 100971 (2020).

Artículo Google Académico

Barghouthi, SA Método universal para la identificación de bacterias basado en cebadores generales de PCR. Indio J. Microbiol. 51, 430–444 (2011).

Artículo CAS Google Académico

Florio, W., Tavanti, A., Barnini, S., Ghelardi, E. & Lupetti, A. Avances recientes y desafíos actuales en el diagnóstico de infecciones microbianas por espectrometría de masas Maldi-Tof. Frente. Microbiol. 9, 1097 (2018).

Artículo Google Académico

Hou, T.-Y., Chiang-Ni, C. y Teng, S.-H. Estado actual de la espectrometría de masas Maldi-Tof en microbiología clínica. J. Alimentos Medicamentos Anal. 27, 404–414 (2019).

Artículo CAS Google Académico

Wang, L. et al. Aplicaciones de la espectroscopia Raman en infecciones bacterianas: principios, ventajas y desventajas. Frente. Microbiol. 12, 1 (2021).

Google Académico

Jones, RR, Hooper, DC, Zhang, L., Wolverson, D. & Valev, VK Técnicas Raman: fundamentos y fronteras. Resolución a nanoescala Letón. 14, 1–34 (2019).

Artículo Google Académico

Ralbovsky, NM & Lednev, IK Hacia el desarrollo de un nuevo método de diagnóstico médico universal: espectroscopia Raman y aprendizaje automático. química Soc. Rev. 49, 7428–7453 (2020).

Artículo CAS Google Académico

Guo, S., Popp, J. & Bocklitz, T. Análisis quimiométrico en espectroscopia raman desde el diseño experimental hasta el modelado basado en el aprendizaje automático. Nat. Protocolo 16, 5426–5459 (2021).

Artículo CAS Google Académico

Lorenz, B., Wichmann, C., Stöckel, S., Rösch, P. y Popp, J. Investigaciones espectroscópicas raman sin cultivo de bacterias. Tendencias Microbiol. 25, 413-424 (2017).

Artículo CAS Google Académico

Novelli-Rousseau, A. et al. Determinación de la susceptibilidad a los antibióticos sin cultivo a partir de espectros raman de una sola bacteria. ciencia Rep. 8, 1–12 (2018).

Artículo CAS Google Académico

Ho, C., Jean, N. & Hogan, C. Identificación rápida de bacterias patógenas mediante espectroscopia Raman y aprendizaje profundo. Nat. común 10, 4927 (2019).

Artículo ANUNCIOS Google Académico

Ashton, L., Lau, K., Winder, CL y Goodacre, R. Espectroscopia Raman: Iluminando el futuro de la identificación microbiana. fut. Microbiol. 6, 991–997 (2011).

Artículo CAS Google Académico

Eberhardt, K., Stiebing, C., Matthäus, C., Schmitt, M. y Popp, J. Ventajas y limitaciones de la espectroscopia Raman para el diagnóstico molecular: una actualización. Experto Rev. Mol. Diagnóstico 15, 773–787 (2015).

Artículo CAS Google Académico

Chang, K.-W. et al. Prueba de susceptibilidad a los antibióticos con dispersión raman mejorada en la superficie en un sistema de microfluidos. Anal. química 91, 10988–10995 (2019).

Artículo CAS Google Académico

Strola, SA et al. Identificación de bacterias individuales por espectroscopia raman. J. Biomédica. Optar. 19, 111610 (2014).

Artículo ANUNCIOS Google Académico

de Siqueira y Oliveira, FS, da Silva, AM, Pacheco, MTT, Giana, HE & Silveira, L. Caracterización bioquímica de especies bacterianas patógenas usando espectroscopía raman y modelo de discriminación basado en características espectrales seleccionadas. Las. Medicina. Sci.36, 289–302 (2021).

Duraipandian, S., Petersen, J. & Lassen, M. Autenticidad y análisis de concentración de aceite de oliva virgen extra mediante espectroscopia Raman espontánea y análisis de datos multivariados. aplicación ciencia 9, 2433 (2019).

Artículo CAS Google Académico

García-Timermans, C. et al. La caracterización Raman sin etiquetas de bacterias requiere procedimientos estandarizados. J. Microbiol. Métodos 151, 69–75 (2018).

Artículo Google Académico

Rousseau, AN et al. Pruebas rápidas de susceptibilidad a los antibióticos a través de microespectrometría raman en bacterias individuales: un estudio de caso de mrsa. ACS Omega 6, 16273–16279 (2021).

Artículo CAS Google Académico

Kloß, S., Rösch, P., Pfister, W., Kiehntopf, M. & Popp, J. Hacia la identificación espectroscópica Raman sin cultivo de patógenos en el líquido ascítico. Anal. química 87, 937–943 (2015).

Artículo Google Académico

Franco-Duarte, R. et al. Avances en métodos químicos y biológicos para identificar microorganismos, del pasado al presente. microorganismos (2019).

Pahlow, S. et al. Aislamiento e identificación de bacterias mediante espectroscopia Raman. Adv. Entrega de drogas Rev. 89, 105–120 (2015).

Artículo CAS Google Académico

Lussier, F., Thibault, V., Charron, B., Wallace, GQ y Masson, J.-F. Métodos de aprendizaje profundo e inteligencia artificial para Raman y dispersión Raman mejorada en superficie. Trac, Tendencias Anal. química 124, 115796 (2020).

Artículo CAS Google Académico

Lu, W., Chen, X., Wang, L., Li, H. y Fu, YV Combinación de un enfoque de inteligencia artificial y espectroscopia Raman con pinzas láser para la identificación microbiana. Anal. química 92, 6288–6296 (2020).

Artículo CAS Google Académico

Parmar, N. et al. Transformador de imagen 4055–4064 (2018).

Shao, R., Shi, Z., Yi, J., Chen, P.-Y. y Hsieh, C.-J. Sobre la robustez contradictoria de los transformadores visuales. arXiv e-prints arXiv–2103 (2021).

Hassani, A. et al. Escapar del paradigma de big data con transformadores compactos. preimpresión de arXiv arXiv:2104.05704 (2021). https://arxiv.org/pdf/2104.05704.pdf.

Kong, K., Kendall, C., Stone, N. y Notingher, I. Espectroscopia Raman para diagnósticos médicos, desde ensayos de biofluidos in vitro hasta detección de cáncer in vivo. Adv. Entrega de drogas Rev. 89, 121–134 (2015).

Artículo CAS Google Académico

Zhang, ZM, Chen, S. & Liang, YZ Corrección de línea de base usando mínimos cuadrados penalizados adaptativos iterativamente reponderados. Analista 135, 1138–1146 (2010).

Artículo ADS CAS Google Académico

Descargar referencias

Agradecemos las conversaciones fructíferas con Poul A. Jessen de BacAlert. RBG estaba afiliado a la Universidad del Sur de Dinamarca en el momento del estudio y actualmente está afiliado al Centro de Diagnóstico, Departamento de Medicina, Hospital Universitario de Odense, Svendborg, Dinamarca. Esta investigación fue financiada por la Agencia Danesa para Instituciones y Subvenciones Educativas y el Fondo de Innovación de Dinamarca (IFD) bajo el proyecto Eurostars Bacsens (caso No. 9046-00032A).

Metrología fundamental danesa, Kogle Allé 5, 2970, Hørsholm, Dinamarca

Benjamin Lundquist Thomsen, Jesper B. Christensen, Olga Rodenko y Mikael Lassen

Instituto de Óptica y Física Atómica, Universidad Técnica de Berlín, Strasse des 17. Juni 135, 10623, Berlín, Alemania

Iskander Usenov

Art photonics GmbH, Rudower Ch 46, 12489, Berlín, Alemania

Iskander Usenov

Unidad de Investigación de Microbiología Clínica, Universidad del Sur de Dinamarca y Hospital Universitario de Odense, JB Winsløws Vej 21.2, 5000, Odense, Dinamarca

Rasmus Birkholm Grønnemose y Thomas Emil Andersen

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

JBC, IU y ML diseñaron y construyeron el microscopio Raman. RBG y TEA prepararon las bacterias para los experimentos. JBC, OR y ML obtuvieron los principales resultados experimentales de Raman. BLT diseñó y desarrolló el software para el análisis de aprendizaje automático. El documento fue escrito por BLT, JBC y ML con contribuciones de todos los autores. ML concibió y supervisó la investigación.

Correspondencia a Mikael Lassen.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Thomsen, BL, Christensen, JB, Rodenko, O. et al. Identificación precisa y rápida de fenotipos bacterianos mínimamente preparados mediante espectroscopia Raman asistida por aprendizaje automático. Informe científico 12, 16436 (2022). https://doi.org/10.1038/s41598-022-20850-z

Descargar cita

Recibido: 26 junio 2022

Aceptado: 20 de septiembre de 2022

Publicado: 30 de septiembre de 2022

DOI: https://doi.org/10.1038/s41598-022-20850-z

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.

COMPARTIR