Caso de estudio · Investigación · Dispositivo médico

ColonMatcher: enseñar a un matcher a ver dentro del colon

Un método auto-supervisado para adaptar deep matchers al colon sin ground truth — y extender el SLAM de segundos sueltos a la reconstrucción de un colon entero.

Ignacio Pastore Benaim

17 de junio de 20268 min

−65%

error de trayectoria (ATE) vs. SLAM clásico

Segundos → 5 min

de clips sueltos a un colon completo

Sin ground truth

entrenamiento auto-supervisado

El cáncer colorrectal es el segundo más mortal del mundo, y la colonoscopia es la herramienta de referencia para detectarlo a tiempo — pero hasta 1 de cada 4 adenomas se pasa por alto. Un SLAM visual que reconstruya el colon en 3D y mida qué zonas se han inspeccionado ataca directamente ese problema.

EndoCartoScope (proyecto Horizon Europe coordinado por la Universidad de Zaragoza) construye endoscopios inteligentes con SLAM para lograrlo. En mi trabajo de tesis me dediqué al último bloque clásico que quedaba en su pipeline: el matcher de features. El resultado es ColonMatcher, un matcher de deep learning adaptado al colon con un método auto-supervisado, sin necesidad de ground truth. Paper en camino.

Comparación de reconstrucción 3D del colon: LightGlue de fábrica produce 3 mapas inconexos; ColonMatcher, 1 mapa coherente — Reconstrucción TSDF de la misma colonoscopia (EndoMapper, Seq_001a): LightGlue de fábrica la parte en 3 mapas inconexos, mientras que ColonMatcher la reconstruye en un único mapa coherente. La trayectoria de la cámara, en verde.

El reto: el colon rompe el SLAM clásico#

El colon es uno de los entornos más hostiles que existen para la visión por computador: tejido deformable que se mueve solo, paredes sin textura, reflejos especulares, fluidos y una cámara que se mueve rápido y de cerca. En esas condiciones los emparejadores clásicos no encuentran puntos estables que seguir entre fotogramas, y el SLAM se fragmenta en trozos de pocos segundos.

El sistema de EndoCartoScope (ECS-SLAM) ya había sustituido casi todos sus bloques clásicos por componentes aprendidos. El emparejador de características era el último que quedaba sin tocar. Ese era mi objetivo.

Mi contribución: ColonMatcher#

El problema de adaptar un matcher al colon es que no hay ground truth: nadie te da las correspondencias correctas entre dos fotogramas de una colonoscopia real. Mi solución es un entrenamiento auto-supervisado en tres etapas. Las dos primeras enseñan a emparejar con datos sintéticos y 3D; la tercera —la contribución central— lo especializa en el colon.

En esa tercera etapa uso un modelo denso potente pero lento (RoMa) como "profesor" congelado: sobre secuencias reales de colonoscopia (EndoMapper), RoMa genera pseudo-ground-truth —qué correspondencias son fiables y cuáles no— sin necesidad de pose ni profundidad reales. Con esas etiquetas afino LightGlue y obtengo ColonMatcher. El método es agnóstico al extractor: el mismo recipe sirve para otros detectores y otras modalidades endoscópicas.

La clave: convertir un modelo denso y lento en el profesor de un matcher disperso y rápido. Aprendo del mejor matcher disponible sin pagar su coste en tiempo real, y sin un solo dato etiquetado a mano.

Resultados: de segundos sueltos a un colon entero#

Evalué el sistema dentro de ECS-SLAM sobre 20 secuencias reales de colonoscopia (EndoMapper), comparando el pipeline clásico, LightGlue de fábrica y mi ColonMatcher. Sustituir el matching clásico por uno aprendido y luego adaptarlo al dominio se acumulan: el sistema pasa de rastrear 16 de 20 secuencias a completarlas las 20.

Frente a la línea base clásica, el error de trayectoria (ATE) baja de 6.59 a 2.29 mm, la precisión del mapa de 63 a ~1.5 mm, y la cobertura de seguimiento del 40 % al 99 %. Pero el resultado que más me importa es cualitativo: en retiradas completas, ColonMatcher mantiene el seguimiento mucho más tiempo y reconstruye tramos enteros en un único mapa coherente, donde antes el sistema se rompía en decenas de fragmentos inconexos.

●

ATE 6.59 → 2.29 mm; precisión de mapa 63 → ~1.5 mm; cobertura 40 % → 99 %.

●

20/20 secuencias completadas, frente a 16/20 del pipeline clásico.

●

En una retirada completa: de 119 a 86 submapas y de 206 a 478 reenganches — más colon en un solo mapa.

Stack#

PythonC++PyTorchCudaSIFTLightGlueRoMaSLAMEndoMapper

Preguntas frecuentes#

¿Qué es EndoCartoScope?

Un proyecto europeo (Horizon Europe EIC Transition, coordinado por la Universidad de Zaragoza) que desarrolla endoscopios inteligentes con SLAM para localización y mapeo 3D en colonoscopia. Mi trabajo de tesis contribuye al matcher de su pipeline de visión.

¿Qué es ColonMatcher?

Mi adaptación auto-supervisada de LightGlue al colon. Usa un profesor denso (RoMa) para generar pseudo-ground-truth sobre colonoscopias reales, sin pose ni profundidad, y con eso afina el matcher. Es agnóstico al extractor.

¿Sirve para otras endoscopias o solo para el colon?

Sí: el entrenamiento no usa nada específico del colon. Solo necesita un profesor denso (RoMa) que genere las etiquetas sobre las imágenes objetivo, así que el mismo recipe se puede reentrenar para otras modalidades endoscópicas e incluso con otros extractores de features.

¿Cuánto mejora?

Sobre 20 secuencias reales de EndoMapper, el sistema completa las 20 (antes 16), baja el ATE de 6.59 a 2.29 mm y, sobre todo, reconstruye tramos mucho más largos en un solo mapa coherente. Paper en camino.

¿Hablamos de visión por computador?

Si trabajas en imagen médica, robótica o cualquier problema duro de visión, escríbeme.

Escríbeme Sobre mí