Entwicklung eines Datensatzes und eines KI-gestützten Proof-of-Concept-Algorithmus zur Klassifikation von digitalisierten Whole Slide Images (WSI) von Magengewebe
Diese Bachelorarbeit demonstriert die erfolgreiche Anwendung von Deep Learning in der digitalen Pathologie, mit besonderem Fokus auf die Klassifikation von Magengewebe und Entzündungsgraden.
Einleitung
Meine Bachelorarbeit beschäftigt sich mit der Klassifikation von digitalisierten Whole Slide Images (WSI) von Magengewebe mithilfe eines KI-gestützten Ansatzes. Dieses Projekt entstand in Zusammenarbeit mit dem Lehrstuhl für Erklärbares Maschinelles Lernen der Universität Bamberg und dem Institut für Pathologie der Paracelsus Medizinischen Privatuniversität Nürnberg.
Das Ziel war die Erstellung eines Datensatzes mit annotierten WSIs und die Entwicklung eines KI-Algorithmus, der verschiedene Magenregionen (Antrum, Corpus, intermediäre Regionen) sowie Entzündungen erkennt und klassifiziert. Die Arbeit leistet einen wichtigen Beitrag zur digitalen Pathologie und zeigt das Potenzial von KI-gestützten Systemen in der medizinischen Diagnostik.
Methodik
1. Datensatz-Erstellung und Annotation
Der Datensatz umfasste insgesamt 205 WSIs von Magengewebe, die in enger Zusammenarbeit mit erfahrenen Pathologen des Instituts für Pathologie der Paracelsus Medizinischen Privatuniversität Nürnberg annotiert wurden. Die Kooperation war geprägt von regelmäßigen Treffen und intensivem Austausch, um die spezifischen Anforderungen der Pathologie zu verstehen und in die Implementierung einfließen zu lassen.
Die Annotation erfolgte mit dem Tool QuPath, das speziell für die Analyse von histologischen Bildern entwickelt wurde. Die Zusammenarbeit mit den Pathologen war dabei besonders wertvoll, da sie ihre Expertise in die Definition der Annotationsrichtlinien einbrachten und die Qualität der Annotationen kontinuierlich überprüften.
Bei der Annotation wurden vier Hauptklassen unterschieden. Das Antrum, der distale Magenabschnitt, zeichnet sich durch dichte Drüsenstrukturen und spezifische Zelltypen aus. Es bildet den Übergangsbereich zum Duodenum und weist eine charakteristische Gewebemorphologie auf. Der Corpus, der Magenkörper, ist durch dominante Belegzellen und Hauptzellen gekennzeichnet. Seine spezifische Drüsenarchitektur und charakteristische Gewebestruktur machen ihn eindeutig identifizierbar.
Die Intermediären Regionen bilden die Übergangsbereiche zwischen Antrum und Corpus. Diese Bereiche zeigen graduelle Übergänge in der Gewebestruktur und enthalten gemischte Zellpopulationen mit verschiedenen Drüsenmorphologien. Die Klassifikation der Entzündungsgrade erfolgte in vier Kategorien: von normalem Gewebe ohne Entzündung über leichte und mittlere Infiltration bis hin zu schweren Entzündungen mit ausgeprägter Infiltration.
Der Annotationsprozess wurde systematisch in drei Hauptphasen strukturiert. Die initiale Schulung umfasste eine gründliche Einführung in die QuPath-Software und die Übermittlung der Annotationsrichtlinien. Pilot-Annotationen dienten der Qualitätssicherung und der Verfeinerung der Arbeitsprozesse.
Die kontinuierliche Qualitätskontrolle wurde durch regelmäßige Überprüfungen erfahrener Pathologen gewährleistet. Feedback-Schleifen ermöglichten eine kontinuierliche Optimierung des Annotationsprozesses. Alle Annotationsentscheidungen wurden sorgfältig dokumentiert, um eine nachvollziehbare und konsistente Datensatz-Erstellung zu gewährleisten.
Die Datensatz-Validierung erfolgte durch Inter-Observer-Übereinstimmungstests und umfangreiche Konsistenzprüfungen. Senior-Pathologen führten eine finale Qualitätskontrolle durch, um die höchsten Standards in der Datensatzqualität zu gewährleisten.
Die enge Zusammenarbeit mit den Pathologen war der Schlüssel zum Erfolg des Projekts. Ihre Expertise war besonders wertvoll bei der Definition der Annotationskriterien, der Identifikation von Grenzfällen und der Validierung der Annotationen. Durch ihre fachliche Begleitung konnten wir einen hochwertigen und klinisch relevanten Datensatz erstellen, der die Grundlage für die Entwicklung des KI-Algorithmus bildete.
2. Datenverarbeitung und Speicherung
Die Verarbeitung der WSIs stellte eine besondere Herausforderung dar, da diese Bilder typischerweise eine Größe von mehreren hundert MB bis zu einigen GB haben. Um diese Herausforderung zu meistern, entwickelten wir einen mehrstufigen Ansatz zur Datenverarbeitung.
Zunächst wurden die WSIs in Tiles von 256x256 Pixeln aufgeteilt, was eine effiziente Verarbeitung ermöglichte. Diese Aufteilung war ein wichtiger Schritt, um die großen Bilddaten handhabbar zu machen und gleichzeitig die relevanten Strukturen zu erhalten. Anschließend erfolgte eine Qualitätsfilterung, bei der Artefakte und unscharfe Bereiche entfernt wurden, um die Datenqualität zu verbessern.
Ein weiterer wichtiger Schritt war die Farbnormalisierung, die zur Reduzierung von Staining-Variationen diente. Diese Normalisierung war entscheidend für die Konsistenz der Daten und verbesserte die Robustheit des späteren Modells. Für die effiziente Verwaltung der verarbeiteten Daten implementierten wir eine optimierte Datenbankstruktur, die schnellen Zugriff und effektive Speicherung ermöglichte.
3. Modellentwicklung
Für die Klassifikation implementierten und verglichen wir zwei verschiedene Modellarchitekturen: ResNet-18 und Xception. Das ResNet-18, ein bewährtes CNN-Modell mit 18 Schichten, überzeugte durch seine Residual Connections, die ein besseres Training tiefer Netze ermöglichen. Seine Stärken lagen in schnellem Training und guter Generalisierung.
Das Xception-Modell, eine modernere Architektur mit Tiefenweise separierbarer Faltung, bot eine effizientere Parameterausnutzung und zeigte besonders bei der Feature-Extraktion komplexer Strukturen seine Stärken. Beide Modelle wurden mit umfangreichen Optimierungen trainiert, darunter Data Augmentation durch Rotation, Spiegelung und Helligkeitsanpassung, Learning Rate Scheduling, Early Stopping und Cross-Validation.
Ergebnisse
Klassifikationsleistung
Die Ergebnisse der Klassifikation waren äußerst vielversprechend. Bei der Magenregionen-Klassifikation erreichte das Modell für das Antrum einen F1-Score von 0,8889, mit einer Präzision von 0,8571 und einem Recall von 0,9231. Die Corpus-Klassifikation erzielte sogar einen perfekten F1-Score von 1,0000, was bedeutet, dass keine Fehlklassifikationen auftraten. Die intermediären Regionen erreichten einen F1-Score von 0,8571, mit einer Präzision von 0,8000 und einem Recall von 0,9231.
Besonders beeindruckend waren die Ergebnisse bei der Entzündungsklassifikation, wo das Modell einen perfekten F1-Score von 1,0000 auf dem Testdatenset erreichte. Dies demonstrierte die robuste Erkennung verschiedener Entzündungsgrade und die hohe Zuverlässigkeit des Systems.
Modellvergleich
Der Vergleich der beiden Modellarchitekturen offenbarte interessante Unterschiede. Das ResNet-18 überzeugte durch seine Effizienz, mit etwa 30% schnellerem Training und geringerem Speicherverbrauch. Seine stabile Performance machte es zu einer zuverlässigen Wahl für die Klassifikationsaufgabe.
Das Xception-Modell zeigte seine Stärken in der Feature-Extraktion und erreichte eine höhere Genauigkeit bei der Erkennung komplexer Strukturen. Diese verbesserte Leistung ging jedoch mit einer längeren Trainingszeit einher, was bei der Modellauswahl berücksichtigt werden musste.
Fazit und Ausblick
Diese Arbeit legt die Grundlage für die KI-gestützte Analyse von WSI in der digitalen Pathologie. Die erzielten Ergebnisse sind vielversprechend, zeigen aber auch die Herausforderungen auf, insbesondere bezüglich der Datenmenge und Modellgeneralität.