Einsatz großer Sprachmodelle zur Generierung synthetischer Trainingsdaten für Anwendungen des maschinellen Lernens im Gesundheitswesen

Wichtiger Hinweis

Die im Projekt verwendeten Gesundheitsdaten beziehungsweise medizinischen Transkripte stammen von mtsamples.com. Sie sind in keiner Weise mit echten Patientendaten aus meinem persönlichen oder beruflichen Umfeld verknüpft.

Dieses Projekt und diese Masterarbeit stehen außerdem in keiner Beziehung zu meinem Arbeitgeber. Der Kontext war dort zwar transparent kommuniziert, mein Arbeitgeber war aber weder inhaltlich noch organisatorisch involviert und ist mit der Arbeit nicht verbunden.

Kurzzusammenfassung

Einsatz großer Sprachmodelle zur Generierung synthetischer Trainingsdaten für Anwendungen des maschinellen Lernens im Gesundheitswesen

Angesichts der aktuellen Überlastung im Gesundheitswesen wird die Suche nach effizienten Lösungen zur Entlastung des Systems immer dringlicher. Die Integration von maschinellem Lernen (ML), einer Schlüsselkomponente der künstlichen Intelligenz, bietet einen vielversprechenden Ansatz zur Entlastung durch Automatisierung von Routinetätigkeiten, insbesondere in der Verarbeitung unstrukturierter medizinischer Daten. Angesichts der kritischen Bedeutung qualitativ hochwertiger Trainingsdaten für die Effektivität von MLModellen und den strengen Datenschutzauflagen im medizinischen Bereich, untersucht diese Arbeit die Möglichkeit, große Sprachmodelle, insbesondere GPT-4, zur Generierung von synthetischen Trainingsdaten einzusetzen. Ziel ist es, die Leistungsfähigkeit und Effektivität von ML-Modellen für ML-Anwendungen im Gesundheitswesen durch diese synthetischen Daten zu verbessern, speziell in der Textklassifikation medizinischer Transkripte. Der experimentelle Ansatz dieser Arbeit berücksichtigt die realen Bedingungen des Gesundheitswesens, indem er die Herausforderungen suboptimaler Datenlagen annimmt und einen realitätsnahen Vergleich zwischen Modellen, die mit realen im Vergleich zu synthetischen Daten trainiert wurden, durchführt. Die Ergebnisse zeigen, dass die Kombination von realen und synthetischen Daten, insbesondere in Bereichen mit kleinen Datensätzen, signifikante Verbesserungen in der Textklassifikation ermöglicht, mit einem F1-Wert von über 80% in Versuchen mit synthetisch ergänzten Trainingsdaten. Dies verdeutlicht das Potenzial synthetischer Daten zur Erweiterung und Verbesserung der Datenbasis für MLAnwendungen im Gesundheitswesen. Die Untersuchung deutet auf kleinere Unterschiede in den Daten hin, jedoch scheint kein auffälliger Bias zu entstehen. Es wird jedoch auch deutlich, dass ein rein synthetischer Datensatz nicht ideal ist, da er möglicherweise nicht alle Nuancen realer Daten vollständig nachahmen kann. Die Untersuchung unterstreicht die Bedeutung eines ausgewogenen Verhältnisses zwischen realen und synthetischen Daten, um die Vorteile beider Ansätze zu nutzen und gleichzeitig die Limitationen zu minimieren. Jedoch werden auch Grenzen und Herausforderungen, wie die Übertragbarkeit der Ergebnisse auf größere Datensätze und Datenschutzbedenken, aufgezeigt. Die Abhängigkeit von realen Daten zur Generierung synthetischer Datensätze unterstreicht die Notwendigkeit innovativer Ansätze, um Datenschutzkonformität zu gewährleisten. Zusammenfassend bekräftigt die Arbeit die Eignung synthetischer Daten zur Verbesserung der Leistungsfähigkeit von ML-Modellen im Gesundheitswesen, zeigt jedoch die Bedeutung weiterer Forschung auf, um die identifizierten Herausforderungen zu überwinden.

Danke

Mein Dank gilt meinem Erstgutachter und Betreuer Prof. Dr. Bernd Ulmann.

Außerdem danke ich Tushaar Bhatt für den kollegialen und fachlichen Austausch.

Und meinem Vater fürs Korrekturlesen. Heute fängt AI viel davon ab. So stark war sie damals aber noch nicht, und Rechtschreibung ist nicht gerade meine Paradedisziplin. Genau da hilft dann der alte Deutschlehrer.