banner

Nachricht

Jul 30, 2023

Bewertung der Portabilität berechenbarer Phänotypen mit natürlicher Sprachverarbeitung im eMERGE-Netzwerk

Wissenschaftliche Berichte Band 13, Artikelnummer: 1971 (2023) Diesen Artikel zitieren

1055 Zugriffe

6 Altmetrisch

Details zu den Metriken

Das Netzwerk für elektronische Krankenakten und Genomik (eMERGE) bewertete die Machbarkeit des Einsatzes tragbarer, auf Phänotypregeln basierender Algorithmen mit zusätzlichen NLP-Komponenten (Natural Language Processing), um die Leistung vorhandener Algorithmen mithilfe elektronischer Gesundheitsakten (EHRs) zu verbessern. Basierend auf dem wissenschaftlichen Wert und der vorhergesagten Schwierigkeit wählte eMERGE sechs bestehende Phänotypen aus, die mit NLP verbessert werden sollten. Wir haben Leistung, Portabilität und Benutzerfreundlichkeit bewertet. Wir haben die gewonnenen Erkenntnisse zusammengefasst aus: (1) Herausforderungen; (2) Best Practices zur Bewältigung von Herausforderungen basierend auf vorhandenen Erkenntnissen und/oder eMERGE-Erfahrungen; und (3) Möglichkeiten für zukünftige Forschung. Das Hinzufügen von NLP führte zu einer verbesserten oder gleichen Präzision und/oder Erinnerung für alle Algorithmen bis auf einen. Portabilität, Phänotypisierungs-Workflow/-Prozess und Technologie waren wichtige Themen. Bei NLP dauerte die Entwicklung und Validierung länger. Zu den Erfolgsfaktoren gehören neben der Portabilität der NLP-Technologie und der Reproduzierbarkeit von Algorithmen auch der Schutz der Privatsphäre, der Aufbau der technischen Infrastruktur, die Vereinbarung über geistiges Eigentum und eine effiziente Kommunikation. Workflow-Verbesserungen können die Kommunikation verbessern und die Implementierungszeit verkürzen. Die NLP-Leistung variierte hauptsächlich aufgrund der Heterogenität der klinischen Dokumente. Daher empfehlen wir die Verwendung halbstrukturierter Notizen, umfassender Dokumentation und Anpassungsoptionen. NLP-Portabilität ist mit einer verbesserten Leistung des Phänotypalgorithmus möglich, eine sorgfältige Planung und Architektur der Algorithmen ist jedoch unerlässlich, um lokale Anpassungen zu unterstützen.

Die genaue Extraktion vollständiger und detaillierter phänotypischer Informationen aus umfangreichen elektronischen Gesundheitsakten (EHR) verbessert die Effizienz und Genauigkeit der Präzisionsmedizinforschung. Allerdings reichen strukturierte Daten allein oft nicht aus, um viele Erkrankungen vollständig zu identifizieren oder zu beschreiben, insbesondere wenn ein Attribut nicht allgemein in Rechnung gestellt wird oder eine differenzierte Interpretation erfordert1,2,3,4. Natürliche Sprachverarbeitung (NLP) und maschinelles Lernen (ML) versprechen eine tiefgreifende Phänotypisierung mithilfe nuancierter EHR-Erzählungen5,6,7,8.

Sowohl anspruchsvolle NLP-Pipelines wie MedLEE9, CLAMP10, cTAKES11 und MetaMap12,13; und einfachere regelbasierte Ansätze, die reguläre Ausdrücke (RegEx) und Logik kombinieren; werden zunehmend für die Tiefenphänotypisierung genutzt14. Angesichts der unterschiedlichen EHR-Systeme und heterogenen Dokumentationsansätze, die von Klinikern verwendet werden, ist es jedoch schwierig, eine umfassende Generalisierbarkeit und Portabilität des Phänotypalgorithmus zu erreichen15. Beispielsweise haben Sohn et al. berichteten, wie sich Unterschiede in der Asthma-bezogenen klinischen Dokumentation zwischen zwei Kohorten auf die Portabilität des NLP-Systems auswirken16. Darüber hinaus variieren Dokumenttypen und -strukturen je nach EHR, und einige Websites verfügen über mehr unstrukturierte Daten als andere. Abkürzungen, Terminologien und andere Sprachverwendungen variieren ebenfalls je nach Standort, Kliniker und Zeit. Beispielsweise haben Adekkanattu et al. berichteten über Schwankungen in der Systemleistung aufgrund der Heterogenität lokaler Textformate und lexikalischer Begriffe, die zur Dokumentation verschiedener Konzepte verwendet werden, in drei verschiedenen Institutionen, die die Portabilität eines speziellen Echokardiographie-Informationsextraktionssystems bewerteten17.

Die biomedizinische NLP-Gemeinschaft hat eine Reihe von Ansätzen entwickelt, um diese Probleme anzugehen, darunter die Messung der semantischen Ähnlichkeit von Texten, den Einsatz von Ensemble-NLP-Systemen, die Verwendung umfassender Begriffswörterbücher und die Umwandlung von Text in Datenstandards wie Fast Health Interoperability Resources (FHIR) und die Gemeinsames Datenmodell (CDM) der Observational Medical Outcomes Partnership (OMOP)18. Insbesondere zeigten Liu et al.19, dass Ensembles von NLP-Systemen die Portabilität sowohl durch generische phänotypische Konzepterkennung als auch durch patientenspezifische phänotypische Konzeptidentifizierung gegenüber einzelnen Systemen verbessern können. Darüber hinaus haben Jiang et al. nutzte den FHIR-Standard, um eine skalierbare Datennormalisierungspipeline zu entwickeln, die sowohl strukturierte als auch unstrukturierte klinische Daten für die Phänotypisierung integriert20. Schließlich haben Sharma et al. entwickelte ein tragbares NLP-System, indem es Phänotypkonzepte extrahierte, sie mithilfe des Unified Medical Language System (UMLS) normalisierte und sie dem OMOP CDM21 zuordnete.

Das eMERGE-Netzwerk (electronic MEdical Records and GEnomics) wurde 2007 vom National Human Genomic Research Institute (NHGRI) organisiert und finanziert, um die Schnittstelle zwischen Genomik und EHRs zu untersuchen22,23,24,25,26. Einer der nachhaltigsten Beiträge des Netzwerks ist die Entwicklung berechenbarer Phänotypen zur Identifizierung häufiger Krankheiten in EHRs für die Genforschung. Jeder Phänotyp-Algorithmus wird an mehreren Standorten validiert und ist in der Phenotype KnowledgeBase (PheKB.org)27 öffentlich verfügbar. In den letzten vierzehn Jahren hat das eMERGE-Netzwerk beträchtliche Erfahrung in der Entwicklung, Validierung und Implementierung von Phänotypisierungsalgorithmen gesammelt17,22,23,24,25,28,29,30,31,32. Diese Zusammenarbeit zwischen mehreren teilnehmenden Institutionen bietet seltene Gelegenheiten, die Leistung und Portabilität von NLP für die „Big Data“ in EHRs in verschiedenen Umgebungen zu untersuchen. Eine ständige wichtige Aufgabe bleibt die Identifizierung der Wissenslücke bei Best Practices bei der Entwicklung, Validierung und Implementierung tragbarer Phänotypalgorithmen mithilfe von NLP.

Eines der Ziele der Phase III des eMERGE-Netzwerks (2015–2020) bestand darin, NLP/ML in bestehende eMERGE-Phänotyp-Algorithmen zu integrieren, um deren Leistung zu verbessern und/oder Sub-Phänotypen besser zu ermitteln. Zu diesem Zweck wurde in den Jahren 2019–2020 eine einjährige Pilotstudie durchgeführt, um die Machbarkeit des Einsatzes tragbarer Phänotyp-Algorithmen zu testen, die NLP-Komponenten in bestehende regelbasierte Phänotyp-Algorithmen integrieren. Unser Ziel war es insbesondere, mithilfe von NLP Subpopulationen zu identifizieren und bestehende Phänotypalgorithmen zu verbessern. Da wir Fälle (und manchmal auch Kontrollen) für die Genforschung identifizieren, ist es wichtig, die größtmögliche Anzahl genau identifizierter Patienten (Fälle) mit dem jeweiligen Phänotyp zu haben. Daher wurde eine Verbesserung definiert als entweder eine verbesserte Erinnerung, um die Anzahl der Fälle zu erhöhen; und/oder verbesserte Präzision, um einen höheren Prozentsatz wahrer Fälle korrekt zu identifizieren. Wir stellten die Hypothese auf, dass die Entwicklung tragbarer, genauer und effizienter NLP-Tools für die Anwendung an mehreren Standorten von der Verfügbarkeit personeller und technologischer Ressourcen innerhalb und zwischen Standorten abhängt, da die Erfahrungen auf diesem Gebiet, auch zwischen unseren Standorten, sehr unterschiedlich sind. Diese müssen in der Lage sein, die verschiedenen Quellen der Heterogenität aufzudecken und anzugehen, wie z. B. unterschiedliche Umgebungen, die sich auf die Fähigkeit eines NLP-Systems auswirken, Informationen genau zu extrahieren. In Anbetracht dieser eMERGE-Arbeit besteht das Ziel dieses Papiers darin, (1) über die Herausforderungen zu berichten, mit denen wir bei der Implementierung der eMERGE-Phänotypalgorithmen mit hinzugefügten NLP/ML-Komponenten konfrontiert waren, und (2) Best Practices zu empfehlen, auf die wir gestoßen sind und/oder die wir bei der Überprüfung gefunden haben , um anderen bei der Bewältigung dieser Herausforderungen zu helfen, um tragbare Phänotyp-Algorithmen zu implementieren, insbesondere solche mit NLP/ML-Komponenten.

Um diese Ziele zu erreichen, wurde eine NLP-Unterarbeitsgruppe der eMERGE Phenotyping Workgroup gebildet, der Vertreter von neun eMERGE-Standorten angehörten: Children's Hospital of Philadelphia (CHOP), Cincinnati Children's Hospital Medical Center (CCHMC), Columbia University, Geisinger, Harvard /Mass General Brigham, Kaiser Permanente Washington und die University of Washington (KPWA/UW), Mayo Clinic, Northwestern University (NU) und Vanderbilt University Medical Center (VUMC). Basierend auf dem wissenschaftlichen Wert und der vorhergesagten Schwierigkeit wählte die Gruppe sechs Phänotypen mit vorhandenen berechenbaren Phänotyp-Algorithmen aus, die mit NLP verbessert werden sollten: chronische Rhinosinusitis (CRS)33, Elektrokardiogramm-Merkmale (EKG)34, systemischer Lupus erythematodes (SLE)35, Asthma/chronisch obstruktive Lungenerkrankung (COPD)-Überlappung (ACO)36, familiäre Hypercholesterinämie (FH)37 und atopische Dermatitis (AD)38. Alle Algorithmen waren Fallkontrollalgorithmen; Insbesondere handelte es sich bei den Fällen um Patienten mit und Kontrollpersonen ohne den Phänotyp, wie durch jeden Algorithmus definiert. Zu den Subphänotypen gehörten Merkmale in EKG-Berichten wie das Brugada-Syndrom, CRS mit und ohne Nasenpolypen sowie Subtypen von SLE und AD.

Um die Heterogenität der Studien zu verringern, um zeitlichen Beschränkungen Rechnung zu tragen und die Hürden bei der Implementierung durch Kliniker mit minimaler NLP-Ausbildung zu verringern, haben wir die NLP-Pipelines auf diejenigen beschränkt, mit denen wir Erfahrung hatten39,40,41,42,43,44 und die eine angemessene Widerspiegelung davon darstellten die Vielfalt der NLP-Tools, die derzeit im Gesundheitswesen eingesetzt werden, wie aus einer aktuellen Übersicht hervorgeht45. Zu diesem Zweck basierte die Auswahl der NLP-Plattform auf einer Umfrage unter Plattformen, mit denen die Websites die meiste Erfahrung hatten. Die ausgewählten Tools waren: cTAKES11, MetaMap12,13 und/oder reguläre Ausdrücke (RegEx) sowie zwei häufig verwendete Negationserkennungsmodule: NegEx und ConText46,47, die regelbasiert sind. Die modifizierten AD- und COPD/ACO-Phänotypalgorithmen verfügten auch über ML-Komponenten, für die in Python bzw. Java geschriebener benutzerdefinierter Code verwendet wurde. Die Phänotypen sowie Ziele und ausgewählte Tools sind in Tabelle 1 aufgeführt. Weitere Einzelheiten zu den Algorithmen finden Sie auf PheKB.org27.

Um die Phänotypalgorithmen gemäß unseren Zielen zu validieren, konzentrierten wir uns auf die Validierung, ob Patienten sowohl vom ursprünglichen als auch vom neuen NLP-erweiterten Phänotypalgorithmus korrekt als Fälle (und/oder Kontrollen) identifiziert wurden. Die ursprünglichen Algorithmen wurden zuvor validiert33,34,35,36,37,38. Dann fügte die „führende“ (primäre) Website für diese Studie NLP-Komponenten zum ursprünglichen Algorithmus hinzu, den sie zuvor geleitet hatte (mit einer Ausnahme, AD, das zuvor von einer pädiatrischen Website geleitet wurde, aber in diesem Pilotprojekt). wurde von einer auf Erwachsene ausgerichteten Website geleitet). Anschließend validierte die führende Stelle den NLP/ML-verstärkten Phänotypalgorithmus durch manuelle Diagrammüberprüfung zufällig ausgewählter Teilmengen von: Patientendiagrammen und bei Bedarf klinische Notizen für diese Patienten. Anschließend arbeitete die leitende Site, wie es bei der Entwicklung von eMERGE-Phänotypalgorithmen23 üblich ist, mit mindestens einer „Validierungs“-Site (sekundär) zusammen, um die Algorithmen nach Bedarf weiter anzupassen, bis eine zufriedenstellende Präzision und Recall erreicht wurde, berechnet über die manuellen Überprüfungen. Konkret sind an den Validierungsverfahren für Phänotypalgorithmen des eMERGE-Netzwerks23, die hier verwendet wurden, Standorte beteiligt, deren Kliniker Erfahrung in der Diagnose und Behandlung des jeweiligen Phänotyps haben, oder hochqualifizierte medizinische Fachkräfte, um das Vorhandensein oder Nichtvorhandensein des Phänotyps in der gesamten Patientenakte festzustellen (nicht nur der klinische Text) und gegebenenfalls seine detaillierten Merkmale, wie Anzeichen und Symptome. Wie es auch bei eMERGE üblich ist, haben, wenn möglich, mindestens zwei Personen die Diagramme überprüft und zu Beginn auch mindestens einige der gleichen Diagramme überprüft, um die Zuverlässigkeit zwischen den Bewertern sicherzustellen, während eine erfahrenere Person nach Möglichkeit über etwaige Unterschiede entscheidet; oder, wenn es nur einen einzigen Gutachter gibt, ist die Person ein Experte für den Phänotyp. Für die Entwicklung des ACO-Phänotyps überprüften beispielsweise zwei Pneumologen und ein dritter Pneumologe gleichte nicht übereinstimmende Bezeichnungen ab; Während der Zeit bei KPWA wurden für denselben Phänotyp Diagrammüberprüfungen von einem professionellen, nicht-klinischen Diagramm-Abstraktor durchgeführt, der Zugang zu einem MD-Kliniker hatte, um den Abstractor bei der Lösung aller Fragen/Bedenken zu unterstützen, die über die Kompetenz des Abstractors hinausgingen. In ähnlicher Weise überprüfte bei Mayo und Geisinger ein einzelner Arzt die Diagramme und bei VUMC überprüfte ein leitender Kardiologe alle EKG-Berichte, und bei SLE führte ein Rheumatologe, der SLE-Forschung durchführte, diese Überprüfung durch. Eine führende Website überprüft etwa 50 Patientenakten und mindestens eine Validierungsstelle (sekundär) überprüft anschließend etwa 25 Patientenakten: Die Anzahl der überprüften Patientenakten ist manchmal höher, abhängig vom Phänotyp23,24,25,26,27, der dabei vorkam Studie. Wenn der Phänotypalgorithmus sowohl Fälle als auch Kontrollen identifiziert, umfasst die Gesamtzahl der überprüften Diagramme beides (z. B. etwa 25 potenzielle Fälle und 25 potenzielle Kontrollen, wenn die Gesamtzahl 50 überprüfte Diagramme beträgt)23,24,25,26,27 , wie in dieser Studie für mehrere Phänotypen beobachtet. Schließlich wurden die Phänotypalgorithmen an alle teilnehmenden Standorte zur Implementierung weitergegeben und je nach Bedarf auf der Grundlage des Feedbacks der implementierenden Standorte iterativ weiter verbessert. Die endgültigen Genauigkeitsstatistiken wurden bei Bedarf neu berechnet, nachdem alle Änderungen für die Berichterstattung hier vorgenommen wurden.

Anschließend haben wir NLP-Methoden und -Tools retrospektiv verglichen, um Leistung, Portabilität und Benutzerfreundlichkeit zu bewerten. Zu diesem Zweck haben wir Websites gebeten, ihre Erkenntnisse aus der Erstellung und Weitergabe von NLP/ML-Algorithmen im Rahmen einer kurzen informellen Umfrage zu jedem von ihnen entwickelten, validierten und/oder implementierten Phänotyp-Algorithmus zu melden (die gestellten Fragen sind im ergänzenden Anhang A aufgeführt). Quantitativ wurden die Standorte gebeten, die Leistung (insbesondere Rückruf und Präzision) sowohl an der Haupt- als auch an der (sekundären) Validierungsstelle zu melden, und zwar sowohl für den ursprünglichen als auch für den modifizierten (NLP hinzugefügten) Phänotypalgorithmus. Die Standorte wurden außerdem gebeten, den Umfang der Ressourcen und die Zeit zu schätzen, die für die vollständige Entwicklung, Validierung und Implementierung erforderlich waren. Diese Schätzungen basierten auf Schätzungen nach Abschluss der Arbeiten. Da das Personal außerdem in der Regel nicht 100 % seiner Zeit mit den Algorithmen verbracht hat, sind die Zeitschätzungen unterschiedlich, da sie vom Anteil des Aufwands abhängen. Darüber hinaus haben einige Standorte optional die Fachkenntnisse der Personen getrennt, die zur Erledigung der Aufgabe erforderlich sind (z. B. Klinik-, Informatik- und EHR-Analysten). Als physische Ressourcen wurde die Anzahl der Server angegeben, die zum Abfragen der Daten und/oder zum Ausführen der Algorithmen erforderlich waren. Qualitativ wurden die Websites gebeten, anzugeben, wie schwierig die Implementierung der einzelnen Algorithmen ihrer Meinung nach war. wie portierbar es war, einschließlich aller lokalen Anpassungen, die für die Leistung des Algorithmus erforderlich waren; und alle anderen Probleme, die Websites beim Teilen festgestellt haben, einschließlich technischer Probleme oder Leistungsprobleme. Zusätzliches qualitatives Feedback zu den Erfahrungen wurde informell bei monatlichen Arbeitsgruppentreffen und durch direkte E-Mails von Standorten gesammelt.

Unter Verwendung der Grounded Theory48 wurde von zwei Autoren (JAP, LVR) eine thematische Analyse durch unabhängige Überprüfung des gesamten qualitativen Feedbacks durchgeführt. Zunächst wurde eine offene und axiale Kodierung zu Themen- oder Bedenkenkategorien durchgeführt, um Schlüsselbegriffe zu identifizieren und sie grob zu kategorisieren. Die Kodierer nutzten selektive Kodierung, um axiale Codes zu einem umfassenden hierarchischen Codebuch zu verfeinern, kodierten das Feedback unabhängig voneinander neu und überprüften es, um einen Konsens zu erzielen. Neue Themen wurden durch iterative Überprüfung der Codes identifiziert. Als Nächstes erstellten wir einen Rückblick und eine Zusammenfassung der gewonnenen Erkenntnisse, einschließlich (a) Herausforderungen für jedes Thema; (b) entsprechende Best Practices zur Bewältigung dieser Herausforderungen auf der Grundlage vorhandener veröffentlichter Erkenntnisse und/oder Erfahrungen des eMERGE-Netzwerks; und (c) gegebenenfalls Möglichkeiten für zukünftige Forschung. Um die Glaubwürdigkeit zu beurteilen, wurden die Ergebnisse schließlich den Co-Autoren präsentiert und anschließend wurden die Erkenntnisse und Empfehlungen nach Bedarf weiter verfeinert.

Die Einverständniserklärung aller an der Studie beteiligten Probanden wurde vom Institutional Review Board (IRB) jedes Standorts eingeholt. Die Forschung wurde in Übereinstimmung mit den relevanten Richtlinien und Vorschriften für die Verwendung der biomedizinischen Daten menschlicher Teilnehmer durchgeführt, einschließlich der genehmigten IRB-Protokolle jedes Standorts und in Übereinstimmung mit der Deklaration von Helsinki.

Für jeden Phänotypalgorithmus enthält Tabelle 2 Genauigkeitsstatistiken und erforderliches Personal. Obwohl nicht von allen Standorten berichtet, umfassten die beteiligten Mitarbeiter Programmierer, Kliniker und Computerlinguisten. Obwohl die meisten Websites 50–100 Patientendiagramme überprüften, wie es in eMERGE zur Validierung von Phänotypalgorithmen üblich ist, schwankte der Bereich: Die führenden Websites überprüften zwischen 46 und 972 Diagramme, mit einem Median von 100 überprüften Diagrammen, und validierende Websites überprüften 50–972 Diagramme. 950 Diagramme, mit einem Median von 65 überprüften Diagrammen. Aus diesen Überprüfungen der Patientenakten geht hervor, dass für alle außer einem Algorithmus (SLE, bei dem die Präzision insgesamt abnahm) die Präzision und der Rückruf insgesamt sowohl an der führenden (primären) als auch an der (sekundären) Validierungsstelle unverändert blieben oder sich verbesserten. Änderungen in der Genauigkeitsstatistik für Subphänotypen variierten zwischen Subphänotypen und Entwicklungs- und Validierungsstandorten. Unterschiede in der Leistung des Phänotypalgorithmus waren nicht mit den verwendeten Tools verbunden. Nur zwei Standorte haben die Anzahl der Datensätze im EHR (die sowohl klinischen Text als auch diskrete Daten wie Labordaten enthalten) angegeben, die für die Implementierung des endgültigen NLP/ML-verstärkten Phänotypalgorithmus verwendet wurden: Für den EKG-Algorithmus wurde dies nur vermerkt Bei der VUMC-Implementierung wurden über 1 Million EKG-Datensätze aus dem EHR verwendet. Für den SLE-Algorithmus wurden 185.838 Notizen von 4468 Patienten für die VUMC-Implementierung verarbeitet. und für den AD-Algorithmus wurden die Notizen, Labore und/oder Codes von 4094 Patienten für die Implementierung an einem anderen Standort überprüft.

Schließlich war die Zeit für die Entwicklung und Validierung (einschließlich Diagrammüberprüfung) durch Lead- und Validierungsstandorte erheblich länger als bei der anschließenden Implementierung durch andere Standorte; Konkret: 6 Monate oder mehr für die Entwicklung und Validierung, im Vergleich zu nur Wochen für die Implementierung. Die Entwicklung und Validierung von ECG dauerte beispielsweise 11 Monate, die Implementierung an den Standorten dauerte jedoch nur 1–3 Wochen. Außerdem berichteten Websites, dass 1–2 Server für die Ausführung der Algorithmen erforderlich seien, obwohl keine weiteren Details zur Serverkonfiguration angegeben wurden.

Abbildung 1 zeigt die drei Hauptthemen, die aus der qualitativen Analyse identifiziert wurden: Portabilität, Arbeitsablauf/Prozess der Phänotypisierung und Technologie. Das Technologiethema erwies sich als Modifikator für die anderen beiden Hauptthemen, da alle Technologien mit einem anderen Thema verbunden waren. Dieser Ansatz wurde in der Analyse- und Zusammenfassungsphase verwendet, um wiederkehrende Themen zu identifizieren, die stark mit einer oder mehreren Technologien verbunden sind. Jedes der Themen ist in Tabelle 3 zusammengefasst. Das vollständige Codebuch ist im ergänzenden Anhang B verfügbar.

Es gab drei sich überschneidende Themen (Portabilität, Phänotypisierungs-Workflow/-Prozess und (Verwendung von) Technologie). Für jedes Thema werden Unterthemen in Kästchen angezeigt, wobei weitere Unterthemen in jedem Kästchen als Aufzählungspunkte aufgeführt sind. Für jede Lektion, wenn a Technologie wurde als verwendet erwähnt, aber es gab kein Problem mit der Technologie selbst, der Einsatz von Technologie wurde lediglich vermerkt. NLP-Verarbeitung natürlicher Sprache, cTAKES-Textanalyse und Wissensextraktionssystem.

Es wurden einige gemeinsame Unterthemen identifiziert, darunter sowohl die Portabilität als auch die Verwendung verschiedener Technologien. Das Filtern von Daten war ebenfalls wichtig, sowohl für die richtige Auswahl des Algorithmus als auch für geeignete Filter, um die Datenmenge zu verringern und die Leistung der Software zu verbessern. Ein weiteres wichtiges Unterthema war der Bedarf an Humanressourcen, sowohl der Bedarf an Teammitgliedern mit speziellen Fähigkeiten, um bei der Portabilität der Technologie zu helfen, als auch der Bedarf an Teammitgliedern, die gut kommunizieren können.

Überlegungen zur Portabilität von Phänotypalgorithmen wurden in zwei Unterthemen unterteilt. Das erste Thema war die Portabilität des Algorithmus: wie der ML- und/oder NLP-Algorithmus an anderen Standorten als dem Hauptstandort funktionierte. Dies bestätigte etablierte Beobachtungen, dass die Leistung von Algorithmen je nach Phänotyp unterschiedlich sein kann. Beispielsweise wurden bei atopischer Dermatitis an einer (sekundären) Validierungsstelle viele der relevanten dermatologischen Aufzeichnungen auf Papier erfasst, deren Text jedoch nicht in ein auswertbares Format in die EHR umgewandelt wurde, sodass der EHR-basierte Algorithmus ein Problem hatte hohe Anzahl falsch negativer Ergebnisse.

Auch das Format, die Zusammensetzung und die Klassifizierung von Dokumenten an verschiedenen Standorten spielten eine Rolle bei der Portabilität des Algorithmus, einschließlich der Formate klinischer Notizen. Dies war ein Problem bei allen Arten der verwendeten Notizen, einschließlich EKG- und anderen Verfahrens- und Laborberichten sowie Notizen zu Begegnungen in der Praxis/Klinik/Besuch. Häufiger beschrieben Websites Herausforderungen bei der Identifizierung der richtigen Dokumente für die Verarbeitung mit NLP. Beispielsweise würde der Phänotypalgorithmus „Radiologienotizen“ erfordern, aber an jedem Implementierungsstandort war keine apriorische semantische Gruppierung verfügbar, um breite Kategorien von Notizen wie Bildgebung, Pathologie und Mikrobiologie zu identifizieren. Stattdessen mussten Websites lokale Dokumenttypen überprüfen und den im Algorithmus angegebenen Dokumenttypen zuordnen. Ähnliche Probleme traten bei den medizinischen Fachgebieten/Abteilungen auf, mit denen Notizen verknüpft waren, sowie bei den spezifischen Abschnitten innerhalb der Notizen. Um diese Probleme zu beheben, war häufig eine manuelle Überprüfung erforderlich. Ein unerwartetes Ergebnis war, dass sich die Einbeziehung von allgemeinem Aufklärungsmaterial für Patienten in klinische Notizen auch negativ auf die Leistung einiger Standorte auswirkte.

Schließlich erkannten die Websites an, dass bekannte Herausforderungen innerhalb von NLP und ML weiterhin bestehen. Die häufigste Herausforderung war die Negation: die Aufgabe, aus dem Kontext eines Begriffs oder einer Phrase zu schließen, wenn dieser nicht vorhanden oder wahr ist. Wir haben beobachtet, dass mehrere NLP-Komponenten Leistungseinbußen erleiden, weil die Module einige Negationsfälle nicht korrekt erfassen konnten, z. B. „Vorhofflimmern/-flattern ist nicht mehr vorhanden“ wurde fälschlicherweise als Fall identifiziert. Die genaue Erkennung von Negationen kann unabhängig von den verwendeten NLP-Technologien schwierig sein49. Zusätzlich zur Negation können der Sprachgebrauch und die Dokumentformatierung je nach Institution oder sogar zwischen den Fachgebieten derselben Institution variieren, was sich auf die NLP-Leistung auswirkt. Ein Beispiel war die Verwendung des Doppelpunkts als Trennzeichen im Text, der auf einigen Websites als Abschlusszeichen und auf anderen als Beginn einer Liste interpretiert wurde. Diagnostische Unsicherheit (wenn der Text darauf hinweist, dass die Diagnose unklar ist) und seltene Begriffe wurden ebenfalls als Probleme erwähnt, obwohl wir anmerken, dass es möglicherweise keine NLP-Lösungen gibt, um Ersteres zu lindern.

Das zweite identifizierte Unterthema bezüglich der Portabilität konzentrierte sich auf die Ausführung des Algorithmuscodes – insbesondere darauf, die NLP/ML-Software zum Laufen zu bringen. Obwohl NLP auf zwei Systeme (cTAKES und MetaMap) beschränkt war, war die Einrichtung und Ausführung dieser Systeme in verschiedenen Computerumgebungen (z. B. verschiedenen Betriebssystemen) mit Herausforderungen verbunden. Darüber hinaus gab es keine Einschränkungen hinsichtlich der Programmiersprachen, die für ML und regelbasierte Komponenten des gesamten Phänotypalgorithmus verwendet wurden. Die Websites stellten fest, dass bestimmte Programmiersprachen (z. B. Ruby) in den Institutionen nicht weit verbreitet waren. Für einige Institutionen bedeutete dies, dass die Sprache nicht unterstützt wurde und der Algorithmuscode daher nicht ausgeführt werden konnte. Für andere war die Sprache nicht die bevorzugte Sprache und es mussten lokale Experten gefunden werden, die bei der Ausführung behilflich waren. Dadurch kamen zwei zusätzliche Themen für den „Ressourcenbedarf“ ans Licht: dedizierte Serverumgebungen zum Ausführen von NLP/ML und spezialisiertes Personal – meist jemand mit Erfahrung im NLP.

Unabhängig davon, wie vertraut die Websites mit einem NLP-System oder einer Programmiersprache waren, mussten sie häufig den Algorithmuscode ändern, bevor er lokal ausgeführt werden konnte („Anpassung/Lokalisierung“). Diese Änderungen waren in der Regel geringfügig, z. B. die Änderung von Dateipfaden in den Code- und Dokumenteingabeformaten. Zu den weiteren Änderungen gehörten separate Vorverarbeitungsschritte für den klinischen Text – eine technische Lösung für allgemeine Probleme, die im Unterthema „Datenheterogenität zwischen Standorten“ aufgeführt sind.

Ein weiterer festgestellter Unterschied zwischen den Websites war die „Leistung (Geschwindigkeit)“, da sie sich sowohl auf die insgesamt verstrichene Zeit bis zur Ausführung von NLP/ML als auch auf die tatsächliche Ausführungszeit bezieht. Die Standorte stellten fest, dass die Datenvorbereitungsschritte in der Regel die arbeitsintensivsten waren und dass es zwischen den Standorten große Unterschiede in der benötigten Zeit gab. Die Ausführungszeit variierte je nach Rechenressourcen und Umfang der verfügbaren Textinformationen. Aufgrund der speicherintensiven Textverarbeitung stellte eine Website fest, dass die Ausführung eines NLP-Algorithmus, der als Jupyter-Notebook auf einem PC mit begrenzten Ressourcen bereitgestellt wurde, „> 2 Stunden“ dauerte. Als Reaktion darauf extrahierte die Website den Python-Code und stellte ihn direkt auf dem Server bereit erweiterter Arbeitsspeicher und Speicherplatz. Das Filtern von Notizen war ein vorherrschendes leistungsbezogenes Thema. Einige eingesetzte NLP-Algorithmen würden alle klinischen Notizen verarbeiten, was an einigen Standorten aufgrund der sehr großen Anzahl von Notizen an diesen Standorten, die zumindest an einem Standort selbst nach der Filterung über 1 Million Notizen betrugen, nicht möglich war. Um dieses Problem anzugehen, haben die Standorte Filter angewendet, indem sie entweder Patienten vorselektierten, für die Notizen verarbeitet werden sollten, oder indem sie die entsprechenden Arten klinischer Notizen einschränkten, die verarbeitet werden sollten. Die Vorauswahl/Filterung der Patienten war sehr umfassend, z. B. wurden alle Patienten ausgewählt, die einen Diagnosecode für den jeweiligen Phänotyp hatten oder mit diesem in Zusammenhang standen.

Die Websites stellten außerdem fest, dass die Verwendung mehrerer Technologien („heterogene Umgebungen“) die Portabilität beeinträchtigte. Wie bereits erwähnt, waren je nach Technologie lokale Spezialisten erforderlich. Das Finden und Koordinieren der Verfügbarkeit dieser Personen verlängerte an einigen Standorten die insgesamt verstrichene Implementierungszeit. Über mehrere Technologien hinweg oder manchmal sogar bei Verwendung derselben Technologie wurde der Algorithmus als disjunkte Skripte oder Programme implementiert („mangelnde Integration“). Die Standorte gaben an, dass sie jeden dieser Schritte separat ausführen müssten, was auch die Gesamtimplementierungszeit verlängerte.

Weitere Probleme im Zusammenhang mit der Softwareimplementierung wurden von den Standorten ebenfalls festgestellt, darunter das Fehlen von Randbedingungsprüfungen, die zum Absturz der Software führten. Dazu gehörten Dinge wie unerwartete Null-/Leer-/falschformatierte Eingaben. Dadurch kam es auch zu Verzögerungen bei der Implementierung, da Zeit für die Fehlersuche und -behebung benötigt wurde.

Websites berichteten, dass zusätzliche Maßnahmen ergriffen werden mussten, um die Privatsphäre der Patienten zu gewährleisten, da klinische Notizen häufig Patientenidentifikatoren enthalten. Ein Standort benötigte zusätzliche Genehmigungen für den Zugriff auf klinische Notizen zur Durchführung von NLP. Eine andere Website stellte fest, dass durch die lokale Ausführung des NLP und die Verteilung der endgültigen Ausgabe/Ergebnisse die Komplikationen umgangen wurden, die mit der Weitergabe vollständiger klinischer Notizen an den Autor des Algorithmus verbunden waren. Dadurch, dass nur die Ergebnisse geteilt wurden, konnten Websites und das Netzwerk nicht identifizierte Daten verwalten und gleichzeitig eine tiefergehende Suche in den EHRs jeder Institution ermöglichen.

Ein Mangel an Dokumentation betrifft sowohl die technischen als auch die algorithmischen Themen. Die Websites stellten fest, dass ausreichende Dokumentation und Anweisungen zur Ausführung des Phänotypalgorithmus nicht immer verfügbar waren. Darüber hinaus erschwerte eine unzureichende Dokumentation der beabsichtigten Funktion eines Algorithmus oder der genauen erforderlichen Eingaben die Implementierung. Für Letzteres mussten Websites manchmal den Code selbst lesen, dem es außerdem an ausreichender Dokumentation und/oder Kommentaren mangelte.

Während des Implementierungsprozesses stellten die Standorte fest, dass es aufgrund von Kommunikationsproblemen zu Verzögerungen kam. Beispielsweise würde ein Mangel an Dokumentation dazu führen, dass eine Website weitere Informationen anfordert. Während eine Site auf eine Antwort wartete, musste sie möglicherweise den Fokus vom Phänotypalgorithmus auf ein anderes Projekt verlagern, was zu einer weiteren Verzögerung führte, bevor die Site den Fokus wieder verlagern konnte.

Eine Website stellte Verzögerungen bei der Umsetzung und Verbreitung aufgrund von Bedenken hinsichtlich des geistigen Eigentums (IP) an ihrer Institution fest. Da NLP und ML typischerweise erhebliche Investitionen in Ressourcen erfordern, wurde ein intern entwickeltes System an diesem Standort als geschütztes geistiges Eigentum betrachtet. Die Site arbeitete daran, eine Version des NLP-Algorithmus zu entwickeln, die von allen Sites gemeinsam genutzt werden konnte. Der erhebliche Zeitaufwand für die Durchführung der Prüfung und die Sicherstellung der Genehmigungen verzögerte den Gesamtzeitplan für die Implementierung.

Eine Anpassung des Phänotypisierungsprozesses umfasste auch das Portieren/Neuschreiben von Code, der zwei Formen annahm. Die erste war spezifisch für diese Studie und beruhte auf der Entscheidung des Netzwerks, die verwendeten NLP-Pipelines zu begrenzen. Eine Site verfügte bereits über eine NLP-Pipeline, die nicht zu den ausgewählten gehörte. Daher musste die Website den NLP-Algorithmus auf cTAKES portieren. In der portierten Version des Algorithmus wurden Probleme festgestellt, die behoben werden mussten. Die zweite Form der Portierung wurde durch standortspezifische Bedürfnisse, Anforderungen oder Präferenzen gesteuert, um den bereitgestellten Algorithmus umzugestalten oder neu zu schreiben. Beispielsweise hat eine Site eine Ruby-RegEx-Implementierung in Python neu geschrieben.

Insgesamt erkannte das Netzwerk die Notwendigkeit eines neuen Phänotypisierungs-Workflows und schlug ihn vor, um die Entwicklung zu steuern und den Validierungsprozess zu verbessern (Abb. 2), insbesondere für, aber nicht beschränkt auf NLP/ML-Algorithmen. Im bereits bestehenden Arbeitsablauf23 begann die Validierung von Algorithmen an sekundären Standorten erst, nachdem ein führender (primärer) Standort einen Algorithmus entwickelt und anschließend validiert hat. Daher besteht die erste Verbesserung des Arbeitsablaufs in der Entwicklung eines Algorithmus am Hauptstandort, der parallel zur Erstellung einer „Goldstandard“-Validierungskohorte durch Überprüfung der Krankenakten sowohl am Hauptstandort als auch am (sekundären) Validierungsstandort durchgeführt wird, insbesondere für NLP/ ML-Algorithmen, die Trainingssätze benötigen, um den Algorithmus zu entwickeln. Dies erfordert die Überprüfung der EHR zu Beginn des Arbeitsablaufs auf eine definierte Kohorte, aus der die Trainings- und Validierungssätze der Patienten ausgewählt werden. Beispielsweise könnte ein Screening mindestens einen Code der Internationalen Klassifikation von Krankheiten (ICD)-9/ICD-10 für diesen Phänotyp als hochempfindlichen Filter umfassen. Folglich ermöglicht die Auswahl einer Zufallsstichprobe aus einer Population, die für diesen Phänotyp angereichert ist, eine angemessene Prävalenz, normalerweise im Bereich von 20–80 %. Aus diesem Prozess kann jeder Standort eine Zufallsstichprobe von vielleicht 100–200 Patienten auswählen, die Ärzte als positive oder negative Fälle oder unbestimmt klassifizieren, mit dem Ziel von mindestens 50 bestätigten Fällen in jedem Goldstandard-Datensatz. Der im Primärdatensatz entwickelte Algorithmus kann im Sekundärdatensatz getestet werden; Daher kann der Algorithmus bei schlechten Leistungsmetriken überarbeitet und in den Datensätzen beider Standorte getestet werden, ohne dass eine zusätzliche Überprüfung der Krankenakten erforderlich ist. Dadurch werden die Lead-Sites (Phänotyp-Erstellungs-Sites) einem geringeren inhärenten Druck ausgesetzt sein, einen „perfekten“ Algorithmus als Voraussetzung für die Freigabe an (sekundäre) Validierungs-Sites zu erstellen, was den Algorithmusentwicklungsprozess beschleunigt.

Flussdiagramm des vorgeschlagenen Arbeitsablaufs für die Entwicklung, Validierung und Implementierung tragbarer berechenbarer Phänotypalgorithmen in eMERGE. Der vorgeschlagene Arbeitsablauf wurde an einen zuvor veröffentlichten Arbeitsablauf von Newton et al. angepasst. im Namen von eMERGE23.

Wir nutzten die einzigartigen Ressourcen des eMERGE-Netzwerks, um die Vorteile und Herausforderungen der Integration von NLP in tragbare Computerphänotypen zu bewerten. Zu den Vorteilen von NLP gehören: Verbesserung der Sensitivität (SLE und ACO) zur Identifizierung von mehr Fällen einer selteneren Erkrankung; erhöhte Präzision (CRS), ein wichtiger Gesichtspunkt bei häufiger auftretenden Erkrankungen; und ermöglicht eine umfassende Phänotypisierung, beispielsweise das Extrahieren von Subphänotypen aus EKG-Notizen. Im Allgemeinen wurde die Algorithmusleistung sowohl an Lead- als auch an Validierungsstandorten durch die Hinzufügung von portablem NLP verbessert. In ähnlicher Weise fügte eine Implementierung eines tragbaren und berechenbaren Phänotypisierungsalgorithmus zur Identifizierung von Patienten für die Rekrutierung von klinischen Studien NLP zu ihrem Algorithmus hinzu und verbesserte so die Erinnerung und Präzision des Algorithmus26.

Die NLP-Leistung kann aufgrund der Heterogenität der Namen klinischer Dokumente und der Grundstruktur klinischer Notizen von Standort zu Standort unterschiedlich sein. Im Idealfall könnte die Implementierung standardisierter Terminologie (z. B. LOINC Document Ontology) auf allen Websites explizite Eingabebeschreibungen bereitstellen und Inkonsistenzen reduzieren18. Allerdings ist die Umsetzung dieser Standardterminologien aufgrund des Fehlens klarer Auswahlkriterien derzeit nicht praktikabel. Der Gesamtprozess kann kostspielig, zeitaufwändig und schwierig zu ändern sein, wenn nicht genügend Beweise für die Auswahl verfügbar sind. Selbst wenn alle Standorte die gleiche Terminologie und CDM für die klinischen Notizen verwenden, können die Notizen in ihren lokalen Vorlagen, Dokumentationsmustern, Dokumentqualität (z. B. Rechtschreibfehlern und Tippfehlern), der Gesamtqualität der EHR-Daten und den Untersprachen variieren. Die Portabilität ist immer noch eine Herausforderung16,26. Daher schlagen wir vor, mit halbstrukturierten klinischen Notizen (z. B. Problem-/Medikamentenlisten) zu beginnen: Aktuelle Studien haben beispielsweise die Vorteile der Verwendung von Allergielisten für klinische Studien gezeigt50,51.

Insbesondere bleibt die Generalisierbarkeit von Negationsmodulen eine offene NLP-Herausforderung und steht im Einklang mit anderen Berichten49,52. Möglicherweise ist eine lokale Anpassung der Negation erforderlich, z. B. das Hinzufügen von Korrekturregeln zum Code für die Negation der Sprache. Darüber hinaus waren Fehler im Softwarecode eine weitere potenzielle Ursache für unterschiedliche Algorithmusleistungen zwischen den Standorten. Der Einsatz formeller kollaborativer Versionskontrollsysteme (wie GitHub) sollte Vorrang vor anderen weniger effektiven Mitteln wie der E-Mail-Verteilung von Code und Dokumentation haben. Aus diesem und anderen bereits genannten Gründen kann die Portabilität weiter verbessert werden, indem von Institutionen verlangt wird, Entwicklungsprozesse zu verbessern, eine umfassende Dokumentation bereitzustellen und Anpassungsoptionen bereitzustellen.

Beim erfolgreichen Teilen und Implementieren eines berechenbaren Phänotyps mithilfe von NLP geht es nicht nur um die NLP-Technologie oder den Algorithmus selbst. Weitere kritische Faktoren sind der Schutz der Privatsphäre, der Aufbau der technischen Infrastruktur, die Vereinbarung über geistiges Eigentum und eine effiziente Kommunikation. Da klinische Notizen beispielsweise nicht immer anonymisiert werden können, können Standorte möglicherweise keine Beispielnotizen austauschen, was zu Schwierigkeiten bei der standortübergreifenden Validierung führt. Jüngste Fortschritte im Privacy-Protective Generative Adversarial Network können gefälschte Textdaten mit beibehaltener Strukturähnlichkeit erzeugen, die für die Entwicklung und Validierung von NLP-Algorithmen verwendet werden können53. Es wurden auch föderierte Lernansätze entwickelt, um die Privatsphäre zu schützen, ohne dass klinischer Text transportiert werden muss54. Es hat sich gezeigt, dass in Notizen eingebettete Formatierungsinformationen (z. B. Rich Text Format [RTF]) die Phänotypisierungsergebnisse verbessern55; Allerdings wird die standortübergreifende Nutzung von Formatinformationen im gesamten eMERGE-Netzwerk uneinheitlich genutzt. Infrastrukturherausforderungen können durch Cloud Computing gemildert werden, bei dem Algorithmen und Datenabläufe vorgefertigt und von Forschern mit geringer Schulung verwendet werden können55,56; Allerdings ist es für Institutionen möglicherweise nicht angenehm, geschützte Gesundheitsinformationen (PHI) in einer gemeinsam nutzbaren Cloud abzulegen. Obwohl in dieser Arbeit nicht explizit getestet, glauben wir auch, dass eine Volltextindizierung aller klinischen Notizen zu Beginn die Ausführungszeit beschleunigen und den Infrastrukturbedarf reduzieren würde, indem die Notizen, die mit einem regelbasierten NLP-System verarbeitet werden sollen, eingegrenzt werden.

Schließlich ist eine effiziente und effektive Kommunikation zwischen den Standorten von entscheidender Bedeutung. Unser traditioneller Ansatz (dh Kommunikation über Kommentare auf PheKB.org) ist möglicherweise für eine zeitnahe, iterative, bidirektionale Kommunikation ungeeignet. Darüber hinaus ist, wie auch andere angemerkt haben, die Zusammenarbeit zwischen den Standorten und auch zwischen den verschiedenen Arten von Experten (z. B. Klinikern, Informatikern usw.) von entscheidender Bedeutung23,27,29. Darüber hinaus würde die Entwicklung einer „Einfachheitsmetrik“ zur Charakterisierung von Phänotypisierungsalgorithmen es Forschern ermöglichen, die für die Implementierung erforderlichen Fähigkeiten einfacher zu bestimmen. Beispielsweise könnten die vom Algorithmus benötigten Datentypen nach der Einfachheit der Extraktion aus der EHR geordnet werden.

Diese Studie unterliegt einigen Einschränkungen. Erstens überstieg der Vergleich der Leistung mit anderen NLP-Pipelines als MetaMap oder cTAKES, wie z. B. CLAMP, unsere Ressourcen und unseren Zeitrahmen. Unser Ansatz bei der Auswahl der NLP-Plattform basierte auf denen, mit denen wir die meiste Erfahrung hatten, was nicht unbedingt auf den Stärken oder Fähigkeiten der Plattform selbst basiert. Der Vorteil unseres Ansatzes besteht zwar darin, dass die Ergebnisse wahrscheinlich besser auf Organisationen anwendbar sind, die eine NLP-verstärkte Phänotypisierung implementieren möchten, manchmal durch Kliniker mit minimaler NLP-Schulung; Der Nachteil besteht darin, dass die Verwendung der aktuellsten NLP-Ansätze ausgeschlossen war, was sich auf die Ergebnisse auswirken könnte. Möglicherweise ist eine separate Studie erforderlich, um die Leistung anderer Pipelines zu bewerten. Darüber hinaus konnten wir nicht beurteilen, wie portables NLP bei seltenen Phänotypen funktioniert: Obwohl wir beabsichtigten, Patienten mit Brugada-Syndrom anhand von EKG-Berichten zu identifizieren, fanden wir nicht genügend Fälle für eine Auswertung. Wie bereits erwähnt, wurden die Websites im letzten Quartal des einjährigen Pilotprojekts nur gebeten, ihre Erfahrungen qualitativ zu bewerten und über die Leistungsstatistik hinaus quantitative Daten zu sammeln. Daher mussten sich Websites zumindest teilweise auf ihre Erinnerungen verlassen, was zum Verlust einiger Details führte. Da beispielsweise viel Zeit vergangen war, konnten wir die aufgewendeten Stunden leider nicht genau einschätzen; Allerdings hielten wir es für wichtiger, die verstrichene Zeit in Echtzeit zu melden, da festgestellt wurde, dass es zusätzlich komplex ist, auf die Verfügbarkeit von Teammitgliedern an mehreren Standorten warten zu müssen. Darüber hinaus wurde keine formelle, standardisierte Messung von Zeit und Aufwand verwendet, was dazu führte, dass man sich auf Schätzungen verließ Dies könnte auch zu inkonsistenten Berichten und Ungenauigkeiten führen. Schließlich war die Anzahl der überprüften Diagramme für einige der Phänotypen gering, und für mindestens einen Phänotyp überprüfte nur eine Person das Diagramm.

Zusammenfassend lässt sich sagen, dass die Einbindung von NLP und ML in EHR-Phänotypisierungsalgorithmen die Phänotypisierungsleistung verbessern und eine tiefgreifende Phänotypisierung ermöglichen kann. Während die Anwendung von NLP an mehreren Standorten zwar mehrere Herausforderungen mit sich bringt, ist es darüber hinaus möglich, Phänotypalgorithmen mit NLP/ML-Komponenten mit reproduzierbarer Leistung zu entwickeln und zu implementieren. Schließlich erfordert NLP engagiertes Personal, das sich mit EHR-Phänotypisierung und NLP auskennt und gut kommunizieren kann. Angesichts des Werts der Bewertung der Portabilität von Phänotypalgorithmen mit NLP/ML mit gemischten Methoden empfehlen wir deren Verwendung in Studien dieser Art. Während tragbare und replizierbare Phänotypdefinitionen und -algorithmen möglich sind, wird in absehbarer Zukunft voraussichtlich eine sorgfältige Planung und Architektur der Algorithmen erforderlich sein, die lokale Anpassungen unterstützen.

Die für diese Arbeit verwendeten Daten stammten aus elektronischen Gesundheitsakten, die identifizierbare Daten enthalten und daher gemäß der HIPAA-Datenschutzrichtlinie nicht weitergegeben werden dürfen. Der Code ist auf PheKB.org unter der Seite für jeden Phänotyp verfügbar und Umfragedaten können deidentifiziert werden und sind auf Anfrage erhältlich, indem Sie sich an die entsprechende Autorin, Jennifer A. Pacheco, wenden.

Liao, KP et al. Entwicklung von Phänotypalgorithmen unter Verwendung elektronischer Krankenakten und unter Einbeziehung der Verarbeitung natürlicher Sprache. BMJ 350, h1885. https://doi.org/10.1136/bmj.h1885 (2015).

Artikel Google Scholar

Velupillai, S. et al. Verwendung der klinischen Verarbeitung natürlicher Sprache für die Forschung zu Gesundheitsergebnissen: Überblick und umsetzbare Vorschläge für zukünftige Fortschritte. J. Biomed. Informieren. 88, 11–19. https://doi.org/10.1016/j.jbi.2018.10.005 (2018).

Artikel Google Scholar

Yu, S. et al. Auf dem Weg zur Hochdurchsatz-Phänotypisierung: Unvoreingenommene automatisierte Merkmalsextraktion und -auswahl aus Wissensquellen. Marmelade. Med. Informieren. Assoc. 22, 993–1000. https://doi.org/10.1093/jamia/ocv034 (2015).

Artikel Google Scholar

Rajkomar, A., Dean, J. & Kohane, I. Maschinelles Lernen in der Medizin. N. engl. J. Med. 380, 1347–1358. https://doi.org/10.1056/NEJMra1814259 (2019).

Artikel Google Scholar

Luo, Y., Uzuner, Ö. & Szolovits, P. Überbrückung von Semantik und Syntax mit Graphalgorithmen – Stand der Technik bei der Extraktion biomedizinischer Beziehungen. Kurzes Bioinform. 18, 160–178. https://doi.org/10.1093/bib/bbw001 (2017).

Artikel Google Scholar

Miller, TA, Avillach, P. & Mandl, KD Erfahrungen mit der Implementierung von skalierbarem, containerisiertem, cloudbasiertem NLP zur Extraktion von Phänotypen von Biobank-Teilnehmern in großem Maßstab. JAMIA Open 3, 185–189. https://doi.org/10.1093/jamiaopen/ooaa016 (2020).

Artikel Google Scholar

Zeng, Z. et al. Verarbeitung natürlicher Sprache für die EHR-basierte computergestützte Phänotypisierung. IEEE/ACM-Trans. Berechnen. Biol. Bioinform. 16, 139–153. https://doi.org/10.1109/TCBB.2018.2849968 (2019).

Artikel ADS Google Scholar

Sohn, JH et al. Eine umfassende Phänotypisierung in elektronischen Gesundheitsakten erleichtert die genetische Diagnose anhand klinischer Exome. Bin. J. Hum. Genet. 103, 58–73. https://doi.org/10.1016/j.ajhg.2018.05.010 (2018).

Artikel CAS Google Scholar

Friedman C. Auf dem Weg zu einem umfassenden medizinischen Sprachverarbeitungssystem: Methoden und Probleme. Proc Conf Am Med Inform Assoc AMIA Fall Symp 595–9 (1997).

Soysal, E. et al. CLAMP – Ein Toolkit zum effizienten Aufbau maßgeschneiderter klinischer Verarbeitungspipelines für natürliche Sprache. Marmelade. Med. Informieren. Assoc. JAMIA 25, 331–336. https://doi.org/10.1093/jamia/ocx132 (2018).

Artikel Google Scholar

Savova, GK et al. Mayo Clinical Text Analysis and Knowledge Extraction System (cTAKES): Architektur, Komponentenbewertung und Anwendungen. Marmelade. Med. Informieren. Assoc. JAMIA 17, 507–513. https://doi.org/10.1136/jamia.2009.001560 (2010).

Artikel Google Scholar

Aronson AR. Effektive Zuordnung von biomedizinischem Text zum UMLS-Metathesaurus: Das MetaMap-Programm. Proc AMIA Symp 17–21 (2001).

Aronson, AR & Lang, F.-M. Ein Überblick über MetaMap: Historische Perspektive und jüngste Fortschritte. Marmelade. Med. Informieren. Assoc. JAMIA 17, 229–236. https://doi.org/10.1136/jamia.2009.002733 (2010).

Artikel Google Scholar

Banda, JM et al. Fortschritte in der elektronischen Phänotypisierung: Von regelbasierten Definitionen bis hin zu Modellen für maschinelles Lernen. Annu. Rev. Biomed. Datenwissenschaft. 1, 53–68. https://doi.org/10.1146/annurev-biodatasci-080917-013315 (2018).

Artikel Google Scholar

Carrell, DS et al. Herausforderungen bei der Anpassung bestehender klinischer Systeme zur Verarbeitung natürlicher Sprache an mehrere, unterschiedliche Gesundheitsumgebungen. Marmelade. Med. Informieren. Assoc. JAMIA 24, 986–991. https://doi.org/10.1093/jamia/ocx039 (2017).

Artikel Google Scholar

Sohn, S. et al. Variationen der klinischen Dokumentation und Portabilität des NLP-Systems: Eine Fallstudie in Kohorten von Asthma-Geburten in verschiedenen Institutionen. Marmelade. Med. Informieren. Assoc. JAMIA 25, 353–359. https://doi.org/10.1093/jamia/ocx138 (2018).

Artikel Google Scholar

Adekkanattu, P. et al. Bewertung der Portabilität eines NLP-Systems zur Verarbeitung von Echokardiogrammen: Eine retrospektive Beobachtungsstudie an mehreren Standorten. AMIA Annu. Symp. Proz. 2019, 190–199 (2020).

Google Scholar

Hong, N. et al. Entwicklung eines FHIR-basierten EHR-Phänotypisierungsrahmens: Eine Fallstudie zur Identifizierung von Patienten mit Fettleibigkeit und mehreren Komorbiditäten anhand von Entlassungszusammenfassungen. J. Biomed. Informieren. 99, 103310. https://doi.org/10.1016/j.jbi.2019.103310 (2019).

Artikel Google Scholar

Liu, C. et al. Ensembles von Systemen zur Verarbeitung natürlicher Sprache für tragbare Phänotypisierungslösungen. J. Biomed. Informieren. 100, 103318. https://doi.org/10.1016/j.jbi.2019.103318 (2019).

Artikel Google Scholar

Hong, N. et al. Entwicklung einer skalierbaren FHIR-basierten Pipeline zur Normalisierung klinischer Daten zur Standardisierung und Integration unstrukturierter und strukturierter elektronischer Gesundheitsaktendaten. JAMIA Open 2, 570–579. https://doi.org/10.1093/jamiaopen/ooz056 (2019).

Artikel Google Scholar

Sharma, H. et al. Entwicklung eines tragbaren, auf der Verarbeitung natürlicher Sprache basierenden Phänotypisierungssystems. BMC Med. Informieren. Entscheidung. Mak. 19, 78. https://doi.org/10.1186/s12911-019-0786-z (2019).

Artikel Google Scholar

Ryan, GW & Bernard, HR-Techniken zur Identifizierung von Themen. Feldmethoden 15, 85–109. https://doi.org/10.1177/1525822X02239569 (2003).

Artikel Google Scholar

Newton, KM et al. Validierung elektronischer Krankenakten-basierter Phänotypisierungsalgorithmen: Ergebnisse und Lehren aus dem eMERGE-Netzwerk. Marmelade. Med. Informieren. Assoc. JAMIA 20, e147-154. https://doi.org/10.1136/amiajnl-2012-000896 (2013).

Artikel Google Scholar

Kho, AN et al. Elektronische Krankenakten für die Genforschung: Ergebnisse des eMERGE-Konsortiums. Wissenschaft. Übers. Med. https://doi.org/10.1126/scitranslmed.3001807 (2011).

Artikel Google Scholar

Gottesman, O. et al. Das Electronic Medical Records and Genomics (eMERGE)-Netzwerk: Vergangenheit, Gegenwart und Zukunft. Genet. Med. Aus. Marmelade. Slg. Med. Genet. 15, 761–771. https://doi.org/10.1038/gim.2013.72 (2013).

Artikel Google Scholar

Ahmed, A. et al. Entwicklung und Validierung eines elektronischen Überwachungstools für akute Nierenschäden: Eine retrospektive Analyse. J. Krit. Pflege 30, 988–993. https://doi.org/10.1016/j.jcrc.2015.05.007 (2015).

Artikel Google Scholar

Kirby, JC et al. PheKB: Ein Katalog und Workflow zur Erstellung elektronischer Phänotypalgorithmen für die Transportfähigkeit. Marmelade. Med. Informieren. Assoc. JAMIA 23, 1046–1052. https://doi.org/10.1093/jamia/ocv202 (2016).

Artikel Google Scholar

Shang, N. et al. Arbeit für die Implementierung elektronischer Phänotypen sichtbar machen: Erkenntnisse aus dem eMERGE-Netzwerk. J. Biomed. Informieren. 99, 103293. https://doi.org/10.1016/j.jbi.2019.103293 (2019).

Artikel Google Scholar

Ahmad, FS et al. Berechnete Phänotypimplementierung für eine nationale, multizentrische pragmatische klinische Studie: Lehren aus ADAPTABLE. Zirkel. Herz-Kreislauf. Qual. Ergebnisse 13, e006292. https://doi.org/10.1161/CIRCOUTCOMES.119.006292 (2020).

Artikel Google Scholar

Nadkarni, GN et al. Entwicklung und Validierung eines elektronischen Phänotypisierungsalgorithmus für chronische Nierenerkrankungen. AMIA Annu. Symp. Proz. AMIA Symp. 2014, 907–916 (2014).

Google Scholar

Pacheco, JA et al. Eine Fallstudie zur Bewertung der Portabilität eines ausführbaren, berechenbaren Phänotyp-Algorithmus über mehrere Institutionen und Umgebungen für elektronische Patientenakten hinweg. Marmelade. Med. Informieren. Assoc. JAMIA 25, 1540–1546. https://doi.org/10.1093/jamia/ocy101 (2018).

Artikel Google Scholar

Jackson, KL et al. Leistung eines auf elektronischen Gesundheitsakten basierenden Phänotypalgorithmus zur Identifizierung von gemeinschaftsassoziierten Methicillin-resistenten Staphylococcus aureus-Fällen und Kontrollen für genetische Assoziationsstudien. BMC-Infektion. Dis. 16, 684. https://doi.org/10.1186/s12879-016-2020-2 (2016).

Artikel CAS Google Scholar

Hsu, J., Pacheco, JA, Stevens, WW, Smith, ME & Avila, PC Genauigkeit der Phänotypisierung chronischer Rhinosinusitis in der elektronischen Gesundheitsakte. Bin. J. Rhinol. Allergy 28(2), 140–144 (2014).

Artikel Google Scholar

Denny, JC et al. Identifizierung genomischer Prädiktoren der atrioventrikulären Überleitung: Verwendung elektronischer Krankenakten als Werkzeug für die Genomwissenschaft. Auflage 122(20), 2016–2021 (2010).

Artikel Google Scholar

Walunas, TL et al. Auswertung strukturierter Daten aus elektronischen Gesundheitsakten zur Identifizierung klinischer Klassifizierungskriterien für systemischen Lupus erythematodes. Lupus Sci. Med. 8(1), e000488 (2021).

Artikel Google Scholar

Chu, SH et al. Ein unabhängig validierter, tragbarer Algorithmus zur schnellen Identifizierung von COPD-Patienten mithilfe elektronischer Gesundheitsakten. Wissenschaft. Rep. https://doi.org/10.1038/s41598-021-98719-w (2021).

Artikel Google Scholar

Safarova, MS, Liu, H. & Kullo, IJ Schnelle Identifizierung familiärer Hypercholesterinämie anhand elektronischer Gesundheitsakten: Die SEARCH-Studie. J. Clin. Lipidol. 10(5), 1230–1239 (2016).

Artikel Google Scholar

Gustafson, E., Pacheco, J., Wehbe, F., Silverberg, J. & Thompson, W. Ein maschineller Lernalgorithmus zur Identifizierung von atopischer Dermatitis bei Erwachsenen anhand elektronischer Gesundheitsakten. Im Jahr 2017 IEEE International Conference on Healthcare Informatics (ICHI) (Hrsg. Gustafson, E. et al.) 83–90 (IEEE, 2017).

Kapitel Google Scholar

Kullo, IJ et al. Nutzung der Informatik für genetische Studien: Nutzung der elektronischen Krankenakte, um eine genomweite Assoziationsstudie peripherer arterieller Erkrankungen zu ermöglichen. Marmelade. Med. Informieren. Assoc. 17, 568–574 (2010).

Artikel Google Scholar

Savova, GK et al. Entdecken von Fällen peripherer arterieller Erkrankungen aus radiologischen Notizen mithilfe der Verarbeitung natürlicher Sprache. AMIA Annu. Symp. Proz. 2010, 722–726 (2010).

Google Scholar

Sohn, S., Ye, Z., Liu, H., Chute, CG & Kullo, IJ Identifizierung von Fällen und Kontrollen von Bauchaortenaneurysmen mithilfe der Verarbeitung radiologischer Berichte in der Landessprache. AMIA Summits Transl. Wissenschaft. Proz. 2013, 249–253 (2013).

Google Scholar

Khaleghi, M., Isseh, IN, Jouni, H., Sohn, S., Bailey, KR, Kullo, IJ Familiengeschichte als Risikofaktor für eine Karotisstenose. Stroke, 45(8), 2252–6 (2014). Erratum in: Stroke, 45(9), e198 (2014).

Lingren, T. et al. Auf elektronischen Gesundheitsakten basierender Algorithmus zur Identifizierung von Patienten mit Autismus-Spektrum-Störung. PLoS One 11(7), e0159621 (2016).

Artikel Google Scholar

Lingren, T. et al. Entwicklung eines Algorithmus zur Erkennung von Fettleibigkeit im frühen Kindesalter in zwei tertiären pädiatrischen medizinischen Zentren. Appl. Klin. Informieren. 7(3), 693–706 (2016).

Artikel Google Scholar

Koleck, TA, Dreisbach, C., Bourne, PE & Bakken, S. Natürliche Sprachverarbeitung von Symptomen, dokumentiert in Freitexterzählungen elektronischer Gesundheitsakten: Eine systematische Überprüfung. Marmelade. Med. Informieren. Assoc. 26(4), 364–379 (2019).

Artikel Google Scholar

Chapman, WW et al. Ein einfacher Algorithmus zur Identifizierung negierter Befunde und Krankheiten in Entlassungsberichten. J. Biomed. Informieren. 34, 301–310. https://doi.org/10.1006/jbin.2001.1029 (2001).

Artikel CAS Google Scholar

Harkema, H. et al. ConText: Ein Algorithmus zur Bestimmung des Negations-, Erlebens- und Zeitstatus aus klinischen Berichten. J. Biomed. Informieren. 42, 839–851. https://doi.org/10.1016/j.jbi.2009.05.002 (2009).

Artikel Google Scholar

Strauss, A. & Corbin, J. Methodik der Grounded Theory: Ein Überblick. In (Hrsg. Denzin, NK & Lincoln, YS) Handbook of Qualitative Research. 273–285 (Thousand Oaks, CA: SAGE; 1994).

Google Scholar

Wu, S. et al. Die Negation ist nicht gelöst: Generalisierbarkeit versus Optimierbarkeit in der klinischen Verarbeitung natürlicher Sprache. PLoS One https://doi.org/10.1371/journal.pone.0112774 (2014).

Artikel Google Scholar

Wu, P. et al. DDIWAS: Elektronisches Hochdurchsatz-Screening von Arzneimittelinteraktionen auf Basis elektronischer Gesundheitsakten. Marmelade. Med. Informieren. Assoc. 28, 1421–1430. https://doi.org/10.1093/jamia/ocab019 (2021).

Artikel Google Scholar

Zheng, NS et al. Hochdurchsatz-Framework für genetische Analysen unerwünschter Arzneimittelwirkungen mithilfe elektronischer Gesundheitsakten. PLoS Genet. 17, e1009593. https://doi.org/10.1371/journal.pgen.1009593 (2021).

Artikel CAS Google Scholar

Mehrabi, S. et al. DEEPEN: Ein Negationserkennungssystem für klinischen Text, das Abhängigkeitsbeziehungen in NegEx integriert. J. Biomed. Informieren. 54, 213–219. https://doi.org/10.1016/j.jbi.2015.02.010 (2015).

Artikel Google Scholar

Liu, Y., Peng, J., Yu, JJQ et al. PPGAN: Datenschutzerhaltendes generatives gegnerisches Netzwerk. Im Jahr 2019 IEEE 25th Int Conf Parallel Distrib Syst ICPADS 985–9 https://doi.org/10.1109/ICPADS47876.2019.00150 (2019).

Sui, D., Chen, Y., Zhao, J., Jia, Y., Xie, Y., Sun, W. FedED: Föderiertes Lernen durch Ensemble-Destillation zur Extraktion medizinischer Beziehungen. Im Proc der 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP) 2118–2128 (Association for Computational Linguistics, 2020).

Zeng, Z. et al. Rich-Text-formatierte EHR-Erzählungen: Eine verborgene und ignorierte Fundgrube. Zucht. Gesundheitstechnologie. Informieren. 264, 472–476. https://doi.org/10.3233/SHTI190266 (2019).

Artikel Google Scholar

Terra. https://app.terra.bio/ (Zugriff am 23. September 2021).

Referenzen herunterladen

Diese Arbeiten wurden hauptsächlich im Rahmen der Phase III des eMERGE-Netzwerks durchgeführt, und zusätzliche Arbeiten wurden in der aktuellen Phase des eMERGE-Netzwerks abgeschlossen; Daher würdigen und danken wir unseren eMERGE-Kollegen in beiden Phasen, insbesondere denen, die Teil der eMERGE-Phänotypisierungs-Arbeitsgruppe waren/sind. Wir bedanken uns auch für die Unterstützung unserer Förderagenturen, die unten im Abschnitt „Förderung“ aufgeführt sind.

Diese Arbeit wurde hauptsächlich im Rahmen der Phase III des eMERGE-Netzwerks durchgeführt, das vom NHGRI durch die folgenden Zuschüsse initiiert und finanziert wurde: U01HG008657 (Group Health Cooperative/University of Washington); U01HG008685 (Brigham and Women's Hospital); U01HG008672 (Vanderbilt University Medical Center); U01HG008666 (Cincinnati Children's Hospital Medical Center); U01HG006379 (Mayo Clinic); U01HG008679 (Geisinger Klinik); U01HG008680 (Gesundheitswissenschaften der Columbia University); U01HG008684 (Kinderkrankenhaus von Philadelphia); U01HG008673 (Northwestern University); U01HG008701 (Vanderbilt University Medical Center fungiert als Koordinierungszentrum); U01HG008676 (Partner Healthcare/Broad Institute); U01HG008664 (Baylor College of Medicine); und U54MD007593 (Meharry Medical College). Zusätzliche Arbeiten wurden in der aktuellen Phase des eMERGE-Netzwerks abgeschlossen, das vom NHGRI durch die folgenden Zuschüsse initiiert und finanziert wurde: U01HG011172 (Cincinnati Children's Hospital Medical Center); U01HG011175 (Kinderkrankenhaus von Philadelphia); U01HG008680 (Columbia University); U01HG008685 (Mass General Brigham); U01HG006379 (Mayo Clinic); U01HG011169 (Northwestern University); U01HG008657 (Universität Washington); U01HG011181 (Vanderbilt University Medical Center); U01HG011166 (Vanderbilt University Medical Center fungiert als Koordinierungszentrum). Die Entwicklung des systemischen Lupus erythematodes-Phänotyps wurde teilweise auch vom National Institute of Arthritis and Musculoskeletal Disease finanziert, Zuschuss 5R21AR072262.

Diese Autoren haben gleichermaßen beigetragen: Chunhua Weng und WeiQi Wei.

Northwestern University, Evanston, USA

Jennifer A. Pacheco, Luke V. Rasmussen, Garrett Eickelberg, Al'ona Furmanchuk, Yu Deng, Yikuan Li, Theresa L. Walunas und Yuan Luo

Nationales Humangenomforschungsinstitut, Bethesda, USA

Ken Wiley Jr. & Valerie Willis

Pennsylvania State University, Hershey, USA

Thomas Nate Person

Kaiser Permanente Washington Health Research Institute, Seattle, USA

David J. Cronkite und David S. Carrell

Mayo Clinic, Rochester, USA

Sunghwan Sohn, Justin H. Gundelach, Benjamin A. Satterfield, Iftikhar J. Kullo und Ozan Dikilitas

Massachusetts General Hospital, Boston, USA

Shawn Murphy

Mass General Brigham, Somerville, USA

Vivian Gainer & Victor M. Castro

Columbia University, New York, USA

Cong Liu, Ning Shang, Krzysztof Kiryluk und Chunhua Weng

Kinderkrankenhaus von Philadelphia, Philadelphia, USA

Frank Mentch

Cincinnati Children's Hospital Medical Center, Cincinnati, USA

Todd Lingren & Yizhao Ni

Geisinger, Danville, USA

Agnes S. Sundaresan, Roshan Patel und Marc S. Williams

Intermountain Healthcare, Salt Lake City, USA

Nephi Walton

Vanderbilt University Medical Center, Nashville, USA

Joshua C. Smith, Josh F. Peterson, Jodell E. Linder und WeiQi Wei

Icahn School of Medicine am Mount Sinai, New York, USA

Girish N. Nadkarni

Universität Washington, Seattle, USA

Elisabeth A. Rosenthal

Brigham and Women's Hospital, Boston, USA

Elizabeth W. Karlson

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

JAP, LVR, KW, TNP, SS, SNM, VMC, CL, TL, AS, OD, KK, YL, GN, MSW, EWK, JEL, CW, WW leisteten wesentliche Beiträge zur Konzeption und/oder Gestaltung des Werks . JAP, LVR, TNP, DC, SS, SNM, JHG, VSG, VMC, FM, TL, AS, GE, VW, AF, RP, DSC, YD, NW, BS, IJK, OD, JCS, JFP, NS, KK, YN, YL, GN, EAR, TLW, MSW, EWK, JEL, CW, WW leisteten wesentliche Beiträge zur Erfassung, Analyse und/oder Interpretation von Daten für die Arbeit.

Korrespondenz mit Jennifer A. Pacheco.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Pacheco, JA, Rasmussen, LV, Wiley, K. et al. Bewertung der Portabilität berechenbarer Phänotypen mit natürlicher Sprachverarbeitung im eMERGE-Netzwerk. Sci Rep 13, 1971 (2023). https://doi.org/10.1038/s41598-023-27481-y

Zitat herunterladen

Eingegangen: 15. Juni 2022

Angenommen: 03. Januar 2023

Veröffentlicht: 3. Februar 2023

DOI: https://doi.org/10.1038/s41598-023-27481-y

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.

AKTIE