banner
Nachrichtenzentrum
Wir verfügen über eine Reihe hochwertiger Produkte und Dienstleistungen, die jeden Ihrer Anforderungen erfüllen.

Hierarchisches automatisiertes maschinelles Lernen (AutoML) für eine erweiterte unkonventionelle Reservoircharakterisierung

Jun 09, 2023

Scientific Reports Band 13, Artikelnummer: 13812 (2023) Diesen Artikel zitieren

139 Zugriffe

1 Altmetrisch

Details zu den Metriken

Jüngste Fortschritte im maschinellen Lernen (ML) haben die Landschaft der Energieexploration verändert, einschließlich Kohlenwasserstoff, CO2-Speicherung und Wasserstoff. Der Aufbau kompetenter ML-Modelle zur Lagerstättencharakterisierung erfordert jedoch spezifisches und tiefgreifendes Wissen, um die Modelle zu verfeinern und die besten Vorhersagen zu erzielen, was die Zugänglichkeit von maschinellem Lernen in den Geowissenschaften einschränkt. Um dieses Problem zu entschärfen, haben wir den kürzlich entwickelten Ansatz des automatisierten maschinellen Lernens (AutoML) implementiert, um eine Algorithmussuche zur Durchführung einer unkonventionellen Reservoircharakterisierung mit einem optimierteren und zugänglicheren Arbeitsablauf als herkömmliche ML-Ansätze durchzuführen. In dieser Studie wurden über 1000 Bohrlöcher aus den Athabasca-Ölsanden in Alberta analysiert, um verschiedene wichtige Lagerstätteneigenschaften wie Lithofazies, Porosität, Schiefervolumen und Bitumenmassenprozentsatz vorherzusagen. Unser vorgeschlagener Arbeitsablauf besteht aus zwei Phasen von AutoML-Vorhersagen, darunter (1) die erste Phase konzentriert sich auf die Vorhersage des Schiefervolumens und der Porosität mithilfe herkömmlicher Bohrlochprotokolldaten und (2) die zweite Stufe kombiniert die vorhergesagten Ergebnisse mit Bohrlochprotokolldaten Vorhersage des Lithofazies- und Bitumenanteils. Die Ergebnisse zeigen, dass von den zehn verschiedenen Modellen, die zur Vorhersage der Porosität (78 % Genauigkeit), des Schiefervolumens (80,5 %), des Bitumenanteils (67,3 %) und der Lithofazies-Klassifizierung (98 %) getestet wurden, verteilte Zufallswälder, und Gradient Boosting Machine erwiesen sich als die besten Modelle. Im Vergleich zu den manuell fein abgestimmten herkömmlichen Algorithmen für maschinelles Lernen bieten die AutoML-basierten Algorithmen eine deutliche Verbesserung bei der Vorhersage von Reservoireigenschaften, mit höheren gewichteten durchschnittlichen f1-Werten von bis zu 15–20 % beim Klassifizierungsproblem und 5–10 % im angepassten R2-Score für die Regressionsprobleme im Blindtestdatensatz und wird erst nach ca. 400 s Trainings- und Testprozessen erreicht. Darüber hinaus besteht aufgrund der Feature-Ranking-Extraktionstechnik eine gute Übereinstimmung mit Domänenexperten hinsichtlich der wichtigsten Eingabeparameter in jeder Vorhersage. Daher ist es ein Beweis dafür, dass sich der AutoML-Workflow als leistungsstark erwiesen hat, wenn es darum geht, fortgeschrittene petrophysikalische Analysen und Reservoircharakterisierungen mit minimalem Zeitaufwand und menschlichem Eingriff durchzuführen, was eine bessere Zugänglichkeit für Fachexperten ermöglicht und gleichzeitig die Erklärbarkeit des Modells beibehält. Die Integration von AutoML und Fachexperten könnte die Implementierung künstlicher Intelligenztechnologie bei der Optimierung datengesteuerter Energiegeowissenschaften vorantreiben.

Bohrlochprotokolldaten unter der Oberfläche können wichtige Informationen über die räumliche und zeitliche Variabilität von Ablagerungslithofazien und petrophysikalischen Eigenschaften von Reservoirzonen liefern und so eine umfassendere Reservoirbewertung ermöglichen1,2,3. Darüber hinaus sind Bohrlochprotokolldaten in den meisten Bohrlöchern in der Regel in größerem Umfang verfügbar als andere Untergrunddaten, wie z. B. Bohrkerne. Trotz ihrer Effizienz weist die Bohrlochprotokollierung einige Einschränkungen auf, wenn es um den Grad der Unsicherheit in heterogenen Ablagerungsumgebungen und den Bedarf erfahrener Petrophysiker bei der Datenverarbeitung und -interpretation geht4,5. Bei der Kohlenwasserstoffexploration ist die petrophysikalische Analyse, wie z. B. die Klassifizierung von Lithofazies und die Vorhersage der Porosität, einer der aktivsten Bereiche, in denen maschinelles Lernen angewendet werden kann6,7. Dies liegt vor allem daran, dass petrophysikalische Daten gut strukturiert und im Hinblick auf physikalische Modelle gut definiert sind. Dadurch können viele hochentwickelte Algorithmen des maschinellen Lernens auf petrophysikalische Daten angewendet werden7. Dies wird durch das Aufkommen der Technologie der künstlichen Intelligenz noch verstärkt und die Verfügbarkeit riesiger Mengen unterirdischer Datensätze hat den Weg für fortschrittliche Algorithmen des maschinellen Lernens geebnet. Nach der bahnbrechenden Arbeit von Wong8, die einen der frühesten erfolgreichen Versuche zur Anwendung künstlicher neuronaler Netze zur Vorhersage der Porosität darstellte, wurden zahlreiche Versuche unternommen, verschiedene überwachte und unbeaufsichtigte Modelle des maschinellen Lernens zu verwenden, um verschiedene petrophysikalische Eigenschaften vorherzusagen. Al-Anazi und Gates9 nutzten die Support-Vektor-Regression zur Vorhersage der Porosität in heterogenen Lagerstätten. Darüber hinaus haben Chen et al.10 einen Deep-Learning-Algorithmus zur Vorhersage der Porosität implementiert. Der Ansatz könnte Fehler reduzieren, wenn nur begrenzte Daten verfügbar sind und unterschiedliche Protokolltiefen vorhanden sind. Kürzlich nutzte eine Studie von Yang11 ein hochmodernes Deep-Learning-Transformatormodell zur Vorhersage der Porosität und erzielte eine hohe Genauigkeit. Mehrere Arbeiten haben auch die Anwendung des maschinellen Lernens erweitert, um Permeabilitätsvorhersagen sowohl in siliziklastischen als auch in Karbonatlagerstätten durchzuführen12,13.

Eine der größten Herausforderungen bei der Interpretation von Bohrlochprotokollen besteht darin, die Lithofazies aus verschiedenen Protokollantworten zu bestimmen. Zwar wurden zur Unterstützung der Klassifizierung statistische Ansätze implementiert, diese sind jedoch häufig ungenau und liefern keine gute Übereinstimmung mit der Kernbeschreibung14. Qi und Carr15 lieferten einen der ersten Versuche, unüberwachtes Clustering zur Klassifizierung von Lithofazies auf der Grundlage von Well-Log-Antworten (z. B. Dichte, Gammastrahlung) zu verwenden. Hall16 veröffentlichte einen bahnbrechenden Artikel über den Einsatz von maschinellem Lernen zur Vorhersage von Fazies mithilfe einer Art überwachten maschinellen Lernens, das als Support-Vektor-Maschine bekannt ist. Diese Studie verwendete einen Datensatz aus neun Bohrlöchern, der Daten aus sieben Bohrlochprotokollen (z. B. GR, Neutron und Dichte) enthielt, um neun verschiedene Fazies vorherzusagen. Die Ausgabe des Modells zeigte ein mäßiges Maß an Genauigkeit, es bedarf jedoch noch weiterer Arbeit zur Verbesserung. Dennoch hat diese Arbeit einen systematischen und leicht verständlichen Arbeitsablauf zur Vorhersage von Fazies mithilfe von Modellen des maschinellen Lernens gezeigt. Seitdem umfassen die meisten Arbeitsabläufe fortschrittliche Algorithmen für maschinelles Lernen, um Ablagerungsfazies aus Bohrlochprotokollen, einschließlich Karbonatreservoirs, automatisch zu interpretieren17,18. Bestagini et al.19 schlugen eine überwachte maschinelle Lerntechnik vor, die Bohrlochprotokolle nutzt, um verschiedene Fazies vorherzusagen. In diesem Fall unterteilt das vorgeschlagene Modell die Beobachtungen/Merkmale der Trainingssätze in verschiedene Teilmengen. Dann werden nur wenige Merkmale aus jeder Teilmenge verwendet, um den Entscheidungsbaum mithilfe von Kostenfunktionskonzepten zu trainieren. Diese Technik weist ein hohes Maß an Genauigkeit auf und hat das Potenzial, die Vorhersageleistung durch das Hinzufügen weiterer geologischer Einschränkungen zu verbessern19. Im Gegensatz zu früheren Studien, die sich ausschließlich auf eine Methode/einen Algorithmus konzentrierten, schlugen Ippolito et al.20 ein hybrides maschinelles Lernmodell zur Vorhersage von Fazies vor. Um Verzerrungsprobleme zu überwinden, kombiniert diese Studie heterogene Merkmale des überwachten maschinellen Lernens und des unüberwachten maschinellen Lernens. Solche Algorithmen werden mittlerweile zunehmend eingesetzt, um die Eigenschaften unterirdischer Lagerstätten vorherzusagen16,18,21. Jaikla et al.22 schlugen einen FaciesNet-Algorithmus für die Vorhersage von Lithofazies vor, der auf tiefen rekurrenten neuronalen Netzen basiert. Diese Studie zeigt eine deutliche Verbesserung der Gesamtleistung bei der Nutzung von Deep Learning zur Faziesvorhersage.

Trotz dieser Fortschritte ist es erwähnenswert, dass die Entwicklung und das Training von Algorithmen für maschinelles Lernen Zeit erfordern und Fachwissen außerhalb der Geowissenschaften erfordern, um die notwendige Datenvorkonditionierung durchzuführen, um solche Modelle für maschinelles Lernen auszuführen16,23,24,25. Darüber hinaus sind häufig zeitaufwändige Prozesse wie die Datenvorbereitung und -verarbeitung, die Auswahl geeigneter Parameter und die Feinabstimmung des Modells erforderlich, um verschiedene Klassifizierungsalgorithmen zu testen und zu vergleichen. Daher ist die Implementierung von maschinellem Lernen häufig auf bestimmte Bereiche mit einem hohen Grad an Mehrdeutigkeit beschränkt und für Nicht-Experten für maschinelles Lernen nicht zugänglich. Um dieses Problem zu lösen, wurden in mehreren Arbeiten unterschiedliche Arbeitsabläufe vorgeschlagen, um Modellgenerierungs-, Optimierungs- und Bewertungsprozesse zu automatisieren oder einen Ansatz für automatisiertes maschinelles Lernen (AutoML) zu erstellen26,27. In einem solchen Fall konzentriert sich AutoML auf die Optimierung von Hyperparametern und Modellen unter Verwendung von Bayes'scher Optimierung, genetischen Algorithmen oder Reinforcement Learning25.

Während aktuelle Studien gezeigt haben, dass AutoML die gesamte Pipeline für maschinelles Lernen optimieren und hochpräzise Vorhersagen erzielen kann28,29, bleibt die Anwendung von AutoML in den Geowissenschaften begrenzt. Bisher gibt es nur wenige Arbeiten, in denen versucht wurde, AutoML für die petrophysikalische Analyse unter der Oberfläche zu verwenden30. Daher besteht das Hauptziel dieser Forschung darin, die Machbarkeit von AutoML zur Erstellung verschiedener petrophysikalischer Analysen und Vorhersagen von Reservoireigenschaften zu untersuchen und zu bewerten. Die Motivation für die Verwendung von AutoML besteht darin, ein Modell zu erstellen, das Lithologie und andere Reservoireigenschaften mit minimalem menschlichen Eingriff vorhersagen kann und über mehrere Disziplinen hinweg übertragbar ist, da zum Testen des Modells Nicht-ML-Experten erforderlich sind. In dieser Studie haben wir uns auf den unterirdischen Bohrlochprotokolldatensatz aus den kreidezeitlichen Athabasca-Ölsanden konzentriert, um eine erweiterte unkonventionelle Lagerstättencharakterisierung mit AutoML durchzuführen. Der vorgeschlagene hierarchische AutoML-Workflow ist in zwei Hauptphasen unterteilt: (1) Die erste Phase besteht darin, das Schiefervolumen, die Porosität und den Bitumenanteil aus verfügbaren Bohrlochprotokolldaten (z. B. Gammastrahlung, Dichte und Neutronen) vorherzusagen und (2) Die zweite Stufe konzentriert sich auf die Klassifizierung von Lithofazies unter Verwendung der ursprünglichen Bohrlochprotokolldaten und der vorhergesagten Ergebnisse der ersten Stufe. Abschließend wird die Studie die Leistung und Effizienz traditioneller und automatisierter Modelle für maschinelles Lernen vergleichen und gegenüberstellen.

Das Untersuchungsgebiet liegt in den Athabasca-Ölsanden in Alberta, Kanada, die als eine der größten Bitumenlagerstätten der Welt gelten31. Der Großteil dieser Bitumenressourcen wurde in vier großen Lagerstätten entdeckt: Athabasca, Cold Lake, Wabasca und Peace River32 (Abb. 1). Mit geschätzten Ressourcen von rund 1 Billion Barrel Bitumen gilt Athabasca als die größte Bitumenlagerstätte der Welt33,34. Diese Ablagerungen sind Teil des Sedimentbeckens Westkanadas, das im Westen von den Rocky Mountains und im Osten vom kanadischen Schild begrenzt wird und in zwei Abschnitte unterteilt ist: das intrakratonische Williston-Becken im Südwesten und das Alberta-Vorlandbecken (Abb . 1). Das Becken entstand während der paläozoischen Rifting-Periode, woraufhin sich aufgrund thermischer Absenkung ein passiver Rand entwickelte35. Die entlang des passiven Randes abgelagerte gemischte Abfolge von Karbonaten, Evaporiten und Schiefern aus dem Devon sind die ältesten erhaltenen Sedimente in den Athabasca-Ölsandvorkommen. Infolgedessen deuten mehrere Studien darauf hin, dass diese Devon-Schiefer ein Quellgestein für den Athabasca-Ölsand sein könnten36. Darauf folgte eine Periode siliziklastischer Ablagerung vom Spätpaläozoikum bis zum Oberjura, die zur Bildung von jurassischem Quellgestein hätte führen können35. Die Entwicklung des Falten- und Überschiebungsgürtels der Rocky Mountains, der die Ablagerung der Megasequenz des Vorlandbeckens kontrollierte, führte zu einer erheblichen Verschiebung der Sedimentherkunft während des späten Jura.

Lage von vier großen Ölsandvorkommen in Alberta, Kanada32.

Diese Megasequenz wurde während der frühen Kreidezeit durch siliziklastische Ablagerungen dominiert und umfasst die Reservoirs der Mannville-Gruppe aus der Unterkreide, den primären Reservoirabschnitt in den Athabasca-Ölsanden35. Die McMurray-Formation, die diskordant über dem devonischen Karbonat liegt, ist die erste Sedimenteinheit der Mannville-Gruppe, die in Alberta gefunden wurde, gefolgt vom Wabiskaw-Mitglied der Clearwater-Formation, das diskordant auf der McMurray-Formation liegt33 (Abb. 1). Die Hauptreservoirs des Athabasca-Öls sind die klastischen Lagerstätten McMurray-Wabiskaw, die dann von den Schiefersteinen der Clearwater-Formation als ultimative regionale Versiegelung abgedeckt werden37. Im Allgemeinen besteht das McMurray-Wabiskaw-Intervall hauptsächlich aus einem sich nach oben vertiefenden komplexen Sedimentsystem, das von einer subkreidezeitlichen Diskordanzkonfiguration kontrolliert wird37. Diese Ablagerungen bestehen hauptsächlich aus vier Faziesverbänden: Fluvial, Wattfläche, Gezeitenstreifenkomplex und Gezeitenstreifenkappe38. Die McMurray- und Wabiskaw-Reservoirs haben eine Mächtigkeit von bis zu 40 m und eine Porosität von bis zu 30 %39. Der Großteil des Athabasca-Ölsands befindet sich im McMurray-Wabiskaw-Intervall der Unterkreide, aus dem der Großteil der Bitumenressourcen mithilfe thermischer In-situ- und Tagebaumethoden gewonnen werden kann40.

Diese Studie nutzte einen öffentlich zugänglichen Datensatz von 2173 Bohrlöchern, der vom Alberta Geological Survey im Rahmen einer 1985 durchgeführten Regionalstudie bereitgestellt wurde. Das Hauptziel der Erfassung dieses Datensatzes bestand darin, die McMurray-Formation aus der unteren Kreidezeit und das darüber liegende Wabiskaw-Mitglied der Clearwater-Formation zu kartieren in Alberta, Kanadas Athabasca-Ölsandgebiet. Für petrophysikalische und andere Messungen stehen folgende Daten zur Verfügung: Lithologie-Log (LITH), Bitumenmassenprozentsatz (W_Tar), Wassersättigung (Sw), Schiefervolumen (VSH), Porosität (PHI) und Wasserwiderstand (Rw). Eine Reihe von Bohrlochprotokollen mit variabler Abdeckung, wie z. B. Gammastrahlung (GR), Widerstand (ILD), Dicke (CALI), Dichte (RHOB), Neutron (NPHI) und von der Dichte abgeleitete Porosität (DPHI), ist ebenfalls verfügbar ( Abb. 2). Mithilfe von 750 Bohrlöchern und Kerndatenanalysen wurden vier verschiedene Lithologien identifiziert (Sand, Schiefersand, Schiefer und Kohle; Abb. 2). Dem beigefügten Bericht des Alberta Geological Survey aus dem Jahr 1994 zufolge wurde das interpretierte Lithologieprotokoll dann mithilfe verschiedener petrophysikalischer Gleichungen bevölkert, wobei in erster Linie das Schiefervolumen und die Porosität mithilfe von Dichte- und Neutronenprotokollen berechnet wurden.

Beispiele für die verfügbaren Bohrlochdaten und Lithofazies-Interpretation in den Datensätzen.

In dieser Studie folgten wir einem Standard-Workflow zur explorativen petrophysikalischen Datenanalyse, um die Daten vorzuverarbeiten und alle statistischen Muster/Trends aufzudecken (Abb. 3). Zur Verarbeitung und Analyse der verfügbaren Daten wurden die Programmiersprache Python und integrierte Bibliotheken (z. B. Pandas, Scikit-Learn) verwendet. Da diese Studie eine große Anzahl von Bohrlochdaten umfasst, wurde die Datenbereinigung durch Sortieren, Neuskalieren, Gruppieren und Neuformatieren durchgeführt, um sicherzustellen, dass die Daten einheitlich und für die Analyse durch maschinelles Lernen bereit sind (Abb. 3). Darüber hinaus erforderte die Datenvorbereitung die Analyse der in den Bohrlochprotokollwerten beobachteten Ausreißerwerte/Trends mithilfe der Protokollnormalisierung über verschiedene Bohrlöcher hinweg, der Entfernung von Ausreißern und der Skalierung zur Gewährleistung der Konsistenz. Um Fehlberechnungen und Fehler während des maschinellen Lerntrainings und der Vorhersage zu vermeiden, wurden alle fehlenden Werte aus dem Datensatz entfernt. Die explorative Datenanalyse erfolgte mithilfe verschiedener Visualisierungstechniken wie Cross-Plots und Histogrammen. Dieser Schritt ist entscheidend für die Identifizierung von Mustern und die Analyse anomaler Werte mithilfe deskriptiver Statistiken. Es ist auch nützlich, um die Bedeutung bestimmter Merkmale zu bestimmen, um die Vorhersage von Protokollen auf der Grundlage der identifizierten Beziehung zu unterstützen, die in Abb. 4 erkennbar ist.

Konventioneller maschineller Lern- und AutoML-Workflow.

Kreuzdiagramme zwischen verschiedenen im Datensatz verfügbaren Parametern. Es ist offensichtlich, dass unterschiedliche Lithologien unterschiedliche logarithmische Reaktionen und variable Ergebnisse in den Labormessungen zeigen.

In dieser Studie wurden mehrere überwachte Modelle für maschinelles Lernen evaluiert und als Basismodell mit dem AutoML-Modell verglichen. Für die diskrete Aufgabe (Faziesvorhersage) wurden sowohl die logistische Regression als auch der Gradientenverstärkungsmaschinenklassifizierer verwendet. Während lineare Regression und Gradientenverstärkungsmaschinenregressor zur Vorhersage kontinuierlicher Daten verwendet wurden. Beispielsweise wird für VSH und W_Tar eine Gradient-Boosting-Maschine verwendet, während für PHI ein Random-Forest-Regressor verwendet wird. Der Gesamtdatensatz wurde für alle Lerntechniken in 80 % Training und 20 % Blindtest aufgeteilt. Der Trainingsdatensatz wurde weiter in 80 % für Training und 20 % für Validierung unterteilt. Die Daten für Training und Validierung wurden vollständig vom Testsatz getrennt, um unabhängige Ergebnisse zu erhalten. Dann wurden die folgenden Protokolle als Trainingsmerkmale verwendet: GR, DPHI, NPHI und ILD, um das Lithologieprotokoll vorherzusagen. Dieselben Eingabeprotokolle wurden auch zur Vorhersage von VSH und W_Tar verwendet.

Breiman41 führte erstmals den Random Forest (RF)-Algorithmus als Ensemble-überwachten Algorithmus für maschinelles Lernen ein, der auf Entscheidungsbäumen basiert. In jedem Baum kombiniert RF Bagging und verschiedene Bootstrapping-Prozesse und fügt so dem Modell eine zusätzliche Ebene der Zufälligkeit hinzu. Darüber hinaus ist der RF-Algorithmus zwar vom Entscheidungsbaumalgorithmus inspiriert, führt jedoch Zufälligkeit bei der Trennung jedes Knotens und der Auswahl der besten Prädiktoren in diesem Knoten ein42. Insgesamt reduziert RF im Vergleich zu Decision Tree die Überanpassung und seine Leistung ist robust gegenüber Ausreißern im Datensatz42,43. Gradient Boosting Machine (GBM) ist ein Konzept, das entwickelt wurde, um die Leistung schwacher Lernender iterativ zu verbessern und einen effizienten Lernenden zu schaffen44,45. Im Allgemeinen besteht GBM aus drei Schlüsselkomponenten: (1) Verlustfunktionsoptimierung; (2) ein schwacher Lernender, der typischerweise einen Entscheidungsbaum verwendet, um Vorhersagen zu treffen; und (3) ein additives Modell, um schwache Lernende hinzuzufügen, um die Verlustfunktion zu minimieren. Der Hauptvorteil von GBM ist seine Fähigkeit, mit großen und komplexen Datensätzen zu arbeiten, sowie seine Robustheit gegenüber Verzerrungen und Ausreißern im Datensatz. Allerdings kann das Training und die Abstimmung von GBM, wie auch von RF, kostspielig sein. Darüber hinaus ist bekannt, dass GBM unter einer Überanpassung des Modells an Trainingsdatensätze leidet. Daher sind Regularisierungsmethoden (L1 und L2), wie sie im Extreme Gradient Boosting-Algorithmus (XGB) implementiert sind, erforderlich, um dieses Problem zu mildern.

Jüngste Fortschritte bei Technologien der künstlichen Intelligenz ermöglichen die Entwicklung und Implementierung von automatisiertem maschinellem Lernen (AutoML), das den architektonischen Entwurf, die Auswahl und die Parametrisierung von Modellen für maschinelles Lernen automatisiert26,46. In dieser Studie haben wir uns aufgrund seiner Skalierbarkeit, Benutzerfreundlichkeit, Vielseitigkeit und umfangreichen Bibliotheken zur Erkundung der Modelle für die Open-Source-Plattform für verteiltes maschinelles Lernen entschieden, die für die Skalierung auf große Datensätze entwickelt wurde, das H2O-Tool für AutoML47. In diesem Fall verwendet AutoML eine Kombination aus Zufallsgittersuche und gestapelten Ensembles, da verschiedene Modelle die Genauigkeit der Ensemble-Methode verbessern. Um das Tool auch für Laien zugänglich zu machen, sind in dieser Studie nur wenige Parameter erforderlich, um das Modell innerhalb des H2O-Tools zu trainieren. Diese Parameter dienen als Einschränkungen für den AutoML-Prozess. Sobald einer dieser Parameter erfüllt ist, wird der AutoML-Prozess gestoppt:

▪ Max_runtime_secs: Mit dieser Einschränkung wird angegeben, wie lange der AutoML-Prozess ausgeführt wird, um verschiedene Modelle zu trainieren (z. B. Generalized Linear Model (GLM), Gradient Boosting (GBM) und Distributed Random Forest (RDF)). Anschließend erfolgt die Feinabstimmung der zugehörigen Hyperparameter und die Bewertung der besten Modelle auf der Grundlage bestimmter Metriken (z. B. quadratischer Mittelwert). Bis zum Erreichen der Laufzeit erfolgt dies ausschließlich auf Basis vordefinierter Parameter.

▪ Max_models: Hiermit wird die Anzahl der Modelle angegeben, die in den AutoML-Prozess einbezogen werden sollen. Dies ist eine Ausnahme von Stacked-Ensemble-Modellen, bei denen grundsätzlich versucht wird, die verschiedenen Modelle zu kombinieren, um die besten Ergebnisse zu erzielen.

▪ Startwert: Diese Option gibt den Startwert des Zufallszahlengenerators (RNG) für Algorithmen an, die auf Randomisierung basieren.

In dieser Arbeit wurden die folgenden Bedingungen beim Ausführen der H2O AutoML-Lernmodellierung einschließlich des Trainings- und Validierungsprozesses angewendet: max_models = 10, max_runtime_sec = 400, Seed = 1234. Darüber hinaus haben wir das vom H2O-Modell generierte gestapelte Ensemblemodell ausgeschlossen, um dies zu ermöglichen ein fairer Vergleich mit anderen herkömmlichen ML-Modellen.

Die Modelle wurden unter Verwendung verschiedener Bewertungsmetriken wie der Bestimmung des angepassten Koeffizienten (angepasstes R2; Gleichung 1), des quadratischen Mittelwerts (RMSE; Gleichung 2) und des mittleren absoluten Fehlers (MAE; Gleichung 3) für Regressionsaufgaben bewertet. Bei Regressionsaufgaben ist das angepasste R2 unempfindlich gegenüber unbedeutenden unabhängigen Variablen, die die Modellleistung besser erfassen48.

Für den Vergleich der Klassifizierungsbewertung wurden auch die Verwirrungsmatrix, die Präzision, der Rückruf und der f1-Score basierend auf dem Verhältnis zwischen richtig positiv (TP), falsch positiv (FP), richtig negativ (TN) und falsch negativ (FN) berücksichtigt. Die Präzision wird auf der Grundlage des Verhältnisses zwischen TP/TP + FP berechnet, während der Rückruf den Prozentsatz zwischen TP/TP + FN beschrieb. Die Klassifizierungsgenauigkeit (TP + TN/TP + FN + TN + FP) und der f1-Score (2*(Präzision * Rückruf)/(Präzision + Rückruf) sind die am häufigsten verwendeten Metriken zur Bewertung der Leistung von Algorithmen für maschinelles Lernen Klassifizierungsproblem23.

Der Einfachheit halber wurden alle an dieser Studie beteiligten Algorithmen mit Standardparametern implementiert, die nur die Ausführung des Algorithmus ohne Angabe verwandter Parameter umfassen. Dies dient in erster Linie dazu, die Feinabstimmung von Hyperparametern zu vermeiden, die mit bestimmten Algorithmen verbunden sind.

Infolgedessen verwendete das erste Experiment einen auf linearer Regression basierenden Algorithmus, um drei verschiedene kontinuierliche Protokolle vorherzusagen: Schiefervolumen (VSH), Porosität (PHI) und Massenprozentsatz an Bitumen (W Tar). Das erste Modell wurde darauf trainiert, das Schiefervolumen (VSH) vorherzusagen, und erreichte in der Trainingsphase 71,15 % adj_R2, 1,45 % RMSE und 8,32 % MAE. Während der Validierungsphase erhielt das Modell die folgenden Werte: 70,43 % adj_R2, 1,46 % RMSE und 8,29 % MAE (Tabelle 1). Das gleiche Modell wurde dann zur Vorhersage von VSH anhand eines völlig separaten Datensatzes als Blindtest der Modellleistung verwendet. Das Modell erhielt die folgenden Werte: 71,93 % adj_R2, 1,52 % RMSE und 8,73 % MAE. Dies zeigt eine sehr ähnliche Leistung während des Trainings und der Generalisierung während des Blindtests (Tabelle 1). Bei der Porositätsvorhersage (PHI) sagte das Modell einen PHI mit 70,29 % adj_R2, 0,53 % RMSE und 3,13 % MAE voraus (Tabelle 1). In der Validierungsphase erzielte das Modell folgende Ergebnisse: 69,68 % adj_R2, 0,53 % RMSE und 3,13 % MAE. Im Blindtest erzielte das Modell eine etwas bessere Leistung, wo es einen adj_R2 von 71,6 %, einen RMSE von 0,51 % und einen MAE von 2,97 % erreichte (Tabelle 1). Das andere kontinuierliche Protokoll, das vorherzusagen ist, ist der Massenprozentsatz von Bitumen (W_Tar), für den im verfügbaren Datensatz nur wenige Stichproben vorhanden sind. Daher dürfte die Vorhersage eines solchen Merkmals schwieriger sein, da die Gesamtdaten nicht ausreichen, um das Modell zu trainieren und die Leistung des Modells zu bewerten. Unter Verwendung eines ähnlichen linearen Regressionsalgorithmus zum Trainieren des Modells wurden während der Trainingsphase die folgenden Werte gemeldet: adj_R2 beträgt 12,96 %, RMSE beträgt 1,22 % und MAE beträgt 3,43 % (Tabelle 1). Bei der Anwendung auf den Validierungsdatensatz lieferte das Modell ähnliche Ergebnisse: 13,55 % adj_R2, 1,22 % RMSE und 3,43 % MAE. Die Testergebnisse zeigten hingegen einen dramatischen Leistungsabfall wie folgt: adj_R2 beträgt 1,1 %, RMSE beträgt 1,22 % und MAE beträgt 3,04 % (Tabelle 1). Dieses Ergebnis lässt sich dadurch erklären, dass für das Training nicht genügend Stichproben vorhanden sind und dass der verfügbare Datensatz eine hohe Verzerrung aufweist. Daher ist das Modell während der Trainings-, Validierungs- und Blindtestphasen nicht in der Lage, eine vernünftige Vorhersage zu liefern.

Ein ähnlicher Ansatz wurde bei verschiedenen überwachten maschinellen Lerntechniken verwendet, jedoch mit ausgefeilteren und ressourcenintensiveren Algorithmen wie Gradient Boosting Machine (GBM) und Random Forest (RF). Unter Verwendung derselben Trainings- und Validierungsdatensätze wurden diese Algorithmen verwendet, um die drei verschiedenen Parameter vorherzusagen. Lernalgorithmen wie GBM und RF können mithilfe verschiedener Hyperparameter angepasst werden. Der Einfachheit halber und zur Vermeidung von Hyperparametern wurden in dieser Studie jedoch keine voreingestellten Parameter verwendet. Stattdessen wurden diese Lernmodelle nur unter Verwendung des Standardparametersatzes angewendet. Das erste Merkmal (Protokoll), für das wie im vorherigen Arbeitsablauf trainiert werden muss, ist das Schiefervolumen (VSH). Das Gradient-Boosting-Maschinenmodell schnitt in diesem Fall besser ab als die lineare Regression (bis zu 5 % Verbesserung) und erreichte 76,2 % adj_R2, 1,4 % RMSE und 8,09 % MAE (Tabelle 1). In diesem Fall ergab der Random-Forest-Algorithmus höhere Werte für den anderen Parameter, Porosität (PHI), wie folgt: 77,76 % adj_R2, 0,45 % RMSE und 2,60 % MAE. Der Gradient-Boosting-Maschinenalgorithmus schnitt bei der Vorhersage des Bitumenvolumens (W Teer) am besten ab und erreichte trotz der begrenzten verfügbaren Daten 67,85 % adj_R2, 0,69 % RMSE und 0,53 % MAE. Dieses Ergebnis zeigt eine deutliche Verbesserung gegenüber dem einfachen linearen Regressionsmodell. Es ist daher offensichtlich, dass die fortschrittlicheren konventionellen Modelle des maschinellen Lernens die einfache lineare Regression bei allen in dieser Studie ausgewerteten Vorhersageaufgaben für petrophysikalische Eigenschaften übertreffen (Tabelle 1). Es gibt jedoch einige Diskrepanzen zwischen den tatsächlichen Protokollen und den vorhergesagten Protokollen von RF und GBM, wie in Abb. 5 dargestellt. Beispielsweise sagen die Lernmodelle die Porositätswerte insbesondere im Intervall mit hoher Porosität zu niedrig und die Werte in den relativ engeren Intervallen zu hoch.

Diagramme, die den Vergleich zwischen verschiedenen ML-Algorithmen und AutoML mit den tatsächlichen Protokollen zeigen.

In der Zwischenzeit wird mit dem H2O-Tool ein weiteres paralleles Trainingsmodell erstellt, um AutoML auf die Vorhersage dieser drei kontinuierlichen Protokolle anzuwenden. Ein ähnlicher Ansatz wird verwendet, indem das Modell nur mit einfachen Standardparametern (max_models = 10, max_runtime_sec = 400, Seed = 1234) ausgeführt wird und für den absoluten Leistungsvergleich derselbe Trainings-, Validierungs- und Testdatensatz verwendet wird. Die erste Funktion, die untersucht werden soll, ist VSH, das dem Workflow ähnelt, der beim überwachten maschinellen Lernen verwendet wird. In einem solchen Fall testet der AutoML-Ansatz eine Vielzahl überwachter Lernalgorithmen (z. B. GBM, XGB, DRF) mit verschiedenen Parametern. Das primäre Modell wird dann unter Verwendung der besten mittleren Fehlermetrik pro Klasse ausgewählt. Ähnlich wie beim herkömmlichen ML-Modell für VSH schnitt der GBM-Algorithmus in diesem Fall am besten ab und erzielte die folgenden Ergebnisse: 78,77 % adj_R2, 1,33 % RMSE und 7,90 % MAE (Tabelle 1). Diese Metriken zeigen eine Gesamtverbesserung von bis zu 3 % im Vergleich zu herkömmlichem überwachtem maschinellem Lernen mit ähnlichen Standardparametern und zeigen im Vergleich zum tatsächlichen Datensatz eine visuell genauere Vorhersage (Abb. 5). Der exakt gleiche Ansatz mit dem H2O-Tool wurde auch angewendet, um das Modell zur Vorhersage der Porosität zu trainieren. In dieser Modellierung hat der AutoML-Prozess eine verteilte Zufallsstruktur (Distributed Random Forest, DRF) mit (Gesamtzahl der Bäume = 50) identifiziert, die angesichts der Laufbeschränkungen am besten passt. Dies ermöglicht einen direkten Vergleich mit dem herkömmlichen RF-Modell zur Porositätsvorhersage (PHI). Die DRF-Modellierung erzielte im Blindtestdatensatz die folgenden Ergebnisse: 80,45 % adj_R2, 0,42 % RMSE und 2,60 % MAE (Tabelle 1). Dies zeigt eine ähnliche Größenordnung der Verbesserung (bis zu 3 % Verbesserung in R2) wie das herkömmliche RF-Modell. Der Vergleich mit dem tatsächlichen Testdatensatz zeigt, dass der AutoML-Ansatz eine viel genauere Vorhersage liefert als die herkömmliche Methode (Abb. 5). Das letzte von AutoML modellierte kontinuierliche Protokoll ist W_Tar, bei dem das vorherige lineare Regressionsmodell eine schlechte Korrelation aufwies. Der AutoML-Prozess hat den GBM-Algorithmus ausgewählt, der im Hinblick auf die mittlere Fehlerbewertung pro Klasse am besten geeignet ist, um den W_Tar ähnlich wie beim herkömmlichen Ansatz vorherzusagen. Das durch den AutoML-Prozess entwickelte GBM-Modell erreichte 67,34 % adj_R2, 0,71 % RMSE und 0,28 % MAE, obwohl nur sehr begrenzte Trainingsdaten zum Trainieren des Modells verfügbar waren (Tabelle 1), was eine vergleichbare Leistung mit dem herkömmlichen GBM-Modell zeigt (Abb. 5). ).

Ähnlich wie beim vorherigen Arbeitsablauf zur Generierung von Modellen zur Vorhersage der kontinuierlichen Protokolle besteht der nächste Schritt darin, Modelle zu erstellen, die Klassifizierungsmerkmale (Lithologien/Fazies) vorhersagen können. Die vorhergesagten Ergebnisse der ersten Stufe wurden zusätzlich zu den vorherigen Protokollen, die als Trainingsmerkmale verwendet wurden, als Eingabe für die Vorhersage der Lithologie verwendet. Das erste erstellte Modell ist überwachtes maschinelles Lernen, das einen einfachen logistischen Regressionsalgorithmus verwendet, um eine detaillierte Hyperparameter-Abstimmung zu vermeiden. Das erste Modell, das die logistische Regression (LR) verwendete, erreichte in der Testphase einen gewichteten durchschnittlichen F1-Score von 53 % (Tabelle 2). Darüber hinaus lässt sich aus der Verwirrungsmatrix erkennen, dass das LR-Modell die höchsten Präzisions- (0,71) und Rückrufwerte (0,68) mit der Sandklasse erreichte, während die niedrigsten Präzisions- (0,40) und Rückrufwerte (0,29) in beobachtet wurden die Schieferklasse (Tabelle 2 und Abb. 6). Darüber hinaus zeigt die Verwirrungsmatrix, dass das LR-Modell Schwierigkeiten hat, drei Fazies richtig zu bewerten: Sand, Schiefersand und Schiefer. Ein Vergleich mit den tatsächlichen Lithofazies-Daten zeigt eine schlechte Korrelation zwischen den tatsächlichen und den vorhergesagten Lithofazies aus diesem LR-Modell in den beiden Blindtests (Abb. 7A, B).

Verwirrungsmatrix der drei bewerteten Algorithmen. (a) Logistische Regression. (b) Gradientenverstärkungsmaschine. (c) AutoML.

Vergleich der Lithofazies-Vorhersage mithilfe verschiedener Algorithmen für maschinelles Lernen in zwei verschiedenen Bohrlöchern.

Andererseits zeigt der herkömmliche GBM-Algorithmus (Gradient Boosting Machine) eine deutliche Verbesserung der Gesamtleistung und erreichte einen gewichteten Durchschnitt des F1-Scores von 84 % (Tabelle 2). Das Modell erreichte auch relativ konsistente hohe Präzisionswerte über alle Lithofazies (durchschnittlich 0,93) mit Ausnahme von Schiefer (0,65) (Tabelle 2 und Abb. 6). Im Gegensatz dazu erreichte die Schieferfazies unter allen Lithofazies den höchsten Erinnerungswert (0,95), während Kohle den niedrigsten Erinnerungswert (0,76) aufwies (Tabelle 2 und Abb. 6). Aus der Verwirrungsmatrix des Blindtestdatensatzes geht hervor, dass das GBM-Modell eine besonders schlechte Leistung bei der Vorhersage von Kohle aufweist und diese fälschlicherweise als Schiefer klassifiziert hat (Abb. 6 und 7). Insgesamt verbesserte das GBM-Modell selbst mit standardmäßigen zufälligen Hyperparametern die Vorhersage aller Lithologien deutlich, insbesondere von Schiefergestein, das mit der herkömmlichen LR-Methode schlecht vorhergesagt werden konnte. Ein weiteres GBM-Modell wurde mit H2O AutoML mit denselben Eingabeparametern trainiert. Das AutoML-basierte Modell zeigte im Vergleich zum herkömmlichen GBM eine deutliche Verbesserung und erreichte einen gewichteten F1-Score von 98 % (Tabelle 2). Darüber hinaus lieferte der AutoML-Ansatz eine konsistentere Vorhersage über alle Lithofazies hinweg, mit hohen Präzisionswerten im Bereich von 0,95 bis 0,99 und Recall-Werten im Bereich von 0,97 bis 0,99 (Tabelle 2 und Abb. 6). Darüber hinaus zeigen die Vorhersageergebnisse der Blindtestbohrungen und der Verwirrungsmatrix, dass alle verschiedenen Lithologien ordnungsgemäß bewertet und korrekt klassifiziert wurden (Abb. 6 und 7).

Die Vorhersage verschiedener petrophysikalischer Eigenschaften wie der Porosität und des Volumens von Schiefer sowie der kategorialen Merkmale wie Lithofazies mithilfe von AutoML hat ein vielversprechendes Potenzial ergeben, wie in der Studie gezeigt wurde. Die Studie zeigt, dass der AutoML-Ansatz die herkömmliche Regression und fortgeschrittene maschinelle Lernalgorithmen wie RF und GBM bei der Vorhersage verschiedener petrophysikalischer Parameter übertroffen hat (Abb. 5 und 7). Über alle Vorhersagen hinweg hat das vorgeschlagene AutoML eine signifikante Verbesserung der Lithofazies-Vorhersage gezeigt (bis zu 15 %), was eine sehr anspruchsvolle Aufgabe darstellt, insbesondere wenn es um heterogene Reservoirs geht18,49. Darüber hinaus kann das AutoML-Modell innerhalb kurzer Zeit (weniger als 400 s) und mit minimalem menschlichen Eingriff eine so hohe Leistung erzielen. Eine Studie von Palacios Salinas et al.50 untermauert den Vorteil von AutoML in den Geowissenschaften, insbesondere für die Fernerkundungsanalyse. Darüber hinaus würde ein solcher Ansatz es ermöglichen, fortgeschrittene maschinelle Lernanalysen im Allgemeinen zu demokratisieren und sie für Nicht-Maschinenlernexperten, also Geowissenschaftler oder Petrophysiker im Fall der Interpretation von Bohrlochprotokollen unter der Oberfläche, zugänglicher zu machen.

Mehrere wesentliche Nachteile von AutoML wurden in der Literatur aktiv diskutiert, darunter hohe Schulungskosten, Überanpassung und geringe Interpretierbarkeit26,27. Das Problem der hohen Schulungskosten hängt meist mit dem iterativen Schulungsprozess zusammen, aber mit der aktuellen Technologie und den fortschrittlichen Bibliotheken könnten die meisten AutoMLs auf PCs oder Laptops mit geringer Spezifikation trainiert werden, wie es in unserer Studie der Fall ist. Das Problem der Überanpassung hängt häufig mit begrenzten und nicht repräsentativen Datensätzen zusammen. In dieser Studie verwendeten wir fast fünf Millionen Datenpunkte aus 2000 Bohrlöchern (Abb. 4) und die Auswahl der Validierungs- und Blindtestdatensätze wurde sorgfältig kuratiert, um repräsentative Testsätze zu erhalten. Um dieses Problem anzugehen, haben wir die Rangfolge der Merkmalswichtigkeit aus dem Modell mit der besten Leistung extrahiert, um zu zeigen, wie das Modell die Entscheidung und Vorhersage getroffen hat. Dies ist eine wichtige Information bei der Erstellung eines Lernmodells, um die relevanten Eingabeprotokolle besser zu klassifizieren und so Beziehungen zu identifizieren. Darüber hinaus bietet es auch einen guten Einblick, wo einige Protokolle möglicherweise tatsächlich redundant sind und daher im Modellierungsworkflow eliminiert werden können. Für die VSH-Vorhersage war das Gammastrahlenprotokoll mit rund 74 % das mit Abstand wichtigste Protokoll, was nicht überraschend ist, da das Schiefervolumen typischerweise durch Gammastrahlenberechnungen in der konventionellen petrophysikalischen Analyse bestimmt wird (Abb. 8a). Die DPHI-, ILD- und NPHI-Protokolle erzielten 13 %, 8 % bzw. 5 % als beitragenden Faktor bei der Berechnung von VSH (Abb. 8a). Dies unterstützt weiter, dass das AutoML-Modell ähnliche Parameter verwendet, die erfahrene Petrophysiker zur Berechnung von VSH51 verwenden. Ebenso spielen sowohl Gammastrahlen- als auch Dichteprotokolle mit 48 % bzw. 34 % eine wichtige Rolle bei der Vorhersage der Porosität (Abb. 8b). Während die Dichte üblicherweise zur Berechnung der Gesamtporosität anhand von Bohrlochprotokollen verwendet wird, geht man üblicherweise davon aus, dass Gammastrahlen einen unbedeutenden Einfluss auf die Porositätsberechnung haben. Darüber hinaus hat das Neutronenprotokoll die geringste Bedeutung (18 %) bei der Porositätsvorhersage, was im Widerspruch zur herkömmlichen petrophysikalischen Analyse steht (Abb. 8b). Dieses Phänomen kann jedoch durch die Lithofaziestypen in diesem Athabasca-Ölsandfeld erklärt werden, wo der Großteil der Lithofazies aus Sand, Schiefer und Schiefersand besteht, in denen die Porosität erheblich durch die Gammastrahlenprotokolle beeinflusst werden kann, wie in Abb. 4 dargestellt. Schließlich spielen laut dem wichtigen Feature-Bericht sowohl die Dichte- als auch die Neutronenporositätsprotokolle (DPHI und NPHI) eine wichtige Rolle beim Training des Modells zur Vorhersage des W_Tar (Abb. 8c). Für die Vorhersage von Lithofazies erweist sich der VSH als der einflussreichste Parameter bei der Vorhersage von Lithofazies. Darauf folgen die Gammastrahlen- und Dichteprotokolle. Angesichts der in dieser Studie analysierten Arten von Lithofazies ist es verständlich, warum das Modell VSH bei der Vorhersage von Lithofazies als das dominanteste Merkmal gegenüber dem GR einstuft (Abb. 9). Diese Informationen wären hilfreich für zukünftige Studien, die sich auf die Interpretation von Bohrlochprotokollen bei der Charakterisierung von Lagerstätten konzentrieren.

Histogramm, das die Rangfolge der Merkmalswichtigkeit bei der Vorhersage von (a) Schiefervolumen, (b) Porosität und (c) Bitumenmassenprozentsatz mit AutoML zeigt.

Histogramm, das die Rangfolge der Merkmalsbedeutung bei der Vorhersage von Lithofazien zeigt.

Diese Studie unterstreicht das ungenutzte Potenzial von AutoML zur genauen Vorhersage von Wireline-Protokollen und damit von Reservoireigenschaften mit einem robusteren und effizienteren Arbeitsablauf und geringeren Kohlenstoffemissionen durch den Wegfall zeitaufwändiger manueller Analysen. Unsere Ergebnisse zeigen, dass die vorgeschlagene AutoML-Methode verschiedene Protokolle mit hoher Konsistenz und hoher Genauigkeit vorhersagen kann und gleichzeitig einen recht einfachen Workflow für die Implementierung verwendet. Insgesamt zeichnen sich die AutoML-Prozesse durch die extreme Einfachheit aus, die sie Anfängern mit begrenzter Erfahrung in den Bereichen maschinelles Lernen und Datenwissenschaft bieten. Ein weiterer Vorteil besteht darin, dass beim Experimentieren mit verschiedenen Algorithmen und beim Optimieren der zugehörigen Hyperparameter Zeit und Aufwand gespart werden. Das in dieser Studie verwendete vorgeschlagene Modell und die Bibliothek bieten die Vorteile des traditionellen maschinellen Lernens, da sie eine große Anzahl von Bohrlöchern und verschiedenen Datentypen verarbeiten können und für den Einsatz in der realen Welt skalierbar sind.

Darüber hinaus hat AutoML nützliche Erkenntnisse darüber geliefert, welcher spezifische Algorithmus möglicherweise zur Lösung eines bestimmten Problems angeboten werden könnte. Der Gradient-Boosting-Algorithmus gilt beispielsweise als leistungsstark bei der Klassifizierungsmodellierung, wie etwa der in dieser Studie durchgeführten Fazies-/Lithologievorhersage. Darüber hinaus ist die in den AutoML-Prozess eingebettete prozentuale Berichterstattung über die Merkmalsbedeutung ein nützliches Werkzeug zum Identifizieren von Beziehungen zwischen verschiedenen Merkmalen (Protokollen) und hilft zu erklären, auf welcher Grundlage das Modell seine Entscheidung zur Durchführung einer Vorhersage trifft. Dies wird auch zu einer besseren Nutzung der verfügbaren Daten und einer verbesserten Datenerfassung in zukünftigen Projekten führen. Abschließend zeigt dieses Experiment, dass AutoML ein vielversprechendes Potenzial zur Verbesserung der Formationsbewertung mithilfe einfacher Arbeitsabläufe hat. Dies kann durch die zukünftige Implementierung des AutoML-Workflows für komplexere Fallstudien validiert werden.

Alle in dieser Studie verwendeten Daten sind über https://ags.aer.ca/publication/spe-006 öffentlich verfügbar. Der Quellcode kann auf begründete Anfrage dem entsprechenden Autor zur Verfügung gestellt werden.

Zhang, D., Yuntian, C. & Jin, M. Generierung synthetischer Bohrlochprotokolle über wiederkehrende neuronale Netze. Haustier. Erkunden. Entwickler 45(4), 629–639 (2018).

Artikel Google Scholar

Wood, DA Lithofazies und Stratigraphie-Vorhersagemethodik unter Nutzung eines optimierten Nearest-Neighbor-Algorithmus zur Gewinnung von Bohrlochprotokolldaten. März Haustier. Geol. 110, 347–367 (2019).

Artikel Google Scholar

Sun, Z. et al. Ein datengesteuerter Ansatz zur Lithologieidentifizierung basierend auf Parameter-optimiertem Ensemble-Lernen. Energien 13(15), 3903 (2020).

Artikel Google Scholar

Martin, T., Meyer, R. & Jobe, Z. Lithologie und Faziesvorhersage im Zentimetermaßstab in Bohrkernen mithilfe maschinellen Lernens. Vorderseite. Erdwissenschaft. 9, 659611 (2021).

Artikel Google Scholar

Merembayev, T., Kurmangaliyev, D., Bekbauov, B. & Amanbek, Y. Ein Vergleich von Algorithmen für maschinelles Lernen bei der Vorhersage von Lithofazies: Fallstudien aus Norwegen und Kasachstan. Energien 14(7), 1896 (2021).

Artikel CAS Google Scholar

Xu, C., Misra, S., Srinivasan, P. & Ma, S. Wenn Petrophysik auf Big Data trifft: Was können Maschinen? in SPE Middle East Oil and Gas Show and Conference (OnePetro, 2019).

Xu, C., Fu, L., Lin, T., Li, W. & Ma, S. Maschinelles Lernen in der Petrophysik: Vorteile und Einschränkungen. Kunst. Intel. Geosci. 3, 157–161 (2022).

Google Scholar

Wong, PM, Gedeon, TD & Taggart, IJ Eine verbesserte Technik zur Porositätsvorhersage: Ein neuronaler Netzwerkansatz. IEEE Trans. Geosci. Remote Sens. 33(4), 971–980 (1995).

Artikel ADS Google Scholar

Al-Anazi, AF & Gates, ID Unterstützungsvektorregression für die Porositätsvorhersage in einem heterogenen Reservoir: Eine vergleichende Studie. Berechnen. Geosci. 36(12), 1494–1503 (2010).

Artikel ADS Google Scholar

Chen, W., Yang, L., Zha, B., Zhang, M. & Chen, Y. Deep-Learning-Vorhersage der Reservoirporosität basierend auf einem mehrschichtigen Netzwerk mit langem Kurzzeitgedächtnis. Geophysik 85(4), WA213–WA225 (2020).

Artikel ADS Google Scholar

Yang, L. et al. Porositäts- und Permeabilitätsvorhersage mithilfe eines Transformators und eines periodischen Langzeit-Kurzzeitnetzwerks. Geophysik 88(1), WA293–WA308 (2023).

Artikel ADS Google Scholar

Al-Mudhafar, JW Integration von Lithofazies und Bohrlochprotokollierungsdaten in ein glattes verallgemeinertes additives Modell für eine verbesserte Permeabilitätsschätzung: Zubair-Formation, Ölfeld South Rumaila. Meeresgeophys. Res. 40, 315–332 (2019).

Artikel ADS Google Scholar

Al-Mudhafar-, WJ Bayesian- und LASSO-Regressionen zur vergleichenden Permeabilitätsmodellierung von Sandsteinreservoirs. Nat. Ressource. Res. 28(1), 47–62 (2019).

Artikel Google Scholar

Pirrone, M., Battigelli, A. & Ruvo, L. Lithofazies-Klassifizierung von dünnschichtigen Reservoirs durch die Integration von Kerndaten und dielektrischen Dispersionsprotokollmessungen in der jährlichen technischen Konferenz und Ausstellung der SPE? SPE-170748. (SPE, 2014).

Qi, L. & Carr, TR Neuronale Netzwerkvorhersage von Karbonat-Lithofazies aus Bohrlochprotokollen, Big Bow- und Sand Arroyo Creek-Felder, Südwest-Kansas. Berechnen. Geosci. 32(7), 947–964 (2006).

Artikel ADS Google Scholar

Hall, B. Fazies-Klassifizierung mittels maschinellem Lernen. Führen. Kante 35(10), 906–909 (2016).

Artikel Google Scholar

Al-Mudhafar, WJ Integration von maschinellem Lernen und Datenanalyse zur geostatistischen Charakterisierung klastischer Lagerstätten. J. Benzin. Wissenschaft. Ing. 195, 107837 (2020).

Artikel CAS Google Scholar

Al-Mudhafar, WJ, Abbas, MA & Wood, DA Leistungsbewertung von Boosting-Algorithmen für maschinelles Lernen für die Klassifizierung von Lithofazies in heterogenen Karbonatreservoirs. März Haustier. Geol. 145, 105886 (2022).

Artikel Google Scholar

Bestagini, P., Lipari, V. und Tubaro, S. Ein maschineller Lernansatz zur Faziesklassifizierung mithilfe von Bohrlochprotokollen, in Seg Technical Program Expanded Abstracts 2017 2137–2142 (Society of Exploration Geophysicists, Houston, 2017).

Ippolito, M., Ferguson, J. & Jenson, F. Verbesserung der Faziesvorhersage durch die Kombination überwachter und unüberwachter Lernmethoden. J. Benzin. Wissenschaft. Ing. 200, 108300 (2021).

Artikel CAS Google Scholar

Mohamed, IM, Mohamed, S., Mazher, I. & Chester, P. Klassifizierung der Formationslithologie: Einblicke in Methoden des maschinellen Lernens, in SPE Annual Technical Conference and Exhibition (2019).

Jaikla, Chayawan et al. FaciesNet: Anwendungen des maschinellen Lernens zur Faziesklassifizierung in Bohrlochprotokollen, im zweiten Workshop zu maschinellem Lernen und den physikalischen Wissenschaften auf der 33. Konferenz über neuronale Informationsverarbeitungssysteme (NeurIPS). (2019).

Koeshidayatullah, A., Morsilli, M., Lehrmann, DJ, Al-Ramadan, K. & Payne, JL Vollautomatische Carbonatpetrographie unter Verwendung tiefer Faltungs-Neuronalnetze. März Haustier. Geol. 122, 104687 (2020).

Artikel CAS Google Scholar

Koeshidayatullah, A. Optimierung des bildbasierten Deep Learning für die Energiegeowissenschaften durch einen mühelosen End-to-End-Ansatz. J. Benzin. Wissenschaft. Ing. 215, 110681 (2022).

Artikel CAS Google Scholar

Koeshidayatullah, A., Al-Azani, S., Baraboshkin, EE & Alfarraj, M. Faciesvit: Vision Transformer für eine verbesserte Vorhersage der Kernlithofazies. Vorderseite. Erdwissenschaft. 10, 992442 (2022).

Artikel ADS Google Scholar

He, X., Zhao, K. & Chu, X. AutoML: Ein Überblick über den Stand der Technik. Wissen. Basierend auf Syst. 212, 106622 (2021).

Artikel Google Scholar

Karmaker, SK et al. Automl bis heute und darüber hinaus: Herausforderungen und Chancen. ACM-Computing. Überleben. (CSUR) 54(8), 1–36 (2021).

Artikel Google Scholar

Tsiakmaki, M., Kostopoulos, G., Kotsiantis, S. & Ragos, O. Implementierung von AutoML im Bildungs-Data-Mining für Vorhersageaufgaben. Appl. Wissenschaft. 10(1), 90 (2019).

Artikel Google Scholar

Wever, M., Tornede, A., Mohr, F. & Hüllermeier, E. AutoML für die Multi-Label-Klassifizierung: Überblick und empirische Bewertung. IEEE Trans. Muster Anal. Mach. Intel. 43(9), 3037–3054 (2021).

Artikel PubMed Google Scholar

Muenban, S. & Thongsang, P. Automatisches maschinelles Lernen (AutoML) für die petrophysikalische Auswertung: Fallstudie im Sirikit-Feld Thailand. Stier. Erdwissenschaft. Thail. 13(2), 1–12 (2021).

Google Scholar

Alberta Energy Regulator (AER), (2015).

Hein, FJ, Cotterill, DK & Berhane, H. Ein Atlas der Lithofazies der Athabasca-Ölsandlagerstätte der McMurray-Formation im Nordosten von Alberta: Oberfläche und Untergrund 200 (Alberta Energy and Utilities Board, Edmonton, 2000).

Hein, FJ, Dolby, G. & Fairgrieve, B. Ein regionaler geologischer Rahmen für die Athabasca-Ölsande im Nordosten von Alberta, Kanada, (2013).

Hein, FJ Die kreidezeitlichen McMurray-Ölsande, Alberta, Kanada: Ein erstklassiges, von Gezeiten beeinflusstes Fluss-Mündungssystem – eine Perspektive der Regierung von Alberta, in Developments in Sedimentology 68, 561–621 (Elsevier, 2015).

Tozer, RS, Choi, AP, Pietras, JT & Tanasichuk, DJ Athabasca-Ölsande: Megatrap-Restaurierung und Ladezeitpunkt. AAPG Bull. 98(3), 429–447 (2014).

Artikel Google Scholar

Creaney, S. et al. Erdölförderung und -migration im Sedimentbecken Westkanadas. Geol. Atlas West. Dürfen. Sediment. Becken 31, 455–468 (1994).

Google Scholar

Nardin, T., Carter, J., Falls, B., Irish, J., Stancliffe, S., Varban, B., Wilson, N., Zabcic, L. & Pratt, L. Stratigraphisches und ablagerungsfazielles Rahmenwerk der Sequenz of the Lower Cretaceous McMurray Formation, Kearl Oil Sands Project, Alberta, in CSPG CSEG CWLS Conference 2007, 707 (2007).

Tang, M., Zhang, K., Huang, J. & Lu, S. Fazies und die Architektur des Mündungsgezeitenstreifens in der unteren Kreidezeit der Mcmurray-Formation, Central Athabasca Oil Sands, Alberta, Kanada. Energies 12(9), 1769 (2019).

Artikel Google Scholar

Tonn, R. Tiefenkonvertierung und seismische Lithologieinversion eines McMurray-Ölsandreservoirs. CSEG Rec. 35(9), 26–35 (2010).

Google Scholar

Hein, FJ & Cotterill, DK Die Athabasca-Ölsande – eine regionale geologische Perspektive, Fort McMurray-Gebiet, Alberta, Kanada. Nat. Ressource. Res. 15, 85–102 (2006).

Artikel CAS Google Scholar

Breiman, L. Zufällige Wälder. Mach. Lernen. 45, 5–32 (2001).

Artikel MATH Google Scholar

Cutler, A., Cutler, DR & Stevens, JR Zufällige Wälder. Ensemble Mach. Lernen. Methoden Appl. 45, 157–175 (2012).

Artikel Google Scholar

Yarveicy, H., Saghafi, H., Ghiasi, MM & Mohammadi, AH Entscheidungsbaumbasierte Modellierung der CO2-Gleichgewichtsabsorption in verschiedenen wässrigen Lösungen von Absorptionsmitteln. Umgebung. Prog. Aufrechterhalten. Energie 38(s1), S441–S448 (2019).

Artikel CAS Google Scholar

Schapire, RE Der Boosting-Ansatz für maschinelles Lernen: Ein Überblick. Nichtlineare Schätzung. Klassif. 171, 149–171 (2003).

Artikel MathSciNet MATH Google Scholar

Freund, Y. & Schapire, RE Eine entscheidungstheoretische Verallgemeinerung des Online-Lernens und eine Anwendung auf Boosting. J. Comput. Syst. Wissenschaft. 55(1), 119–139 (1997).

Artikel MathSciNet MATH Google Scholar

Truong, A., Walters, A., Goodsitt, J., Hines, K., Bruss, CB & Farivar, R. Auf dem Weg zum automatisierten maschinellen Lernen: Bewertung und Vergleich von AutoML-Ansätzen und -Tools. (2019)

LeDell, E. & Poirier, S. H2o automl: Skalierbares automatisches maschinelles Lernen, in Proceedings of the AutoML Workshop at ICML (Vol. 2020). (ICML, 2020).

Al-Mudhafar, WJ Advanced überwachte Algorithmen für maschinelles Lernen zur effizienten Elektrofazies-Klassifizierung eines Karbonatreservoirs in einem riesigen südirakischen Ölfeld in der Offshore Technology Conference (S. D012S001R014). (OTC, 2020).

Saporetti, CM, da Fonseca, LG, Pereira, E. & de Oliveira, LC Ansätze des maschinellen Lernens für die petrographische Klassifizierung von karbonat-siliziklastischen Gesteinen mithilfe von Bohrlochprotokollen und Texturinformationen. J. Appl. Geophys. 155, 217–225 (2018).

Artikel ADS Google Scholar

Palacios Salinas, NR, Baratchi, M., van Rijn, JN & Vollrath, A. Automatisiertes maschinelles Lernen für Satellitendaten: Integration vorab trainierter Fernerkundungsmodelle in AutoML-Systeme, in der Joint European Conference on Machine Learning and Knowledge Discovery in Databases. 447–462. (Springer, Cham, 2021).

Al-Mudhafar, WJ Integration von Bohrlochprotokollinterpretationen für die Klassifizierung von Lithofazies und die Permeabilitätsmodellierung durch fortschrittliche Algorithmen für maschinelles Lernen. J. Pet. Entdecken. Prod. Technol. 7(4), 1023–1103 (2017).

Artikel Google Scholar

Referenzen herunterladen

Der Autor würdigte den Beitrag der King Fahd University of Petroleum and Minerals, Saudi-Arabien, bei der Bereitstellung der Einrichtungen zur Durchführung dieser Studie im Rahmen eines Forschungsstipendiums des SDAIA-KFUPM Joint Research Center for Artificial Intelligence (CAI02564), das an AK vergeben wurde

Fachbereich Geowissenschaften, College of Petroleum Engineering and Geosciences, King Fahd University of Petroleum and Minerals, Dhahran, Saudi-Arabien

Yousef Mubarak und Ardiansyah Koeshidayatullah

Zentrum für integrative Erdölforschung, College of Petroleum Engineering and Geosciences, King Fahd University of Petroleum and Minerals, Dhahran, Saudi-Arabien

Ardiansyah Koeshidayatullah

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

YM und AK haben den Haupttext des Manuskripts geschrieben und alle Abbildungen vorbereitet. YM führte die Analyse durch. AK überwachte die Forschung und konzipierte die Idee. YM und AK überprüften das Manuskript.

Korrespondenz mit Ardiansyah Koeshidayatullah.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Mubarak, Y., Koeshidayatullah, A. Hierarchisches automatisiertes maschinelles Lernen (AutoML) für erweiterte unkonventionelle Reservoircharakterisierung. Sci Rep 13, 13812 (2023). https://doi.org/10.1038/s41598-023-40904-0

Zitat herunterladen

Eingegangen: 07. Juni 2023

Angenommen: 18. August 2023

Veröffentlicht: 24. August 2023

DOI: https://doi.org/10.1038/s41598-023-40904-0

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.