Understanding the Gini Index and Information Gain in Decision Trees

Neelam Tyagi

Follow

Mar 24, 2020 – 5 min read

Der Gini-Index ist nicht an die Logarithmusfunktion gebunden und geht über den Informationsgewinn hinaus; erfahren Sie, warum der Gini-Index zur Aufteilung eines Entscheidungsbaums verwendet werden kann.

Beginnend mit Data Mining, einem neu verfeinerten Ansatz, der erfolgreich in der Datenvorhersage eingesetzt werden kann, ist es eine vorteilhafte Methode, die für die Datenanalyse verwendet wird, um Trends und Zusammenhänge in Daten zu entdecken, die echte Störungen hervorrufen könnten.

Zu den beliebten Werkzeugen, die beim Data Mining eingesetzt werden, gehören künstliche neuronale Netze (ANN), logistische Regression, Diskriminanzanalyse und Entscheidungsbäume.

Der Entscheidungsbaum ist das bekannteste und leistungsfähigste Werkzeug, das leicht zu verstehen und schnell zu implementieren ist, um Wissen aus großen und komplexen Datensätzen zu gewinnen.

Einführung

Die Zahl der Theoretiker und Praktiker überarbeitet regelmäßig die Techniken, um den Prozess strenger, angemessener und kostengünstiger zu gestalten.

Anfänglich werden Entscheidungsbäume in der Entscheidungstheorie und Statistik in großem Umfang eingesetzt. Sie sind auch überzeugende Werkzeuge in den Bereichen Data Mining, Information Retrieval, Text Mining und Mustererkennung beim maschinellen Lernen.

Hier empfehle ich die Lektüre meines vorangegangenen Artikels, um Ihr Wissen über Entscheidungsbäume zu vertiefen und zu schärfen.

Das Wesen von Entscheidungsbäumen besteht darin, die Datensätze in ihre Abschnitte zu unterteilen, aus denen indirekt ein Entscheidungsbaum (invertiert) mit Wurzelknoten an der Spitze entsteht. Das geschichtete Modell des Entscheidungsbaums führt durch das Übergehen der Knoten der Bäume zum Endergebnis.

Hier umfasst jeder Knoten ein Attribut (Merkmal), das zur Wurzelursache für die weitere Aufteilung in abwärts gerichteter Richtung wird.

Können Sie beantworten,

  1. wie man entscheidet, welches Merkmal am Wurzelknoten liegen soll,
  2. das genaueste Merkmal, das als interner Knoten oder als Blattknoten dienen soll,
  3. wie man den Baum aufteilt,
  4. wie man die Genauigkeit der Aufteilung des Baumes misst und vieles mehr.

Es gibt einige fundamentale Aufteilungsparameter, um die oben erwähnten erheblichen Probleme zu lösen. Und ja, im Rahmen dieses Artikels werden wir die Entropie, den Gini-Index, den Informationsgewinn und ihre Rolle bei der Ausführung der Entscheidungsbaumtechnik behandeln.

Während des Prozesses der Entscheidungsfindung nehmen mehrere Merkmale teil, und es wird wichtig, die Relevanz und die Folgen jedes Merkmals zu berücksichtigen, so dass das entsprechende Merkmal am Wurzelknoten zugewiesen wird und die Aufteilung der Knoten nach unten erfolgt.

Der Weg nach unten führt zu einer Verringerung des Grades an Unreinheit und Ungewissheit und führt zu einer besseren Klassifizierung oder Eliteaufteilung an jedem Knoten.

Um dies zu erreichen, werden Aufteilungsmaße wie Entropie, Informationsgewinn, Gini-Index usw. verwendet.

Definition der Entropie

„Was ist Entropie?“ In den Worten von Lyman ist sie nicht nur das Maß der Unordnung oder das Maß der Reinheit. Im Grunde ist es das Maß für die Unreinheit oder Zufälligkeit in den Datenpunkten.

Eine hohe Ordnung der Unordnung bedeutet einen niedrigen Grad an Unreinheit, lassen Sie es mich vereinfachen. Die Entropie wird zwischen 0 und 1 berechnet, obwohl sie je nach Anzahl der im Datensatz vorhandenen Gruppen oder Klassen größer als 1 sein kann, aber sie bedeutet dasselbe, nämlich einen höheren Grad an Unordnung.

Der Einfachheit halber beschränken wir den Wert der Entropie auf einen Wert zwischen 0 und 1.

In der nachstehenden Abbildung stellt ein umgekehrtes „U“ die Veränderung der Entropie im Diagramm dar, wobei die x-Achse die Datenpunkte und die y-Achse den Wert der Entropie anzeigt. Die Entropie ist am niedrigsten (keine Unordnung) an den Extremen (beide Enden) und am höchsten (hohe Unordnung) in der Mitte des Diagramms.

Variation der Entropie gegen die Datenpunkte

„Entropie ist ein Grad der Zufälligkeit oder Ungewissheit, der wiederum das Ziel von Data Scientists und ML-Modellen erfüllt, die Unsicherheit zu reduzieren.“

Was ist Informationsgewinn?

Das Konzept der Entropie spielt eine wichtige Rolle bei der Berechnung des Informationsgewinns.

Der Informationsgewinn wird angewandt, um zu quantifizieren, welches Merkmal maximale Informationen über die Klassifizierung auf der Grundlage des Begriffs der Entropie liefert, d. h. durch Quantifizierung der Größe der Unsicherheit, Unordnung oder Unreinheit, im Allgemeinen mit der Absicht, den Betrag der Entropie von oben (Wurzelknoten) nach unten (Blattknoten) zu verringern.

Der Informationsgewinn ergibt sich aus dem Produkt der Wahrscheinlichkeiten der Klasse mit einem Logarithmus zur Basis 2 dieser Klassenwahrscheinlichkeit, die Formel für die Entropie ist unten angegeben:

Entropieformel

Hier bezeichnet „p“ die Wahrscheinlichkeit, die eine Funktion der Entropie ist.

Gini-Index in Aktion

Der Gini-Index, der auch als Gini-Verunreinigung bezeichnet wird, berechnet die Höhe der Wahrscheinlichkeit, dass ein bestimmtes Merkmal bei einer Zufallsauswahl falsch klassifiziert wird. Wenn alle Elemente mit einer einzigen Klasse verbunden sind, kann man sie als rein bezeichnen.

Betrachten wir das Kriterium des Gini-Index, so variiert der Gini-Index wie die Eigenschaften der Entropie zwischen den Werten 0 und 1, wobei 0 die Reinheit der Klassifizierung ausdrückt, d. h. alle Elemente gehören zu einer bestimmten Klasse oder es gibt nur eine Klasse. Und 1 zeigt die zufällige Verteilung der Elemente auf verschiedene Klassen an. Der Wert 0,5 des Gini-Index zeigt eine Gleichverteilung der Elemente auf einige Klassen an.

Bei der Erstellung des Entscheidungsbaums werden die Merkmale bevorzugt, die den geringsten Wert des Gini-Index aufweisen. Sie können einen anderen baumbasierten Algorithmus (Random Forest) erlernen.

Der Gini-Index wird bestimmt, indem die Summe der Quadrate der Wahrscheinlichkeiten jeder Klasse von eins abgezogen wird. Mathematisch kann der Gini-Index wie folgt ausgedrückt werden:

Gini-Index-Formel

wobei Pi die Wahrscheinlichkeit bezeichnet, dass ein Element einer bestimmten Klasse zugeordnet wird.

Der Klassifizierungs- und Regressionsbaum-Algorithmus (CART) verwendet die Methode des Gini-Index, um binäre Aufteilungen zu erstellen.

Außerdem nutzen Entscheidungsbaum-Algorithmen den Informationsgewinn, um einen Knoten zu teilen, und der Gini-Index oder die Entropie ist der Weg, um den Informationsgewinn zu gewichten.

Gini-Index vs. Informationsgewinn

Wirf einen Blick auf die Diskrepanz zwischen Gini-Index und Informationsgewinn,

  1. Der Gini-Index begünstigt größere Verteilungen, die leicht zu implementieren sind, während der Informationsgewinn kleinere Verteilungen begünstigt, die eine kleine Anzahl mit mehreren spezifischen Werten haben.
  2. Die Methode des Gini-Index wird von CART-Algorithmen verwendet, im Gegensatz dazu wird der Informationsgewinn in ID3- und C4.5-Algorithmen verwendet.
  3. Der Gini-Index arbeitet mit den kategorialen Zielvariablen im Sinne von „Erfolg“ oder „Misserfolg“ und führt nur eine binäre Aufteilung durch, im Gegensatz dazu berechnet der Informationsgewinn die Differenz zwischen der Entropie vor und nach der Aufteilung und zeigt die Unreinheit in den Klassen der Elemente an.

Schlussfolgerung

Gini-Index und Informationsgewinn werden für die Analyse des Echtzeit-Szenarios verwendet, und die Daten sind real, die von der Echtzeit-Analyse erfasst werden. In zahlreichen Definitionen wird sie auch als „Unreinheit der Daten“ oder „wie die Daten verteilt sind“ bezeichnet. So können wir berechnen, welche Daten weniger oder mehr an der Entscheidungsfindung beteiligt sind.

Heute gibt es zum Abschluss unsere Top-Lektüre:

  1. Was ist OpenAI GPT-3?
  2. Reliance Jio und JioMart: Marketingstrategie, SWOT-Analyse und funktionierendes Ökosystem.
  3. 6 Hauptbereiche der Künstlichen Intelligenz (KI).
  4. Top 10 Big Data Technologien im Jahr 2020
  5. Wie verändert die Analytik das Gastgewerbe

Oh toll, Sie haben es bis zum Ende dieses Blogs geschafft! Vielen Dank fürs Lesen!!!!!

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.