Understanding the Gini Index and Information Gain in Decision Trees
Neelam Tyagi
Follow
Mar 24, 2020 – 5 min citește
„Entropia este un grad de aleatoriu sau de incertitudine, la rândul său, satisface obiectivul cercetătorilor de date și al modelelor ML de a reduce incertitudinea.”
Ce este Câștigul de informație?
Noțiunea de entropie joacă un rol important în calcularea Câștigului de informație.
Câștigul de informație se aplică pentru a cuantifica ce caracteristică oferă informații maxime despre clasificare pe baza noțiunii de entropie, adică prin cuantificarea mărimii incertitudinii, a dezordinii sau a impurității, în general, cu intenția de a diminua cantitatea de entropie inițiată din partea de sus (nodul rădăcină) spre partea de jos (nodurile de frunze).
Câștigul de informație ia produsul probabilităților clasei cu un log având baza 2 a probabilității acelei clase, formula pentru Entropie este dată mai jos:
Formula Entropiei
Aici „p” denotă probabilitatea care este o funcție a entropiei.
Indexul Gini în acțiune
Indexul Gini, cunoscut și sub numele de impuritatea Gini, calculează cantitatea de probabilitate ca o anumită caracteristică să fie clasificată incorect atunci când este selectată la întâmplare. Dacă toate elementele sunt legate de o singură clasă, atunci aceasta poate fi numită pură.
Să percepem criteriul indicelui Gini, ca și proprietățile entropiei, indicele Gini variază între valorile 0 și 1, unde 0 exprimă puritatea clasificării, adică Toate elementele aparțin unei clase specificate sau există o singură clasă acolo. Iar 1 indică distribuția aleatorie a elementelor în diferite clase. Valoarea de 0,5 a indicelui Gini arată o distribuție egală a elementelor în anumite clase.
În timpul proiectării arborelui de decizie, caracteristicile care posedă cea mai mică valoare a indicelui Gini vor fi preferate. Puteți învăța un alt algoritm bazat pe arbori (Random Forest).
Indicele Gini se determină prin deducerea sumei pătratelor probabilităților fiecărei clase de la una, matematic, indicele Gini poate fi exprimat astfel:
Formula indicelui Gini
Unde Pi reprezintă probabilitatea ca un element să fie clasificat pentru o clasă distinctă.
Algoritmul de clasificare și arbore de regresie (CART) implementează metoda indicelui Gini pentru a genera diviziuni binare.
În plus, algoritmii arborelui de decizie exploatează câștigul de informație pentru a diviza un nod, iar indicele Gini sau Entropia este pasajul pentru a cântări câștigul de informație.
Indexul Gini vs. Câștigul de informație
Aruncați o privire mai jos pentru a obține discrepanța dintre Indicele Gini și Câștigul de informație,
Indexul Gini facilitează distribuțiile mai mari atât de ușor de implementat în timp ce Câștigul de informație favorizează distribuțiile mai mici având un număr mic cu mai multe valori specifice.
Metoda indicelui Gini este utilizată de algoritmii CART, spre deosebire de aceasta, Information Gain este utilizată în algoritmii ID3, C4.5.
Indicele Gini operează pe variabilele țintă categorice în termeni de „succes” sau „eșec” și efectuează doar divizarea binară, spre deosebire de aceasta, Information Gain calculează diferența dintre entropia înainte și după divizare și indică impuritatea în clasele de elemente.
Concluzie
Indicele Gini și Information Gain sunt utilizate pentru analiza scenariului în timp real, iar datele sunt reale care sunt capturate din analiza în timp real. În numeroase definiții, acesta a fost menționat și ca „impuritatea datelor” sau ” modul în care sunt distribuite datele”. Astfel, putem calcula ce date participă mai puțin sau mai mult la luarea deciziilor.
Astăzi închei cu primele noastre lecturi:
Ce este OpenAI GPT-3?
Reliance Jio și JioMart: Strategia de marketing, analiza SWOT și ecosistemul de lucru.
6 ramuri majore ale inteligenței artificiale (AI).
Top 10 tehnologii Big Data în 2020
Cum transformă analiza industria ospitalității
Oh, minunat, ați ajuns la sfârșitul acestui blog! Vă mulțumim că ați citit!!!!!