Kvantilovo-kvantilový graf (q-q graf) je grafická metóda na určenie, či súbor údajov sleduje určité rozdelenie pravdepodobnosti alebo či dve vzorky údajov pochádzajú z rovnakého populácia alebo nie. Grafy Q-Q sú obzvlášť užitočné na posúdenie, či súbor údajov je normálne distribuované alebo ak nasleduje nejaké iné známe rozdelenie. Bežne sa používajú v štatistike, analýze údajov a kontrole kvality na kontrolu predpokladov a identifikáciu odchýlok od očakávaných distribúcií.
Kvantily a percentily
Kvantily sú body v súbore údajov, ktoré rozdeľujú údaje do intervalov obsahujúcich rovnaké pravdepodobnosti alebo podiely celkového rozdelenia. Často sa používajú na opis šírenia alebo distribúcie súboru údajov. Najbežnejšie kvantily sú:
- Medián (50. percentil) : Medián je stredná hodnota množiny údajov, keď je zoradená od najmenšej po najväčšiu. Rozdeľuje súbor údajov na dve rovnaké polovice.
- Kvartily (25., 50. a 75. percentil) : Kvartily rozdeľujú množinu údajov na štyri rovnaké časti. Prvý kvartil (Q1) je hodnota, pod ktorú spadá 25 % údajov, druhý kvartil (Q2) je medián a tretí kvartil (Q3) je hodnota, pod ktorú spadá 75 % údajov.
- Percentily : Percentily sú podobné kvartilom, ale rozdeľujú súbor údajov na 100 rovnakých častí. Napríklad 90. percentil je hodnota, pod ktorú spadá 90 % údajov.
Poznámka:
- q-q graf je graf kvantilov prvého súboru údajov oproti kvantilom druhého súboru údajov.
- Na referenčné účely je vynesená aj 45 % čiara; Pre ak sú vzorky z rovnakej populácie, potom sú body pozdĺž tejto čiary.
Normálna distribúcia:
Normálne rozdelenie (aka Gaussovo rozdelenie Bellova krivka) je spojité rozdelenie pravdepodobnosti reprezentujúce rozdelenie získané z náhodne generovaných reálnych hodnôt.
. 


Normálna distribúcia s oblasťou pod krivkou
Ako nakresliť graf Q-Q?
Ak chcete nakresliť kvantilovo-kvantilový (Q-Q) graf, môžete postupovať podľa týchto krokov:
- Zbierajte údaje : Zhromaždite množinu údajov, pre ktorú chcete vytvoriť graf Q-Q. Uistite sa, že údaje sú číselné a predstavujú náhodnú vzorku zo záujmovej populácie.
- Zoradiť údaje : Usporiadajte údaje vo vzostupnom alebo zostupnom poradí. Tento krok je nevyhnutný pre presný výpočet kvantilov.
- Vyberte teoretické rozdelenie : Určite teoretické rozdelenie, s ktorým chcete porovnať svoj súbor údajov. Bežné možnosti zahŕňajú normálne rozdelenie, exponenciálne rozdelenie alebo akékoľvek iné rozloženie, ktoré dobre vyhovuje vašim údajom.
- Vypočítajte teoretické kvantily : Vypočítajte kvantily pre zvolené teoretické rozdelenie. Ak napríklad porovnávate s normálnym rozdelením, na nájdenie očakávaných kvantilov by ste použili funkciu inverzného kumulatívneho rozdelenia (CDF) normálneho rozdelenia.
- Plotovanie :
- Vyneste zoradené hodnoty množiny údajov na os x.
- Zodpovedajúce teoretické kvantily naneste na os y.
- Každý údajový bod (x, y) predstavuje pár pozorovaných a očakávaných hodnôt.
- Spojte údajové body, aby ste vizuálne skontrolovali vzťah medzi súborom údajov a teoretickým rozdelením.
Interpretácia grafu Q-Q
- Ak body na grafe padajú približne pozdĺž priamky, znamená to, že váš súbor údajov sleduje predpokladané rozdelenie.
- Odchýlky od priamky naznačujú odchýlky od predpokladaného rozloženia, čo si vyžaduje ďalšie skúmanie.
Skúmanie podobnosti distribúcie s grafmi Q-Q
Skúmanie podobnosti distribúcie pomocou grafov Q-Q je základnou úlohou v štatistike. Porovnanie dvoch súborov údajov s cieľom určiť, či pochádzajú z rovnakej distribúcie, je nevyhnutné na rôzne analytické účely. Ak platí predpoklad spoločného rozdelenia, zlúčenie množín údajov môže zlepšiť presnosť odhadu parametrov, ako je umiestnenie a mierka. Q-Q grafy, skratka pre kvantilovo-kvantilové grafy, ponúkajú vizuálnu metódu na hodnotenie distribučnej podobnosti. V týchto grafoch sú kvantily z jedného súboru údajov vynesené oproti kvantilom z iného. Ak sú body tesne zarovnané pozdĺž diagonálnej čiary, naznačuje to podobnosť medzi rozdeleniami. Odchýlky od tejto diagonálnej čiary naznačujú rozdiely v distribučných charakteristikách.
Zatiaľ čo testy ako napr chí-kvadrát a Kolmogorov-Smirnov testy môžu vyhodnotiť celkové rozdiely v distribúcii, grafy Q-Q poskytujú nuansovanú perspektívu priamym porovnaním kvantilov. To umožňuje analytikom rozpoznať špecifické rozdiely, ako sú posuny v umiestnení alebo zmeny v rozsahu, ktoré nemusia byť zrejmé len z formálnych štatistických testov.
Python Implementácia Q-Q Plot
Python3
import> numpy as np> import> matplotlib.pyplot as plt> import> scipy.stats as stats> # Generate example data> np.random.seed(>0>)> data>=> np.random.normal(loc>=>0>, scale>=>1>, size>=>1000>)> # Create Q-Q plot> stats.probplot(data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Normal Q-Q plot'>)> plt.xlabel(>'Theoretical quantiles'>)> plt.ylabel(>'Ordered Values'>)> plt.grid(>True>)> plt.show()> |
>
>
Výkon:
Q-Q graf
Keďže dátové body približne sledujú priamku v grafe Q-Q, naznačuje to, že súbor údajov je v súlade s predpokladaným teoretickým rozdelením, ktoré sme v tomto prípade považovali za normálne rozdelenie.
Výhody grafu Q-Q
- Flexibilné porovnanie : Grafy Q-Q môžu porovnávať súbory údajov rôznych veľkostí bez vyžadujúce rovnakú veľkosť vzoriek.
- Bezrozmerná analýza : Sú bezrozmerné, vďaka čomu sú vhodné na porovnávanie súborov údajov s rôznych jednotiek alebo mierok.
- Vizuálna interpretácia : Poskytuje jasnú vizuálnu reprezentáciu distribúcie údajov v porovnaní s teoretickou distribúciou.
- Citlivé na odchýlky : Ľahko zisťuje odchýlky od predpokladaných distribúcií a pomáha pri identifikácii nezrovnalostí v údajoch.
- Diagnostický nástroj : Pomáha pri hodnotení distribučných predpokladov, identifikácii odľahlých hodnôt a pochopení vzorov údajov.
Aplikácie kvantilovo-kvantilového grafu
Kvantilovo-kvantilový graf sa používa na tento účel:
- Posudzovanie distribučných predpokladov : Grafy Q-Q sa často používajú na vizuálnu kontrolu, či súbor údajov sleduje špecifické rozdelenie pravdepodobnosti, ako je napríklad normálne rozdelenie. Porovnaním kvantilov pozorovaných údajov s kvantilmi predpokladaného rozdelenia možno zistiť odchýlky od predpokladaného rozdelenia. Toto je kľúčové v mnohých štatistických analýzach, kde platnosť distribučných predpokladov ovplyvňuje presnosť štatistických záverov.
- Detekcia odľahlých hodnôt : Odľahlé hodnoty sú údajové body, ktoré sa výrazne líšia od zvyšku súboru údajov. Grafy Q-Q môžu pomôcť identifikovať odľahlé hodnoty odhalením údajových bodov, ktoré sú ďaleko od očakávaného vzoru distribúcie. Odľahlé hodnoty sa môžu objaviť ako body, ktoré sa odchyľujú od očakávanej priamky v grafe.
- Porovnanie distribúcií : Grafy Q-Q možno použiť na porovnanie dvoch súborov údajov, aby ste zistili, či pochádzajú z rovnakej distribúcie. To sa dosiahne vynesením kvantilov jedného súboru údajov oproti kvantilom iného súboru údajov. Ak body padajú približne pozdĺž priamky, znamená to, že tieto dva súbory údajov pochádzajú z rovnakého rozloženia.
- Hodnotenie normality : Grafy Q-Q sú obzvlášť užitočné na posúdenie normality súboru údajov. Ak údajové body v grafe tesne sledujú priamku, znamená to, že súbor údajov je približne normálne rozložený. Odchýlky od línie naznačujú odchýlky od normálu, čo si môže vyžadovať ďalšie skúmanie alebo neparametrické štatistické techniky.
- Validácia modelu : V oblastiach ako ekonometria a strojové učenie sa grafy Q-Q používajú na overenie prediktívnych modelov. Porovnaním kvantilov pozorovaných odpovedí s kvantilmi predpovedanými modelom je možné posúdiť, ako dobre model zodpovedá údajom. Odchýlky od očakávaného vzoru môžu naznačovať oblasti, v ktorých model potrebuje zlepšenie.
- Kontrola kvality : Q-Q grafy sa používajú v procesoch kontroly kvality na monitorovanie distribúcie nameraných alebo pozorovaných hodnôt v čase alebo v rôznych šaržiach. Odchýlky od očakávaných vzorov v grafe môžu signalizovať zmeny v základných procesoch, čo si vyžiada ďalšie skúmanie.
Typy Q-Q grafov
Existuje niekoľko typov grafov Q-Q bežne používaných v štatistike a analýze údajov, pričom každý je vhodný pre rôzne scenáre alebo účely:
- Normálna distribúcia : Symetrické rozdelenie, kde graf Q-Q zobrazuje body približne pozdĺž diagonálnej čiary, ak sa údaje pridržiavajú normálneho rozdelenia.
- Pravoskosená distribúcia : Distribúcia, kde graf Q-Q zobrazuje vzor, v ktorom sa pozorované kvantily odchyľujú od priamky smerom k hornému koncu, čo naznačuje dlhší koniec na pravej strane.
- Distribúcia skosená doľava : Distribúcia, kde by graf Q-Q vykazoval vzor, v ktorom sa pozorované kvantily odchyľujú od priamky smerom k dolnému koncu, čo naznačuje dlhší koniec na ľavej strane.
- Nedostatočne rozptýlená distribúcia : Distribúcia, kde by graf Q-Q ukázal pozorované kvantily zhlukované tesnejšie okolo diagonálnej čiary v porovnaní s teoretickými kvantilmi, čo naznačuje nižší rozptyl.
- Príliš rozptýlená distribúcia : Distribúcia, kde graf Q-Q zobrazuje pozorované kvantily viac rozložené alebo odchyľujúce sa od diagonálnej čiary, čo naznačuje vyšší rozptyl alebo rozptyl v porovnaní s teoretickým rozložením.
Python3
import> numpy as np> import> matplotlib.pyplot as plt> import> scipy.stats as stats> # Generate a random sample from a normal distribution> normal_data>=> np.random.normal(loc>=>0>, scale>=>1>, size>=>1000>)> # Generate a random sample from a right-skewed distribution (exponential distribution)> right_skewed_data>=> np.random.exponential(scale>=>1>, size>=>1000>)> # Generate a random sample from a left-skewed distribution (negative exponential distribution)> left_skewed_data>=> ->np.random.exponential(scale>=>1>, size>=>1000>)> # Generate a random sample from an under-dispersed distribution (truncated normal distribution)> under_dispersed_data>=> np.random.normal(loc>=>0>, scale>=>0.5>, size>=>1000>)> under_dispersed_data>=> under_dispersed_data[(under_dispersed_data>>->1>) & (under_dispersed_data <>1>)]># Truncate> # Generate a random sample from an over-dispersed distribution (mixture of normals)> over_dispersed_data>=> np.concatenate((np.random.normal(loc>=>->2>, scale>=>1>, size>=>500>),> >np.random.normal(loc>=>2>, scale>=>1>, size>=>500>)))> # Create Q-Q plots> plt.figure(figsize>=>(>15>,>10>))> plt.subplot(>2>,>3>,>1>)> stats.probplot(normal_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Normal Distribution'>)> plt.subplot(>2>,>3>,>2>)> stats.probplot(right_skewed_data, dist>=>'expon'>, plot>=>plt)> plt.title(>'Q-Q Plot - Right-skewed Distribution'>)> plt.subplot(>2>,>3>,>3>)> stats.probplot(left_skewed_data, dist>=>'expon'>, plot>=>plt)> plt.title(>'Q-Q Plot - Left-skewed Distribution'>)> plt.subplot(>2>,>3>,>4>)> stats.probplot(under_dispersed_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Under-dispersed Distribution'>)> plt.subplot(>2>,>3>,>5>)> stats.probplot(over_dispersed_data, dist>=>'norm'>, plot>=>plt)> plt.title(>'Q-Q Plot - Over-dispersed Distribution'>)> plt.tight_layout()> plt.show()> |
>
>
Výkon:
Q-Q graf pre rôzne distribúcie
lyžička vs polievková lyžica