Veda o údajoch sa točí okolo spracovania a analýzy údajov pomocou rôznych nástrojov a techník. V dnešnom svete založenom na údajoch sa stretávame s typmi údajov, z ktorých každý si vyžaduje spracovanie a interpretáciu. Pre správnu analýzu údajov a štatistickú interpretáciu je dôležité porozumieť rôznym typom údajov. Typ údajov určuje správne štatistické metódy a operácie, ktoré by sa mali použiť. Rôzne typy údajov si vyžadujú rôzne metódy analýzy a interpretácie, aby bolo možné vyvodiť významné závery. V tomto článku preskúmame pojem údaje a ich význam, poskytneme príklady z reálneho sveta a prevedieme vás spôsobmi, ako s nimi pracovať.
Úrovne merania
Pred analýzou súboru údajov je dôležité identifikovať typ údajov, ktoré obsahuje. Našťastie všetky údaje možno zoskupiť do jednej zo štyroch kategórií: nominálne, ordinálne, intervalové alebo pomerové údaje. Aj keď sa často označujú ako typy údajov, v skutočnosti ide o rôzne úrovne merania. Úroveň merania odráža presnosť, s akou bola premenná kvantifikovaná, a určuje metódy, ktoré možno použiť na extrahovanie poznatkov z údajov.
Tieto štyri kategórie údajov nie je vždy jednoduché rozlíšiť a namiesto toho patria do hierarchie, pričom každá úroveň nadväzuje na predchádzajúcu.

Existujú štyri typy údajov: kategorické, ktoré možno ďalej rozdeliť na nominálne a ordinálne, a numerické, ktoré možno ďalej rozdeliť na intervalové a pomerové. Nominálne a ordinálne stupnice sú relatívne nepresné, čo uľahčuje ich analýzu, ale ponúkajú menej presné informácie. Na druhej strane intervalové a pomerové škály sú zložitejšie a ťažšie sa analyzujú, ale majú potenciál poskytnúť oveľa bohatšie poznatky.
- Nominálne údaje – Nominálne údaje sú základným typom údajov, ktorý kategorizuje údaje označením alebo pomenovaním hodnôt, ako je pohlavie, farba vlasov alebo druhy zvierat. Nemá žiadnu hierarchiu.
- Ordinal Data – Bežné údaje zahŕňajú klasifikáciu údajov na základe hodnosti, ako je sociálny status v kategóriách ako „bohatý“, „stredný príjem“ alebo „chudobný“. Medzi týmito kategóriami však nie sú stanovené žiadne intervaly.
- Intervalové údaje – Intervalové údaje predstavujú spôsob organizovania a porovnávania údajov, ktorý zahŕňa namerané intervaly. Teplotné stupnice, ako sú stupne Celzia alebo Fahrenheita, sú dobrým príkladom intervalových údajov. Intervalové údaje však nemajú skutočnú nulu, čo znamená, že meranie nuly môže stále predstavovať kvantifikovateľnú mieru (napríklad nula stupňov Celzia, čo je len ďalší bod na stupnici a v skutočnosti neznamená, že nie je prítomná žiadna teplota) .
- Pomerové údaje – Najzložitejšou úrovňou merania sú pomerové údaje. Podobne ako intervalové údaje kategorizuje a zoraďuje údaje s využitím nameraných intervalov. Na rozdiel od intervalových údajov však pomerové údaje obsahujú skutočnú nulu. Keď je premenná nula, táto premenná neexistuje. Hlavnou ilustráciou pomerových údajov je meranie výšky, ktoré nemôže byť záporné.
Čo sú nominálne údaje?
Kategorické údaje, známe aj ako nominálne údaje, sú kľúčovým typom informácií využívaných v rôznych oblastiach, ako je výskum, štatistika a analýza údajov. Pozostáva z kategórií alebo štítkov, ktoré pomáhajú pri klasifikácii a usporiadaní údajov. Základnou črtou kategorických údajov je, že nemajú žiadne vlastné poradie alebo poradie medzi svojimi kategóriami. Namiesto toho sú tieto kategórie oddelené, odlišné a vzájomne sa vylučujúce.

Nominálne údaje sa napríklad používajú na klasifikáciu informácií do odlišných označení alebo kategórií bez akéhokoľvek prirodzeného poradia alebo hodnotenia. Tieto označenia alebo kategórie sú reprezentované pomocou názvov alebo výrazov a neexistuje medzi nimi prirodzené poradie ani poradie. Nominálne údaje sú užitočné pre kvalitatívnu klasifikáciu a organizáciu informácií, čo umožňuje výskumníkom a analytikom zoskupovať údajové body na základe špecifických atribútov alebo charakteristík bez toho, aby naznačovali akékoľvek číselné vzťahy.
- Kategórie farieb očí ako modrá alebo zelená predstavujú nominálne údaje. Každá kategória je odlišná, bez poradia alebo poradia.
- Značky smartfónov ako iPhone alebo Samsung sú nominálne údaje. Medzi značkami neexistuje hierarchia.
- Spôsoby dopravy ako auto alebo bicykel sú nominálne údaje. Sú to samostatné kategórie bez vlastného poriadku.
Charakteristika nominálnych údajov
- Údaje, ktoré sú klasifikované ako nominálne, pozostávajú z kategórií, ktoré sú úplne oddelené a navzájom odlišné.
- Údaje, ktoré spadajú do nominálnej kategórie, sú odlíšené skôr popisnými štítkami než akoukoľvek číselnou alebo kvantitatívnou hodnotou
- Nominálne údaje nie je možné zoradiť ani usporiadať hierarchicky, pretože žiadna kategória nie je nadradená alebo podradená inej.
Príklad
Tu je niekoľko príkladov toho, ako sa nominálne údaje používajú na klasifikáciu a kategorizáciu informácií do odlišných a neusporiadaných kategórií:
1. Farby auta: Farby áut sú nominálne údaje s jasnými kategóriami, ale bez vlastného poradia alebo poradia. Každé auto patrí do jednej farebnej kategórie bez akéhokoľvek logického alebo číselného spojenia medzi farbami.
2. Druhy ovocia: Kategórie ovocia v košíku sú nominálne. Každé ovocie patrí do určitej kategórie bez hierarchie alebo poradia. Všetky kategórie sú odlišné a diskrétne.
3. Filmové žánre: Filmové žánre sú nominálne údaje, pretože neexistuje žiadne hodnotenie medzi kategóriami, ako je akcia alebo komédia. Každý žáner je jedinečný, ale na základe týchto údajov nemôžeme povedať, či je jeden lepší ako druhý.
Čo sú to Ordinal Data?
Ordinálne údaje sú formou kvalitatívnych údajov, ktoré klasifikujú premenné do popisných kategórií. Vyznačuje sa skutočnosťou, že kategórie, ktoré používa, sú zoradené na nejakej hierarchickej stupnici, napríklad od vysokej po nízku. Ordinálne údaje sú po nominálnych údajoch druhým najkomplikovanejším typom merania. Hoci sú zložitejšie ako nominálne údaje, ktorým chýba akýkoľvek inherentný poriadok, stále sú pomerne zjednodušené.

Napríklad radové údaje sú typom údajov, ktoré sa používajú na kategorizáciu položiek so zmysluplnou hierarchiou alebo poradím. Tieto kategórie nám pomáhajú porovnávať a zoraďovať rôzne úspechy, pozície alebo výkony študentov, aj keď intervaly medzi nimi nie sú rovnaké. Ordinálne údaje sú užitočné na pochopenie usporiadaných volieb alebo preferencií a na posúdenie relatívnych rozdielov.
- Známky v škole: Známky ako A, B, C sú poradové údaje zoradené podľa výsledkov, ale intervaly medzi nimi sa líšia.
- Úroveň vzdelania: Úrovne ako stredná, bakalárska, magisterská sú poradové údaje zoradené podľa vzdelania, ale rozdiely medzi úrovňami sa líšia.
- Úroveň seniority: Úrovne zamestnania ako nástup, stred, senior sú poradové údaje, ktoré označujú hierarchiu, ale rozdiel sa líši podľa zamestnania a odvetvia.
Charakteristika radových údajov
- Ordinálne údaje patria do kategórie nečíselných a kategorických údajov, ale stále môžu používať číselné hodnoty ako štítky.
- Poradové údaje sú vždy zoradené v hierarchii (odtiaľ názov „poradové“).
- Ordinálne údaje môžu byť zoradené, ale ich hodnoty nie sú rovnomerne rozdelené.
- Pomocou ordinálnych údajov môžete vypočítať rozdelenie frekvencie, režim, medián a rozsah premenných.
Príklad
Tu je niekoľko príkladov toho, ako sa poradové údaje používajú v poliach a doménach:
1. Vzdelávacie úrovne: Bežné údaje sa bežne používajú na reprezentáciu úrovní vzdelania, ako je škola, bakalársky stupeň, magisterský stupeň a doktorandské štúdium. Tieto úrovne majú poradie.
2. Hodnotenie spokojnosti zákazníkov: Ďalšia aplikácia údajov je v prieskumoch spokojnosti zákazníkov. Tieto prieskumy často žiadajú respondentov, aby ohodnotili svoje skúsenosti na škále, od slabých po vynikajúce.
3. Ekonomické triedy: triedy vrátane strednej triedy a vyššej triedy možno klasifikovať ako poradové údaje na základe ich hodnotenia.
Tieto príklady demonštrujú spôsoby, akými sa ordinálne údaje využívajú v rôznych poliach a doménach.
Nominálne verzus bežné údaje
| Charakteristika | Nominálne údaje | Ordinal Data |
|---|---|---|
| Povaha kategórií | Výrazné a diskrétne | Diskrétne a odlišné |
| Poradie/poradie | Žiadny vlastný poriadok | Má jasné poradie alebo poradie |
| Číselné hodnoty | Žiadne zmysluplné číselné hodnoty | Žiadne zmysluplné číselné hodnoty |
| Analytické techniky | Počty frekvencií, percentá, stĺpcové grafy | Poradie, medián, neparametrické testy, usporiadané stĺpcové grafy, ordinálna regresia |
| Príklad | Farby, pohlavie, druhy zvierat panda topiť | Známky školy, úroveň vzdelania, úroveň seniority |
| Výklad | Používa sa na klasifikáciu a zoskupovanie na základe kategórie | Používa sa na posúdenie usporiadaných preferencií, hierarchie alebo hodnotenia |