Egy apro eszrevetel, majd a medianozassal kapcsolatban egy masik.
Mas a ketto:
-szoras: az adatsortol fuggo mennyiseg, amely az egyedi meresek
pontossagara jellemzo
-konfidencia-intervallum: a meresi sorozatra jellemzo, megadja a szamitott
valos ertek koruli tartomanyt, amelybe a valodi ertek bizonyos
valoszinuseggel benne van.
Emlekeim szerint a "szigma" jelu standard deviacio nem mas, mint az egyedi
pontok atlagtol valo elteresenek negyzetes kozepe. (Azaz nincs benne az
n-1-es osztas). A konfidencia-intervallum az, ami a +- utan all, es
FureszG ennek definiciojat ismertette (szigma/sqrt(n-1)*C, ahol C egy
olyan konstans, amely az eredeti ertek konfidencia-intervallumba esesenek
valoszinusegetol fugg, 3-nak szokas valasztani es ekkor (ha jol emlekszem)
95%-os valoszinuseget jelent). Sok meres eseten tehat az adatsor szorasa
nem valtozik jelentosen, a konfidencia-intervallum viszont a meresek
szamaval -1/2 -es kitevovel aranyosan csokken. Ha negyszer tobbet merunk,
ketszer kisebb intervallumban tudjuk behatarolni a fizikai mennyiseg
tenyleges erteket.
----------------------------------------------
Most pedig a diszkusszio:
Valoban szep es igenyes az adatfoldolgozas, amivel a megfelelo allitasokat
alatamasztottuk. Van benne egy gondolat, miszerint a median szorasa a
nagyobb. Ez nem meglepo, hiszen: nezzuk csak meg, hogy milyen
gondolatmenettel szarmaztattuk a median es a szamtani kozep kiszamitasanak
modjat!:
1. Megegyezunk, hogy az adatpontok hibajanak mit tekintunk
(nevezzuk H-nak. Keplettel megadva, ebben szerepel egy egyelore
definialatlan atlagos M0 ertek es az egyedi Mi meresi pontok).
H=f(M0,Mi)
2. E kepletet minimalizacios probelmanak tekintve, meghatarozzuk M0
erteket H minimalizaciojaval: M0=f(Mi) implicit H. Azaz M0 definicioja
implicite tartalmazza a hiba definiciojat, es nyilvan mas-es-mas lesz
kulonbozo hiba-definiciokra.
Tekintsuk most a ket legnepszerubb esetet:
A1. H^2=SUMMA (Mi-M0)^2 (a szokasas szoras)
A2. Ekkor M0= 1/N* SUMMA (Mi) (a szokasos szamtani kozep
B1. H^2=SUMMA abs(Mi-M0) (mas tavolsag-definicio)
B2. Ekkor M0 a mediannal egyezik meg.
Tehat nem meglepo, hogy rosszabb a szoras a median-kozepeles eseten,
hiszen NEM A SZORAST MINIMALIZALTUK! Szigoruan veve a median mellett nincs
is ertelme negyzetes-szoras--konfidencia-intervallumot foltuntetni. A
medianhoz tartozo konfidencia-intervallum mas, mint a szamtani kozephez
tartozo; valoszinuleg meg sem adhato zart formulaban, konkret esetben ki
kell szamolni.
Allitasunk szerint a median konfidenciaja jobb, mint a szamtani kozepe. Ez
szamomra egyertelmuen kiderult a FureszG altal kozzetett statisztikabol
(bar o nem kozolte a median konfidenciait.) Kovetkezeskeppen
adatfoldolgozasnal a mediant szerencsesebbnek tartom, mint a szamtani
kozepet.
Egy kerdes maradt meg: ha jobb a median (B1), miert szeretik a
fizikusok/statisztikusok A1-et es a szamtani kozepet? A valasz egyszeru.
Azert, mert a fuggetlen hibak negyzetesen osszegzodnek; az egyedi
adatpontok veletlen hibaja pedig fuggetlennek tekintheto. Igy tehat a
negyzetes szoras a meresi adatok maximalis szimmetriajat hordozza, mert
nem kulonbozteti meg a veletlen hibakat forrasaik szerint (egyedi
adatpont, illesztes bizonytalansaga, atterjedo hiba, miegyeb).
De ez szinte filozofiai erv A1 mellett. En egyre inkabb szeretem a
mediant, es ezzel nem vagyok egyedul. Mint emlitettem volt, a nemet iskola
kizarolag mediannal dolgozik.
Udvozlettel:
SzGyula
|