Sample selection bias is een soort bias die wordt veroorzaakt door het kiezen van niet-willekeurige gegevens voor statistische analyse. Bias bestaat als gevolg van een fout in het steekproefselectieproces, waarbij een subset van gegevens systematisch wordt uitgesloten vanwege een bepaald kenmerk.
De uitsluiting van de subset kan de statistische significantie van de test beïnvloeden en kan schattingen van statistische modelparameters vervormen.
Begrijpelijke voorbeeldselectiebias
Survival bias is een veel voorkomende vorm van sample selection bias. Wanneer u bijvoorbeeld een beleggingsstrategie voor een grote groep aandelen backtest, kan het handig zijn om te zoeken naar aandelen met gegevens over de hele steekproefperiode. Als we de strategie zouden testen tegen 15 jaar aandelengegevens, zouden we misschien geneigd zijn om op zoek te gaan naar aandelen die volledige informatie hebben voor de hele periode van 15 jaar.
Het verwijderen van een effect dat stopte met handelen of de markt kort verliet, zou echter vertekening in onze gegevenssteekproef hebben geïntroduceerd. Aangezien we alleen aandelen opnemen die de periode van 15 jaar hebben geduurd, zouden onze eindresultaten verkeerd zijn, omdat deze goed genoeg presteerden om de markt te overleven.
Hedge fund performance indices zijn een voorbeeld van sample selection bias onderhevig aan survival bias. Omdat hedgefondsen die niet overleven stoppen met het rapporteren van hun prestaties aan indexaggregators, zijn de resulterende indices van nature scheefgetrokken naar fondsen en strategieën die blijven, dus “overleven”.
Dit kan ook een probleem zijn met populaire rapportagediensten voor beleggingsfondsen.
Analysten kunnen zich aanpassen om rekening te houden met deze vooroordelen, maar ze kunnen nieuwe vooroordelen in het proces introduceren.