25 January 2022

Дядото, внучката и липсващите идентификатори

Днес ще ви разкажем как за малко щяхме да се изложим и да обвиним неправилно хора в лъжа.

Историята, освен интересна, защото се отнася до една от по-шарените части на българската електорална съвременност, е и поучителна, защото илюстрира колко е важно да се произвеждат еднозначни входни данни, каквито отворените данни на ЦИК за съжаление все още не са.

Както знаете, заедно с нашите приятели от Антикорупционния Фонд много обичаме да се ровичкаме в изборни данни и търсим статистически аномалии, които биха могли да са индикация за абнормално електорално поведение. Така, в рамките на рутинния ни вече анализ на третите парламентарни избори през 2021-ва година, изследвахме и случаите на концентрация на преференицален вот в малко на брой секции.

Резултатът можете да видите в този пост. Една от шампионките по преференции е г-жа Веселина Радославова, кандидат депутат на партия ДПС в МИР 26 София област. Г-жа Радославова е спечелила внушителните 1151 преферецнии в малко на брой секции, което беше засечено от нашите статистичеки модели. За следващата част от историята е важно да се отбележи, че г-жа Радославова е внучка на г-н Александър Методиев, известен политик от ДПС в същия МИР.

До тук добре.

Няколко месеца на по-късно, на 23.01.2022. Г-жа Радославова и г-н Методиев са гости в предаването “Тази Събота и Неделя” по БТВ. Гледаме с интерес предаването. От думите на гостите се разбира че интересът към политката се предава през поколение. По-интересно обаче е, че на въпроса за спечелените преференции, дядото с увереност казва, че г-жа Радославова е спечелила точно 1306 преференции. Не само това, но и че тя се е явява за трети път на избори. Това ни учудва, защото не отговаря на нашата представа и на числата, които сме извадили от данните. Нямаше как да не проверим това несъответствие.

Тук стана интересно.

Използвайки свързаните изборни данни, е лесно да се провери даден кандидат колко пъти се е явявал на избори. Тази заявка например илюстрира кариерата на г-н Методиев и неговите шест отделни кандидатури за периода за който събираме данни. Г-жа Радославова обаче се появява само в една кандидатура - на изборите през ноември 2021-ва.

Този резултат отговаря на очакванията ни. Съмнението обаче остава, че все пак не може да се лъже в ефир за нещо толкова важно и лесно проверимо. Затова решихме все пак да хвърлим едно око на листите на ДПС за изборите през месец април и през месец юли за МИР 26. Внимателен анализ на имената в листите ни даде и липсващото парче от този електорален пъзел.

Кандидат с имена “Веселина Иванова Василева” се е явявала съответно на 6-то място през април и на 7-мо място през юли. Очевидно е и какво е причнило липсата в данните, а именно, че в някой щастлив момент между юли и ноември, г-ца Василева се е омъжила и е вече г-жа Радославова.

Сега вече с можем да сметнем с тази заявка сборът префенции, 1303, който и отговаря на споделеното от г-н Методиев число.

Изводът от всичко това е, че 3-те имена са крайно недостатъчни за идентификация на кандидатите в данните, които ЦИК споделят.

Не за първи път го казваме, тук сме описали и други случаи, в които трите имена водят до многозначие и невъзможност да се проследи траекторията на отделните кандидати. Решението е просто. Ако искам да имаме наистина качествени данни трябва отделните кандидати да са идентифицирани посредством уникален идентифиркатор (например базиран на ЕГН), който да се споделя като част от отворените данни на ЦИК и да не се променя между отделни избори.