Sunday, 27 January 2019

Digging deeper in the census data: analizing the available data for demographic segmentation

Hello and welcome to Open Citizen Data Science!

In our previous post we found out that using raw variables out of the box could lead to sub-optimal results even when a simple target is involved and the data source is of high quality and how adding a few simple metrics could greatly improve the result.

Our new sample obtained from the research in the previous post should be fairly homogeneous for our initial target (highly populated areas), but is it enough? Let's see:




Densely populated? Yes.
Potentially many reachable customers in relatively small areas? Indeed.

On first sight it could look like we reached our target and our research assignment is done, however if the aim is to actually go there and sell something we can't help to notice some things:

1) some of those buildings look really new, others pretty old
2) some areas looks well maintained, others very poorly
3) at least one seems to be a fairly well-off place, others seems to be pretty low income areas

Depending on what is being sold, it's likely that it could work well in some of those places but utterly fail in others. Looks like we need to dig deeper and find something in the data to guide us further:


Even using the few metrics we created so far we can see that while total population is in a similar range, there are already some significant differences to be seen:

-  bottom places have less than half the employed percentage than the top ones
- some places have some commercial buildings in the area while others are completely residential
- the number of residents per building varies by over a factor of 7 between top and bottom value

While this confirms that there are some significant differences between places, this does not tell us much on the kind of people that lives in there.

Let's go back to our available variables, see how they could be grouped and which assumptions could be made for a business:

1) Age

This first set of variables can be used to help us segment by hold old people are, so let's do a rough classification:

- Popolazione residente - età < 5 anni: pre-schoolers
- Popolazione residente - età 5 - 9 anni: children
- Popolazione residente - età 10 - 14 anni: children
- Popolazione residente - età 15 - 19 anni: high school students
- Popolazione residente - età 20 - 24 anni: university students and young workers
- Popolazione residente - età 25 - 29 anni: university students and young workers
- Popolazione residente - età 30 - 34 anni: working age
- Popolazione residente - età 35 - 39 anni: working age
- Popolazione residente - età 40 - 44 anni: working age
- Popolazione residente - età 45 - 49 anni: working age
- Popolazione residente - età 50 - 54 anni: working age
- Popolazione residente - età 55 - 59 anni: late career
- Popolazione residente - età 60 - 64 anni: late career
- Popolazione residente - età 65 - 69 anni: retirement age
- Popolazione residente - età 70 - 74 anni: retirement age
- Popolazione residente - età > 74 anni: older retirement

Some of these groups are likely to have more purchasing power than others, however purchasing interest also changes with age, which needs to be accounted for.

2) Level of education

- Popolazione residente con laurea vecchio e nuovo ordinamento + diplomi universitari + diplomi terziari di tipo non universitario vecchio e nuovo ordinamento: university educated
- Popolazione residente con diploma di scuola secondaria superiore (maturità + qualifica): high school
- Popolazione residente con media inferiore: middle school
- Popolazione residente con licenza elementare: elementary school
- Popolazione residente - alfabeti: no title - can read and write
- Popolazione residente - analfabeti: illiterate

Higher levels of education will most likely have higher purchasing power, however this metric needs to be checked against age: areas with high numbers of children will have lower literacy but that's because they still haven't reached the age of university diploma!

3) Occupation

- Popolazione residente - totale di 15 anni e più appartenente alle forze di lavoro totale
- Popolazione residente - totale di 15 anni e più occupata (FL)
- Popolazione residente - totale di 15 anni e più disoccupata in cerca nuova occupazione
- Popolazione residente - totale di 15 anni e più non appartenente alle forze di lavoro (NFL)
- Popolazione residente - totale di 15 anni e più casalinghi/e
- Popolazione residente - totale di 15 anni e più studenti
- Popolazione residente - totale di 15 anni e più in altra condizione
- Popolazione residente che si sposta giornalmente nel comune di dimora abituale
- Popolazione residente che si sposta giornalmente fuori del comune di dimora abituale
- Popolazione residente - totale di 15 anni e più percettori di reddito da lavoro o capitale

This group deals with people in age eligible to work and their employment/study status.
Higher number of employed should correlate well with purchasing power. 

4)  Ethnical distribution

- Stranieri e apolidi residenti in Italia - totale
- Stranieri e apolidi residenti in Italia - età 0 - 29 anni
- Stranieri e apolidi residenti in Italia - età 30 - 54 anni
- Stranieri e apolidi residenti in Italia - età > 54 anni
- Stranieri residenti in Italia - Europa
- Stranieri residenti in Italia - Africa
- Stranieri residenti in Italia - America
- Stranieri residenti in Italia - Asia
- Stranieri residenti in Italia - Oceania
- Apolidi residenti in Italia
- Stranieri residenti in Italia - totale

 Potentially sensitive data, areas with higher levels of non-native population are likely to have different purchasing habits than the general population.

5) Residential unit usage

- Abitazioni occupate da almeno una persona residente
- Abitazioni vuote e abitazioni occupate solo da persone non residenti
- Altri tipi di alloggio occupati
- Abitazioni vuote
- Abitazioni occupate solo da persone non residenti
- Superficie delle abitazioni occupate da almeno una persona residente
- Famiglie in alloggi in affitto
- Famiglie in alloggi di proprietà
- Famiglie che occupano l'alloggio ad altro titolo

Areas with higher levels of ownership and fewer empty units are likely to have higher purchasing power.

6) Family size

- Famiglie residenti - totale
- Famiglie residenti - totale componenti
- Famiglie residenti - 1 componente
- Famiglie residenti - 2 componenti
- Famiglie residenti - 3 componenti
- Famiglie residenti - 4 componenti
- Famiglie residenti - 5 componenti
- Famiglie residenti - 6 e oltre componenti
- Componenti delle famiglie residenti di 6 e oltre componenti

Singles and large families are clearly different targets for different products, this could be useful for targeted communication

7) Building type, status and usage

- Edifici e complessi di edifici - totale
- Edifici e complessi di edifici utilizzati
- Edifici ad uso residenziale
- Edifici e complessi di edifici (utilizzati) ad uso produttivo, commerciale, direzionale/terziario, - turistico/ricettivo, servizi, altro
- Edifici ad uso residenziale in muratura portante
- Edifici ad uso residenziale in calcestruzzo armato
- Edifici ad uso residenziale in altro materiale (acciaio, legno, ecc.)
- Edifici ad uso residenziale costruiti prima del 1919
- Edifici ad uso residenziale costruiti dal 1919 al 1945
- Edifici ad uso residenziale costruiti dal 1946 al 1960
- Edifici ad uso residenziale costruiti dal 1961 al 1970
- Edifici ad uso residenziale costruiti dal 1971 al 1980
- Edifici ad uso residenziale costruiti dal 1981 al 1990
- Edifici ad uso residenziale costruiti dal 1991 al 2000
- Edifici ad uso residenziale costruiti dal 2001 al 2005
- Edifici ad uso residenziale costruiti dopo il 2005
- Edifici ad uso residenziale con un piano
- Edifici ad uso residenziale con 2 piani
- Edifici ad uso residenziale con 3 piani
- Edifici ad uso residenziale con 4 piani o più
- Edifici ad uso residenziale con un interno
- Edifici ad uso residenziale con 2 interni
- Edifici ad uso residenziale da 3 a 4 interni
- Edifici ad uso residenziale da 5 a 8 interni
- Edifici ad uso residenziale da 9 a 15 interni
- Edifici ad uso residenziale con 16 interni o più
- Totale interni in edifici ad uso residenziale
- Edifici ad uso residenziale con stato di conservazione ottimo
- Edifici ad uso residenziale con stato di conservazione buono
- Edifici ad uso residenziale con stato di conservazione mediocre
- Edifici ad uso residenziale con stato di conservazione pessimo

This is a very detailed set of variables that can tell us a lot about building status and use, including level of maintenance.

Looks like each of those variable groups will be able to provide some useful metrics, which we will cover properly with our future articles.
Stay tuned for more in-depth analysis!

No comments:

Post a Comment