Projeto Base da DIO: Análise de dados com Python e Pandas
- #Python
- #Jupyter
Este artigo é baseado no Projeto Base da DIO: Análise de dados com Python e Pandas publicado anteriormente. O dataset intitulado "Jornadas Interestelares: Mulheres em Movimento", agora traz insights sobre as experiências e identifica interesses-chaves do público feminino em viagens interestelares. O objetivo é oferecer interpretações que possam servir de base para estratégias de Marketing e fidelização de clientes das empresas de viagens e agências turísticas.
Importação das bibliotecas:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
Leitura do arquivo ‘interstellar_travel.csv’ e criação do DataFrame no pandas “df_inter_travel’ para facilitar a manipulação e análise dos dados :
df_inter_travel = pd.read_csv('interstellar_travel.csv')
df_inter_travel
Criamos um novo DataFrame ‘df_inter_trave_female’ com as colunas selecionadas:
df_inter_travel_female = df[df['Gender'] == 'Female'][['Age', 'Gender', 'Occupation', 'Destination', 'Purpose of Travel']]
print(df_inter_travel_female)
Exporta novo DataFrame:
df_inter_travel_female.to_excel('df_inter_travel_female.xlsx', index=False)
Apresenta os destinos favoritos do público feminino:
Visualização:
# Data:
tourism_destinations = df_inter_travel_female['Destination'].value_counts()
# Create Graph
plt.figure(figsize=(12, 8))
sns.barplot(x=tourism_destinations.values, y=tourism_destinations.index, palette='viridis')
# Add labels and title:
plt.title('Favorite Tourism Destinations for Women', fontsize=16)
plt.xlabel('Count', fontsize=14)
plt.ylabel('Destination', fontsize=14)
plt.savefig('Favorite Tourism Destinations for Women.png', bbox_inches='tight')
plt.show()
Os destinos turísticos mais procurados permitem a elaboração de ofertas e pacotes alinhados ao público e destino.
Perfil demográfico e segmentação de mercado:
# Histogram for Age
plt.figure(figsize=(12, 6))
sns.histplot(df_inter_travel_female['Age'], kde=True, color='lightcoral')
plt.title('Distribution of Age in the Dataset')
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.savefig('Distribution_of_Age.png', bbox_inches='tight')
plt.show()
O perfil demográfico apresenta a faixa etária das mulheres que viajam. Essa segmentação permite que as empresas turísticas ofereçam experiências que correspondam aos interesses de cada grupo etário.
Marketing direcionado:
# Data for all Women:
tourism_destinations = df_inter_travel_female['Destination'].value_counts()
# Turism Destination data beteween 18 and 25:
filtro_tourism_18_25 = df_inter_travel_female[(df_inter_travel_female['Purpose of Travel'] == 'Tourism') & (df_inter_travel_female['Age'] >= 18) & (df_inter_travel_female['Age'] <= 25)]
contagem_destinos_tourism_18_25 = filtro_tourism_18_25['Destination'].value_counts()
top_destinos_tourism_18_25 = contagem_destinos_tourism_18_25.head(3)
# Turism Destination data beteween 25 and 45 years old:
filtro_tourism_25_45 = df_inter_travel_female[(df_inter_travel_female['Purpose of Travel'] == 'Tourism') & (df_inter_travel_female['Age'] >= 25) & (df_inter_travel_female['Age'] <= 45)]
contagem_destinos_tourism_25_45 = filtro_tourism_25_45['Destination'].value_counts()
top_destinos_tourism_25_45 = contagem_destinos_tourism_25_45.head(3)
# Turism Destination data beteween 50 e 100 years old:
filtro_tourism_50_100 = df_inter_travel_female[(df_inter_travel_female['Purpose of Travel'] == 'Tourism') & (df_inter_travel_female['Age'] >= 50) & (df_inter_travel_female['Age'] <= 100)]
contagem_destinos_tourism_50_100 = filtro_tourism_50_100['Destination'].value_counts()
top_destinos_tourism_50_100 = contagem_destinos_tourism_50_100.head(3)
# Sorting data correctly:
tourism_destinations = tourism_destinations.sort_values(ascending=True)
top_destinos_tourism_18_25 = top_destinos_tourism_18_25.sort_values(ascending=True)
top_destinos_tourism_25_45 = top_destinos_tourism_25_45.sort_values(ascending=True)
top_destinos_tourism_50_100 = top_destinos_tourism_50_100.sort_values(ascending=True)
# Creating a horizontal stacked bar chart
plt.figure(figsize=(12, 8))
# Add bars for all women
plt.barh(tourism_destinations.index, tourism_destinations.values, color='lightblue', label='All Women')
# Add bars for women aged 18 to 25 years:
plt.barh(top_destinos_tourism_18_25.index, top_destinos_tourism_18_25.values, color='darkblue', label='Age 18-25', alpha=0.7)
# Add bars for women aged 25 to 45 years
plt.barh(top_destinos_tourism_25_45.index, top_destinos_tourism_25_45.values, color='green', label='Age 25-45', alpha=0.7)
# Add bars for women aged 50 to 100 years
plt.barh(top_destinos_tourism_50_100.index, top_destinos_tourism_50_100.values, color='orange', label='Age 50-100', alpha=0.7)
# Add labels and title
plt.title('Favorite Tourism Destinations Comparison', fontsize=16)
plt.xlabel('Count', fontsize=14)
plt.ylabel('Destination', fontsize=14)
plt.legend()
plt.savefig('Favorite Tourism Destinations Comparison.png', bbox_inches='tight')
plt.show()
Visualização:
No gráfico de sobreposição de barras é possível observar uma comparação direta entre preferência e idade. Permitindo a elaboração de estratégias de Marketing eficazes.
Tendências ao longo do tempo:
É possível observar ainda mudanças nas preferências femininas. As agências podem adaptar suas ofertas e permanecer competitivas.
O trabalho nos permitiu conhecer e explorar as seguintes bibliotecas:
pandas
Seabor
Matplotlib
Estudar estrutura de dados em Python
Manipular, filtrar, contar, ordenar, importar e exportar dados.
Esta análise de dados inclui resumo e visualização para compreender características mais gerais, explora capacidade de comunicar insights de forma clara e acessível e quem sabe apoiar uma tomada de decisão por parte dos interessados.
Referências:
Repositório: Interstellar Journey: Women on the move
THIERREN, Anthony. Interstellar Travel Customer Satisfaction Analysis, 2024. <https://www.kaggle.com/datasets/anthonytherrien/interstellar-travel-customer-satisfaction-analysis>