Como disponibilizar CSVs para notebooks utilizando o GitHub
- #GitHub
- #Git
- #Python
Nível de dificuldade do artigo: INTERMEDIÁRIO
Notebooks são uma ferramenta amplamente utilizada na área de Data Science, pois eles combinam a execução de código, texto explicativo e visualizações, facilitando a exploração e a apresentação de resultados de forma clara e concisa. Além disso, eles permitem a execução e a visualização dos resultados, etapa por etapa do processo de análise de dados, tornando-o mais transparente e amigável.
Em uma análise de dados é comum utilizarmos arquivos contendo samples de dados. Um dos principais formatos utilizados, para esses arquivos, é o formato CSV.
A Google, disponibiliza gratuitamente a ferramenta 'Google Colaboratory' (Também chamada apenas de colab), que permite a criação de notebooks online, que rodam em seu navegador, facilitando bastante o trabalho e o compartilhamento de resultados em equipe.
Entretendo, não podemos subir permanentemente arquivos no ambiente de desenvolvimento do colab, os samples de dados que subimos para nossas análises, ficam disponíveis enquanto nossa sessão no notebook estiver ativa, com isso, toda vez que ele é fechado e aberto, é preciso subir novamente os arquivos, para que as análises possam ser executadas novamente.
Apesar de existir uma solução à esse problema, utilizando o próprio Google Drive, de forma mais simples, podemos utilizar o GitHub, para imputar nossos dados em nossas análises.
Basicamente, subiremos um arquivo CSV em um repositório do GitHub e dentro do notebook vamos acessá-lo. segue o passo a passo:
1 - Primeiro, precisamos criar um repositório público no GitHub, para mais informações sobre a criação de repositórios no GitHub, consulte a documentação oficial da ferramenta 'Criar um repositório';
2 - No diretório do seu computador, coloque o arquivo CSV , em seguida abra o terminal do Git Bash, e utilize o seguinte código
git init
git add .
git commit -m "{Seu comentário}"
3 - Em seguida, faça o push do seu arquivo para o repositório, com o seguinte código:
git remote add origin https://github.com/{seu_usuario}/{seu_repositorio}.git
git push -u origin master
4 - Pronto! No seu notebook, utilize o seguinte código para acessar seus dados:
import pandas as pd
url = 'https://raw.githubusercontent.com/{user}/{nome do repositório}/{nome da branch}/{nome do arquivo}.csv'
df = pd.read_csv(url, delimiter=';')
print(df)
Dessa forma, seu sample pode ser acessado muito mais facilmente!!