image

Acesse bootcamps ilimitados e +650 cursos pra sempre

60
%OFF
Article image
Regilene Silva
Regilene Silva19/09/2024 10:00
Compartilhe

SPARK Escape Character: Lendo CSV no Spark

    CSV significa valores separados por vírgula. Este é um formato comum de arquivo de texto em que cada linha representa um único registro, e vírgulas separam cada campo dentro de um registro.

    image


    Embora os arquivos CSV pareçam bem estruturados, eles são, na verdade, um dos formatos de arquivo mais complicados que você encontrará, porque em cenários de produção não se pode fazer muitas suposições sobre o que eles contêm ou como estão estruturados. CSV são frágeis!

    Lendo csv no spark:

    image


    Reserved Characters and Keywords

    Uma coisa com a qual você pode se deparar são caracteres reservados, como espaços ou traços, nos nomes das colunas. Lidar com esses caracteres significa escapar (escape) os nomes das colunas de forma apropriada. Na maioria das vezes, tentamos resolver a questão com escape de caracteres durante o pré-processamento ou transformação dos dados, mas a documentação do Spark aponta uma solução simples para lidar com problemas de leitura, escrita e carregamento de dados em csv com spark.

    imageimage

    Livro: Learning Spark - Chapter 6 - Data Source / csv files - Página 165

    Escrita pelo próprio Matei Zaharia (desenvolvedor do spark), a leitura de csv em Spark é amplamente solucionada.

    image


    Embora ainda tenhamos issues com caracteres especiais e quebras de linhas dentro de colunas, os maiores problemas na leitura do csv foram solucionados. 

    A leitura da documentação pode economizar algumas horas de pesquisa sobre como solucionar o problema. Faça uso dela.

    Referências:

    Spark - Definitive Guide - Matei Zaharia

    Bom estudo a todos!

    Compartilhe
    Comentários (0)