flysmog.pages.dev

Como lidar com CPFs nulos ou vazios em script de limpeza

Quando se trabalha com grandes conjuntos de dados, é comum encontrar registros com CPFs nulos ou vazios, o que pode comprometer a qualidade da análise. A forma mais eficaz de lidar com esse problema é identificar e tratar esses valores durante o processo de limpeza, garantindo que os dados sejam consistentes e prontos para uso. Este método é simples, confiável e pode ser aplicado em diversos ambientes de programação.

Pré-requisitos

Identificando CPFs nulos ou vazios em Python

Para identificar CPFs nulos ou vazios, podemos usar a biblioteca pandas, que facilita a manipulação de dados. O código abaixo carrega o arquivo, verifica a presença de valores nulos ou vazios e imprime o resultado.

import pandas as pd

# Carrega o arquivo
df = pd.read_csv('dados.csv')

# Identifica CPFs nulos ou vazios
cpfs_nulos = df[df['CPF'].isnull() | (df['CPF'] == '')]

print(f"Total de CPFs nulos ou vazios: {len(cpfs_nulos)}")

Substituindo CPFs nulos ou vazios por um valor padrão

Após identificar os CPFs nulos ou vazios, podemos substituí-los por um valor padrão, como '00000000000', para manter a consistência dos dados.

# Substitui CPFs nulos ou vazios por '00000000000'
df['CPF'] = df['CPF'].fillna('00000000000')
df['CPF'] = df['CPF'].replace('', '00000000000')

# Salva o arquivo limpo
df.to_csv('dados_limpos.csv', index=False)

Removendo registros com CPFs nulos ou vazios

Se preferir remover os registros com CPFs nulos ou vazios, basta filtrar o DataFrame e salvar o resultado.

# Remove registros com CPFs nulos ou vazios
df_limpo = df[df['CPF'].notnull() & (df['CPF'] != '')]

# Salva o arquivo sem os registros problemáticos
df_limpo.to_csv('dados_sem_nulos.csv', index=False)

Exemplo Prático

CPF (Entrada) CPF (Saída - Substituído)
12345678901 12345678901
00000000000
98765432109 98765432109
NaN 00000000000

Conclusão

Com este método, você automatiza a tarefa de lidar com CPFs nulos ou vazios em segundos, evitando erros manuais e garantindo a qualidade dos seus dados. A escolha entre substituir ou remover os registros depende do contexto do seu projeto, mas ambas as abordagens são eficazes e fáceis de implementar.