Quando se trabalha com grandes conjuntos de dados, é comum encontrar registros com CPFs nulos ou vazios, o que pode comprometer a qualidade da análise. A forma mais eficaz de lidar com esse problema é identificar e tratar esses valores durante o processo de limpeza, garantindo que os dados sejam consistentes e prontos para uso. Este método é simples, confiável e pode ser aplicado em diversos ambientes de programação.
Para identificar CPFs nulos ou vazios, podemos usar a biblioteca pandas, que facilita a manipulação de dados. O código abaixo carrega o arquivo, verifica a presença de valores nulos ou vazios e imprime o resultado.
import pandas as pd
# Carrega o arquivo
df = pd.read_csv('dados.csv')
# Identifica CPFs nulos ou vazios
cpfs_nulos = df[df['CPF'].isnull() | (df['CPF'] == '')]
print(f"Total de CPFs nulos ou vazios: {len(cpfs_nulos)}")
Após identificar os CPFs nulos ou vazios, podemos substituí-los por um valor padrão, como '00000000000', para manter a consistência dos dados.
# Substitui CPFs nulos ou vazios por '00000000000'
df['CPF'] = df['CPF'].fillna('00000000000')
df['CPF'] = df['CPF'].replace('', '00000000000')
# Salva o arquivo limpo
df.to_csv('dados_limpos.csv', index=False)
Se preferir remover os registros com CPFs nulos ou vazios, basta filtrar o DataFrame e salvar o resultado.
# Remove registros com CPFs nulos ou vazios
df_limpo = df[df['CPF'].notnull() & (df['CPF'] != '')]
# Salva o arquivo sem os registros problemáticos
df_limpo.to_csv('dados_sem_nulos.csv', index=False)
| CPF (Entrada) | CPF (Saída - Substituído) |
|---|---|
| 12345678901 | 12345678901 |
| 00000000000 | |
| 98765432109 | 98765432109 |
| NaN | 00000000000 |
Com este método, você automatiza a tarefa de lidar com CPFs nulos ou vazios em segundos, evitando erros manuais e garantindo a qualidade dos seus dados. A escolha entre substituir ou remover os registros depende do contexto do seu projeto, mas ambas as abordagens são eficazes e fáceis de implementar.