PostgreSQL
 sql >> Base de données >  >> RDS >> PostgreSQL

Pyspark :supprimer le caractère nul UTF de la trame de données pyspark

Ah attendez - je pense que je l'ai. Si je fais quelque chose comme ça, ça semble fonctionner :

null = u'\u0000'
new_df = df.withColumn('e', regexp_replace(df['e'], null, ''))

Et ensuite mapper à toutes les colonnes de chaîne :

string_columns = ['d','e']
new_df = df.select(
  *(regexp_replace(col(c), null, '').alias(c) if c in string_columns else c for
    c in df.columns)
  )