Cómo leer y escribir datos con Pandas en Microsoft Fabric

Artículo
04/22/2024

Los cuadernos de Microsoft Fabric admiten una interacción perfecta con los datos de Lakehouse mediante Pandas, la biblioteca de Python más popular para la exploración y el procesamiento de datos. Dentro de un cuaderno, puede leer rápidamente datos de sus recursos de Lakehouse (y volver a escribirlos) en diversos formatos de archivo. En esta guía se proporcionan ejemplos de código que le ayudarán a empezar a trabajar en su propio cuaderno.

Requisitos previos

Obtenga una suscripción a Microsoft Fabric. También puede registrarse para obtener una evaluación gratuita de Microsoft Fabric.
Inicie sesión en Microsoft Fabric.
Cambie a la experiencia de ciencia de datos de Synapse mediante el conmutador de experiencia en el lado izquierdo de la página principal.

Carga de datos de Lakehouse en un cuaderno

Una vez que conecte una instancia de Lakehouse a su cuaderno de Microsoft Fabric, puede explorar los datos almacenados sin salir de la página y leerlos en el cuaderno en unos pocos pasos. Seleccione las opciones de superficies de archivos de Lakehouse para "Cargar datos" en un DataFrame de Spark o Pandas. También puede copiar la ruta de acceso completa de ABFS del archivo o una ruta de acceso relativa descriptiva.

Al seleccionar una de las solicitudes de "Cargar datos", se generará una celda de código para cargar ese archivo en un DataFrame en el cuaderno.

Conversión de un DataFrame de Spark en un DataFrame de Pandas

Como referencia, este comando muestra cómo convertir un DataFrame de Spark en un DataFrame de Pandas.

# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()

Lectura y escritura de varios formatos de archivo

Estos ejemplos de código describen las operaciones de Pandas para leer y escribir varios formatos de archivo.

Nota:

Debe reemplazar las rutas de acceso de archivo en estos ejemplos de código. Pandas admite ambas rutas de acceso relativas, como se muestra aquí, y rutas de acceso completas de ABFS. Las rutas de cualquiera de los tipos se pueden recuperar y copiar de la interfaz según el paso anterior.

Lectura de datos de un archivo CSV

import pandas as pd

# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)

Escritura de datos como un archivo CSV

import pandas as pd 

# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")

Lectura de datos de un archivo de Parquet

import pandas as pd 
 
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet") 
display(df)

Escritura de datos como un archivo de Parquet

import pandas as pd 
 
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")

Lectura de datos de un archivo de Excel

import pandas as pd 
 
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx") 
display(df)

Escritura de datos como un archivo de Excel

import pandas as pd 

# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")

Lectura de datos de un archivo JSON

import pandas as pd 
 
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json") 
display(df)

Escritura de datos como un archivo JSON

import pandas as pd 
 
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")

Uso de Data Wrangler para limpiar y preparar los datos
Introducción al entrenamiento de modelos de Machine Learning

Compartir a través de

Cómo leer y escribir datos con Pandas en Microsoft Fabric

Requisitos previos

Carga de datos de Lakehouse en un cuaderno

Conversión de un DataFrame de Spark en un DataFrame de Pandas

Lectura y escritura de varios formatos de archivo

Lectura de datos de un archivo CSV

Escritura de datos como un archivo CSV

Lectura de datos de un archivo de Parquet

Escritura de datos como un archivo de Parquet

Lectura de datos de un archivo de Excel

Escritura de datos como un archivo de Excel

Lectura de datos de un archivo JSON

Escritura de datos como un archivo JSON

Comentarios

Comentarios

Recursos adicionales

Compartir a través de

Cómo leer y escribir datos con Pandas en Microsoft Fabric

Requisitos previos

Carga de datos de Lakehouse en un cuaderno

Conversión de un DataFrame de Spark en un DataFrame de Pandas

Lectura y escritura de varios formatos de archivo

Lectura de datos de un archivo CSV

Escritura de datos como un archivo CSV

Lectura de datos de un archivo de Parquet

Escritura de datos como un archivo de Parquet

Lectura de datos de un archivo de Excel

Escritura de datos como un archivo de Excel

Lectura de datos de un archivo JSON

Escritura de datos como un archivo JSON

Contenido relacionado

Comentarios

Comentarios

Recursos adicionales