Data Science Workspace guía de solución de problemas

Este documento proporciona respuestas a las preguntas frecuentes acerca de Adobe Experience Platform Data Science Workspace. Para preguntas y solución de problemas con las API Platform en general, consulte la Guía de solución de problemas de la API de Adobe Experience Platform.

JupyterLab el entorno no se carga en Google Chrome

IMPORTANTE

Este problema se ha resuelto, pero aún podría estar presente en el explorador Google Chrome 80.x. Asegúrese de que el explorador Chrome esté actualizado.

Con la versión 80.x del explorador Google Chrome, todas las cookies de terceros se bloquean de forma predeterminada. Esta directiva puede evitar que JupyterLab se cargue dentro de Adobe Experience Platform.

Para solucionar este problema, siga estos pasos:

En el explorador Chrome, vaya a la esquina superior derecha y seleccione Configuración (también puede copiar y pegar "chrome://settings/" en la barra de direcciones). A continuación, desplácese hasta la parte inferior de la página y haga clic en la lista desplegable Avanzado.

avanzado de chrome

Aparece la sección Privacidad y seguridad. A continuación, haga clic en Configuración del sitio seguida de Cookies y datos del sitio.

avanzado de chrome

avanzado de chrome

Por último, cambie "Bloquear cookies de terceros" a "Desactivado".

avanzado de chrome

NOTA

También puede deshabilitar las cookies de terceros y agregar [*.]ds.adobe.net a la lista de permitidos .

Vaya a "chrome://flags/" en la barra de direcciones. Busque y deshabilite el indicador titulado "SameSite by default cookies" mediante el menú desplegable de la derecha.

deshabilitar indicador samesite

Después del paso 2, se le pedirá que vuelva a iniciar el explorador. Después de reiniciar, Jupyterlab debe ser accesible.

¿Por qué no puedo acceder a JupyterLab en Safari?

Safari deshabilita las cookies de terceros de forma predeterminada en Safari < 12. Como la instancia de la máquina virtual Jupyter reside en un dominio diferente al de su fotograma principal, Adobe Experience Platform actualmente requiere que las cookies de terceros estén habilitadas. Habilite las cookies de terceros o cambie a un explorador diferente como Google Chrome.

Para Safari 12, debe cambiar el agente de usuario a 'Chrome' o 'Firefox'. Para cambiar el agente de usuario, abra el menú Safari y seleccione Preferencias. Aparecerá la ventana de preferencias.

Preferencias de Safari

En la ventana de preferencias de Safari, seleccione Avanzado. A continuación, marque la casilla Mostrar menú Desarrollo en la barra de menús. Puede cerrar la ventana de preferencias una vez completado este paso.

Safari avanzado

A continuación, en la barra de navegación superior, seleccione el menú Develop. Desde la lista desplegable Development, pase el ratón sobre User Agent. Puede seleccionar la cadena del agente de usuario Chrome o Firefox que desee utilizar.

Menú Desarrollo

¿Por qué veo un mensaje "403 prohibido" al intentar cargar o eliminar un archivo en JupyterLab?

Si el explorador está habilitado con software de bloqueo de anuncios como Ghostery o AdBlock Plus, se debe permitir el dominio "*.adobe.net" en cada software de bloqueo de anuncios para que JupyterLab funcione normalmente. Esto se debe a que las JupyterLab máquinas virtuales se ejecutan en un dominio diferente al dominio Experience Platform.

¿Por qué algunas partes de mi Jupyter Notebook parecen retorcidas o no se renderizan como código?

Esto puede suceder si la celda en cuestión se cambia accidentalmente de "Código" a "Marcado". Mientras una celda de código está enfocada, al pulsar la combinación de teclas ESC+M, se cambia el tipo de celda a Markdown. El tipo de celda se puede cambiar mediante el indicador desplegable situado en la parte superior del bloc de notas para las celdas seleccionadas. Para cambiar un tipo de celda a código, comience por seleccionar la celda que desee cambiar. A continuación, haga clic en el menú desplegable que indica el tipo actual de la celda y seleccione "Código".

¿Cómo instalo bibliotecas Python personalizadas?

El núcleo Python viene preinstalado con muchas bibliotecas populares de aprendizaje automático. Sin embargo, puede instalar bibliotecas personalizadas adicionales ejecutando el siguiente comando en una celda de código:

!pip install {LIBRARY_NAME}

Para obtener una lista completa de las bibliotecas Python preinstaladas, consulte la sección apéndice de la Guía del usuario de JupyterLab.

¿Puedo instalar bibliotecas PySpark personalizadas?

Desafortunadamente, no puede instalar bibliotecas adicionales para el núcleo PySpark. Sin embargo, puede ponerse en contacto con el representante de servicio al cliente de Adobe para que le instalen bibliotecas PySpark personalizadas.

Para obtener una lista de las bibliotecas PySpark preinstaladas, consulte la sección apéndice de la Guía del usuario de JupyterLab.

¿Es posible configurar los Spark recursos de cluster para JupyterLab Spark o el núcleo PySpark?

Puede configurar los recursos añadiendo el siguiente bloque a la primera celda del bloc de notas:

%%configure -f 
{
    "numExecutors": 10,
    "executorMemory": "8G",
    "executorCores":4,
    "driverMemory":"2G",
    "driverCores":2,
    "conf": {
        "spark.cores.max": "40"
    }
}

Para obtener más información sobre la configuración de Spark recursos de clúster, incluida la lista completa de propiedades configurables, consulte la Guía del usuario de JupyterLab.

¿Por qué recibo un error al intentar ejecutar ciertas tareas para conjuntos de datos más grandes?

Si está recibiendo un error por un motivo como Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues., esto generalmente significa que el controlador o un ejecutor se está quedando sin memoria. Consulte la documentación de JupyterLab Notebooks data access para obtener más información sobre los límites de datos y cómo ejecutar tareas en conjuntos de datos grandes. Normalmente, este error se puede resolver cambiando el mode de interactive a batch.

Además, mientras se escriben grandes conjuntos de datos de Spark/PySpark, el almacenamiento en caché de los datos (df.cache()) antes de ejecutar el código de escritura puede mejorar en gran medida el rendimiento.

Si tiene problemas al leer datos y aplica transformaciones a los datos, intente almacenar los datos en caché antes de las transformaciones. El almacenamiento en caché de los datos evita que se lean varias veces en la red. Comience por leer los datos. A continuación, almacene en caché (df.cache()) los datos. Finalmente, realice las transformaciones.

¿Por qué mis portátiles Spark/PySpark tardan tanto en leer y escribir datos?

Si realiza transformaciones en los datos, como el uso de fit(), es posible que las transformaciones se estén ejecutando varias veces. Para aumentar el rendimiento, almacene en caché los datos mediante df.cache() antes de realizar el fit(). Esto garantiza que las transformaciones solo se ejecuten una sola vez y evita que se lean varias veces en la red.

Orden recomendado: comience leyendo los datos. A continuación, realice transformaciones seguidas de almacenar en caché (df.cache()) los datos. Finalmente, realice un fit().

¿Por qué mis portátiles Spark/PySpark no funcionan?

Si está recibiendo cualquiera de los siguientes errores:

  • Trabajo anulado debido a un error en la etapa … Solo puede comprimir RDD con el mismo número de elementos en cada partición.
  • Cliente RPC remoto desasociado y otros errores de memoria.
  • Rendimiento deficiente al leer y escribir conjuntos de datos.

Compruebe que está almacenando en caché los datos (df.cache()) antes de escribir los datos. Al ejecutar código en portátiles, el uso de df.cache() antes de una acción como fit() puede mejorar en gran medida el rendimiento del bloc de notas. El uso de df.cache() antes de escribir un conjunto de datos garantiza que las transformaciones solo se ejecuten una sola vez en lugar de varias.

Docker Hub restricciones de límite en Data Science Workspace

A partir del 20 de noviembre de 2020, entraron en vigor los límites de velocidad para el uso anónimo y autenticado gratuito de Docker Hub. Los usuarios anónimos y gratuitos de Docker Hub se limitan a 100 solicitudes de extracción de imágenes de contenedor cada seis horas. Si se ve afectado por estos cambios, recibirá este mensaje de error: ERROR: toomanyrequests: Too Many Requests. o You have reached your pull rate limit. You may increase the limit by authenticating and upgrading: https://www.docker.com/increase-rate-limits..

Actualmente, este límite solo afectará a su organización si está intentando crear 100 Notebook para fórmulas en un lapso de seis horas o si está utilizando portátiles basados en Spark en Data Science Workspace que a menudo están aumentando y reduciendo. Sin embargo, es poco probable, ya que el clúster en el que se ejecutan permanece activo durante dos horas antes de apagarse. Esto reduce el número de llamadas necesarias cuando el clúster está activo. Si recibe cualquiera de los errores anteriores, tendrá que esperar hasta que se restablezca su límite Docker.

Para obtener más información sobre los límites de tasa Docker Hub, visite la documentación de DockerHub. Se está trabajando en una solución para esto, y se espera que así sea en una versión posterior.

En esta página