24:24
2025-01-27 13:13:59
2:06:12
2025-01-27 13:42:41
3:36:29
2025-01-28 09:08:14
4:33
2025-01-28 13:48:42
55:46
2025-01-28 14:06:51
2:02
2025-01-29 10:22:33
1:02:14
2025-01-29 10:25:14
2:10
2025-01-29 11:38:26
2:26
2025-01-29 12:03:00
1:23:37
2025-01-29 12:05:56
35:40
2025-01-29 15:01:26
1:40:43
2025-01-30 09:07:07
1:08:48
2025-01-30 11:20:20
1:10:50
2025-01-30 13:15:56
3:50:03
2025-01-31 07:20:07
Visit the Talend Big Data Integration y Ecosistema de Talend course recordings page
WEBVTT--> si pudiste acceder, si, bueno los restantes por favor vean accediendo al --> a la interfaz del Talent Data Fabric y se ubican en el Talent Data Stewards --> para terminar el ejercicio del día de ayer, simplemente es una algo que una --> temática que deseo adicionar nada más, es más del Talent File Line que del --> Talent Data Stewards, listo algunos ya están accediendo, Fernan en el caso tuyo --> accedes y efectivamente será el browser de preferencia, el de Chrome o el de Edge --> el que tú quieras, listo perfecto, ahí entra a la página talent.com, toca --> talent.com, esa que está ahí perfecto, en la parte superior derecha está un --> que dice Free Tial, entra ahí por favor, dale click listo, perfecto --> y ahora te vas a registrar en el formulario que va a aparecer ahora --> dale entonces, lo importante de ahí de toda la información es que coloques el --> nombre, el correo empresarial, en este caso te registra con el correo DAXA --> por favor, si le están amable, si copiaste de tu máquina a la máquina virtual --> quizás fue que no habilitaste, eso depende directamente del browser, si --> habilitaste es el portapapeles, entonces bueno, registra ahí con tu --> correo, entonces el browser entonces, listo, lo demás si puede ser cualquier --> información, lo importante que sea el correo empresarial --> listo, cuando actives el trial te va a llegar un correo y --> ese correo te va a habilitar para que escojas un tenan, escoja el que tú --> quieras, ya sea de Azure o de AWS, no sé si lo hace directamente y no sé si --> puedes acceder directamente aquí a tu correo en la máquina virtual o si --> quieres accedes allá desde tu máquina, como tú desees, los restantes por favor --> verifiquen en el Data Inventory que tenga los dos dataset que tomamos el --> día de ayer, que fue el de pasajeros y el de vuelos, ese dataset estaba --> inicialmente en un S3 y lo que hicimos fue entonces traernos ese dataset al --> Talent Cloud, esos son los que vamos a trabajar, es un ejemplo muy pequeño --> ya para terminar el tema del Data Stagworth y seguir con el tema del --> Talent Data Preparation --> Sí, te llegó el correo, Fernanda, perdón, perdón, no te escuché, qué pena, sí, --> te tuvo que llegar y algo así como iniciar un Lex y te va a pedir --> escoger el tenan, más que todo la ubicación donde van a quedar los --> datos, ahí puedes escoger AWS o Azure, el que tú prefieras y al final no te --> llega todavía --> No sé si me muestras, por favor, comparte ahora tu pantalla donde estás --> abriendo directamente de tu máquina, no sé si tú compartes la pantalla, a ver --> sí, muéstrame el correo que llegó --> el correo que te llegó a AXA, a la cuenta de AXA, sí, dale click ahí en --> Lex --> dale click ahí --> ahora intenta lo guiarte para ver, tú tenías, tú habías creado alguna cuenta --> anteriormente con Talent --> porque si la creaste ya los 14 días de trial se nos acabaron --> tú lo habías creado, sí --> Ah, el Data Catalog, pero no recuerdo, a ver, el problema es que los 14 días esos --> deja decirle a Jimena para ver si nos colabora con algún correo de la --> empresa de ella y podamos crear para que funcione, un momento, por favor --> a ver --> ¿Verdad? Por favor Listo, ¿Eh? --> Hagamos algo, Fernanda, eh, --> vamos a terminar un ejemplito --> del día de ayer mientras --> conseguimos una cuenta y ya --> con esa cuenta eh que me va a --> conseguir ahora Jimena, podamos --> iniciar entonces el curso del --> que es el que vamos a iniciar --> el día de hoy, ¿OK? Entonces --> terminemos el el lo del día --> de ayer. Entonces, vamos a lo --> siguiente. Bueno, el día de --> ayer eh iniciamos con el talent --> data keywords. Básicamente --> analizamos los tres perfiles. --> El primer perfil era el del --> creador de la campaña, ese --> creador de la campaña tiene --> como función, crear el modelo --> de datos, crear la campaña, --> en la campaña tiene que --> definir roles, los roles que --> tiene la campaña, y el --> workflow que va a manejar y --> los diferentes pasos de ese --> workflow. Ese workflow tiene --> que ser asignado a unos roles --> específicos. Después vimos el --> operador de campaña que el --> perfil de él es principalmente --> listar las campañas que le --> fueron asignadas y más que --> todo poblar la campaña de --> tareas. Recordemos que las --> tareas corresponden a --> registros que deben ser --> revisados para algún proceso --> de calidad. Entonces, las --> tareas del día de ayer la --> hicimos tanto de forma --> manual como de forma --> automática. De forma manual --> creamos una tarea y de --> forma automática tomamos un --> data set y subimos y poblamo --> los datos de ese data set con --> la campaña. Y por último --> vimos el perfil que es el de --> Data Stewards, que es la --> persona encargada de --> corregir los diferentes --> tareas que le fueron --> asignadas. Esos son los --> perfiles básicos que tiene --> y es el core de la --> herramienta. La herramienta --> está más pensada, como --> dije el día de ayer, para --> la parte de curación y --> arbitraje de datos. Si tú --> la quieres adaptar para --> algunos elementos muy --> específico de tu empresa, --> pues hay que ver la forma en --> que eso se podía adaptar. --> Vamos entonces a terminar --> un ejemplo del día de ayer. --> Sí, dígame. --> Perdió, sí, sí, sí, claro, --> porque sí, sí, sí, claro que --> sí, claro que sí. Ahora sí. --> Perfecto. Por darme --> entonces. Listo, para ahora --> entonces, para lo siguiente, --> vamos al Talent Pile Line, --> Pile Line Designer, vamos al --> Pile Line Designer y vamos a --> agregar un Pile Line. --> Listo, este Pile Line, --> vamos a cambiar el nombre, --> recuerde que para cambiar --> el nombre, nos colocamos --> justamente en el nombre, --> el mouse, automáticamente --> nos aparece un lapicito, --> damos clic en el lápiz y --> cambiamos el nombre. --> Entonces, voy a colocar aquí --> como nombre, Poblar, Datos, --> Campaña, Aerolínea. Listo, --> perfecto, hacemos esto aquí. --> Listo, algunos todavía están --> accediendo al Pile Line, --> está cargando en algunos --> casos. El caso de Brenda --> todavía está cargando, --> perfecto, espero un momento. --> Voy un momento a tu pantalla, --> Brenda, que se me hace extraño --> que haya demorado tanto para --> cargar. Espera un momento. --> No, no quería eso. --> Espérate un momento, por --> favor. Sí, termino a veces. --> Listo. --> Bueno, listo, Brenda. --> Acceda para ver si le puede --> adicionar el Pile Line. --> Sí, ahí, perfecto. --> Cambie el nombre, por favor, --> a Poblar, Datos, --> Campaña, Aerolínea. --> Y vamos por ese punto que --> está ahí. --> Perfecto, continuamos entonces. --> Listo, perfecto. Listo, --> sigamos entonces. Ahora, --> vamos a hacer un porque --> resulta que los datos están --> repartidos en dos data sets. --> Entonces, para eso, para --> agregar los datos de entrada, --> vamos a darle clic aquí en --> add source. --> Y vamos a escoger en este --> caso, pues, el data set --> que le hemos llamado pasajeros. --> Y le damos aquí select. --> Y para hacer un join, vamos a --> darle clic aquí en el más que --> aparece después del de la --> entrada del S3 de pasajeros. --> Y vamos a escoger como --> procesamiento eh la condición --> que dice join. Dele aquí --> clic en join. Y le debería --> aparecer un recuadro para --> definir otra fuente de entrada. --> Entonces, dele nuevamente clic --> en add source y va a escoger --> la el otro data set con el --> cual vamos a hacer el join, --> que en este caso sería --> vuelos. --> Eh, Luis, dale clic en el --> más, por favor, el que está --> al ladito del ese ahí. --> Perfecto, dale clic en ese. --> Y coge join, la funcionalidad --> que se llama join. Y listo, te --> tuvo que haber agregado. --> Entonces, en la nueva fuente de --> entrada, escoge vuelos. --> Perfecto, listo, select. --> Perfecto, ahora vamos a hacer --> el proceso de join. --> Dele clic aquí donde dice --> join, por favor. --> Y definimos las claves de --> enlace para los dos data set. --> En este caso, entonces, me --> pide la left sería lo el --> data set que está en la --> parte de arriba y el ray --> sería el data set que está en --> la parte de abajo. --> Entonces, los data set se --> unen a través de una llave --> llamada número de vuelo. --> Entonces, aquí aparece el --> número de vuelo. --> Y aquí está, entonces, --> número de vuelo. --> En caso que los data set --> se unan a través de --> diferentes llaves o --> diferentes columnas, --> simplemente se agrega aquí --> cada una de las columnas --> aquí en el más que está --> aquí que toman la --> condición. --> Recuerde algo, esa herramienta --> no guarda automáticamente los --> cambios, sino cada vez que --> haya un cambio, hay que --> darle safe. --> Aquí hay una opción que --> dice que mantenga las dos --> columnas, pues, si usted --> desea, si no está habilitada, --> significa que aunque haya --> número de vuelo aparecido --> dos veces, uno en pasajeros --> y uno en vuelo, nada más --> va a salir, va a salir, va --> a tener como salida, --> solamente un número de --> vuelo. --> Y le por aquí safe. --> Y listo. --> Perfecto, listo. --> Perfecto, démonos para --> guardar ahí, ¿qué raro? --> Listo. --> Ahora vamos a escoger como --> destino la campaña a la --> cual yo quiero poblar. --> Entonces, para este caso en --> particular, dele click acá --> en el destino y le va a --> entonces unas pestañas en la parte de arriba que dice dataset y campañas, escoja campañas y --> selecciona la campaña. Recuerde que esta herramienta solamente permite popular campañas de tipo --> resolución y de tipo merging. Ahora, si desea popular los otros tipos de campañas, lo hace --> con una herramienta que se llama el talent studio, que ya está instalada en su empresa. --> Entonces vamos a escoger aquí que sería campaña, variación, aerolíneas, selecciona. --> Aquí tengo un problema por la forma en que trabaja. Recuerde que para poder polar los datos --> hacia una campaña, lo que hace la herramienta es que hace un match por nombre de columna y --> en este caso me parece un poco tedioso esta parte y además de eso es caso sensitivo, es decir, --> si la columna en alguno de los casos está mixto y en la otra está en minúscula, --> no va a cargar los datos. Tengo un problema que se me va a formar aquí que va a ser muy --> común con este tipo de herramienta, es que los nombres de columna que están en el modelo --> de datos quizás no coinciden con los nombres de columna del dataset. Eso es común ¿Por qué? --> Porque el que crea la campaña, que asimismo crea el modelo, no sabe exactamente cómo están --> guardadas las columnas dentro de los dataset, que pueden ser tablas o cualquier elemento que --> tenga. Entonces, si tú eres operador de campaña, tienes que tener la capacidad de --> poder mapear a los nombres correctos. Más específicamente el problema que tengo es --> que el nombre del cliente que está en pasajeros aparece solamente como nombre y en el modelo --> de datos aparece como nombre cliente. Si intentamos ejecutar actualmente el JOK así --> como está, vamos a tener un problema en que en el caso particular del nombre cliente que --> aparece en campaña y nombre dataset, ese columna no va a tener datos, se va a llenar de forma --> vacía, o sea va a tener datos vacíos, perdón. Para esto entonces la herramienta plantea --> lo siguiente, agregue aquí un nuevo elemento, un nuevo componente, dele click aquí en --> el más. Y ahora en este más escoja una opción que se llama field selector, este --> el de campo, sector de campo, esta que está aquí. Sí, dígame. Y quién me --> lo que pena. Alejandro, un momento, listo, vamos a ver. Listo, ¿qué no te despliega? --> El fiel, ah no, no te despliega ahí porque él intenta buscar datos en esa campaña --> y todavía no ha ejecutado, entonces está vacía y ahí se queda bloqueado. Entonces --> como todavía no hemos ejecutado, primero dale click ahí en el más, perfecto, field --> selector, el de abajo, ese, listo. Bueno, aquí tengo el field selector, este que --> está aquí, este componente lo que va a hacer es que va a permitirle mapear, --> primero, filtrar las columnas que deseas de salida y segundo, en algunos casos si --> tú lo deseas, cambiar los nombres de las columnas. Listo, aquí tiene dos --> modos, un modo simple y un modo avanzado. Vamos entonces a esta parte simple que es --> más sencilla. Listo, entonces dele click aquí en el modo simple que es el que --> está por defecto, dele click aquí en el, como para abrir una ventana y --> editar. Y aquí usted puede mapear los datos que desea de salida, esto es --> como un filter column, pero para el caso particular que va hacia una --> campaña, aunque la campaña tenga menos columnas que los datos de entrada, pues --> él solamente va a tomar los datos que mapea a nivel de nombre. Quiere decir que --> si entran 15 columnas y la campaña tiene cuatro, él solamente va a --> intentar mapear esas cuatro columnas y cómo las mapea por nombre. Entonces --> aquí tengo un problema que es con esta columna que se llama nombre, --> ¿por qué? Porque esta columna nombre se llama nombre cliente en el modelo --> datos que definimos. Para cambiarle el nombre, seleccione, se ubica el mouse, le --> da click sobre, un momentito que voy a cogerle el truco aquí, aquí le aparece cuando --> selecciona. Aquí, ah, listo. Coloque el mouse un poquito a la --> derecha al final del nombre de la columna y le va a aparecer un --> lápizito ahí. Dele click en ese lápiz y va a especificar cómo desea mapear el --> nombre de la columna. En este caso la hemos llamado por estándar nombre --> underscore cliente y dele click por favor en el chulito para que acepte. --> Dele editar por favor en el click y debería parecerle que hay un campo --> que está renombrado. Perfecto, listo. Ahora se nos olvidó configurar la --> salida de la campaña, dele click por favor en la salida de la campaña que se nos --> olvidó configurar. Y recordará que esta herramienta permite hacer dos --> funciones sobre las tareas que tiene una campaña que son o insertar más --> tareas o borrar tareas existentes. Para este caso en particular vamos a --> insertar, vamos a coger el primer estado que se llama en revisión, se la --> vamos a asignar al dueño de la tarea que es Luis Martínez. --> De pronto se preguntará por qué sale por defecto no asignada, por qué quizás en el --> momento de poblar todavía no sabe a quién le puede asignar, porque la --> herramienta le permite tener un paso en el workflow asignado a varias --> personas, pero tú podías dividir las tareas entre esas personas que --> digamos están para ese paso. Esta prioridad aquí tú puedes manejarla, --> pues ya es algo más interno de cómo la vas a manejar, si es alta, media, baja --> y cómo internamente se maneja cada una de esas prioridades. --> Listo y aquí recuerde darle aquí safe. --> Y listo, ahora lo que deberíamos hacer es ejecutar entonces el job. --> Listo, aquí escoge la infraestructura. --> Bien, el tiempo de ejecución demora porque los recursos están compartidos --> con millones de usuarios que han creado alguna cuenta teal. --> Asumo que cuando usted pues adquiere una licencia de talent cloud, pues el --> tena en el cual reserva los recursos es privado para usted, entonces los --> tiempos de respuesta pues tendrían que bajar dramáticamente. --> Sí, dígame. --> Ok, vamos a ver. --> Sí, eso es porque, bueno, ese warning que está ahí es porque intenta --> buscar datos en la campaña y no hay. Dele a F5, por favor, a su --> ventana, de F5 recargar un momento. Váyase nuevamente a la campaña cuando --> termine de recargar, dele clic en la campaña y sí, sí tomo los campos. --> Listo, dele run ahora. Escoja, por favor, el engine tipo Spark --> Local y dele run, por favor. Si ya terminó, revise en su data --> staywars, si las tareas, por favor, si son tan amables, las --> tareas de la campaña de la aerolínea y deberían estar ahí. --> Aquí está, TAS, aerolínea. Y aquí está. Y el caso del nombre cliente, --> aquí me salió un error. Vea, dese cuenta que este nombre cliente no me lo tomó. --> Voy a revisar el modelo para ver qué pasó, cómo lo llamé. En el modelo lo llamé. --> El campo lo llamé. --> Perdón, es el modelo de la aerolínea. El nombre cliente lo llamé. Nombre --> underscore cliente. Voy a ver cómo salió de este lado. Qué raro. --> Reviso para ver el pipeline. No sé si ha salido el mismo error. --> Algo particular, no me tomó la configuración. No sé por qué. --> Dese cuenta que esta configuración no sé si fue que no la salvé. --> Nombre underscore cliente. Editar. --> Un momento, un momento. Aquí nuevamente, nombre underscore cliente. --> Doy el chulito. Doy editar. Y creo que no le di safe. --> Ahora sí. Confirmo para ver. Listo. Intento ejecutar nuevamente. --> El caso suyo, Brenda, seleccione todo. Listo. Ahí cambia el nombre. --> Y a mí fue que no le di safe. Dele ahí clic, por favor. Nombre cliente. --> Y tiene que darle el chulito al final porque si no, no tiene el cambio. --> Dele safe ahí si está mal Brenda para que tenga el cambio porque si no, no lo, no lo mantiene. --> Listo. Reviso ahora sí. Nuevamente, debería tener el doble de tareas, --> pero las tareas que agregué ahora deberían tener ahora sí el nombre cliente. --> Efectivamente, aquí están las tareas nuevas que agregué, --> pero ahora con el nombre de cliente. --> Mientras alguno termina para que hiciste ejemplo, --> porque es muy común que los nombres de los modelos no cuadren exactamente con --> los nombres de columna del darsteco original y eso entonces va a impedir que se complete. --> Jimena, ibas a comentar algo. Coloca en AWS, no hay problema. --> Manda, por favor, el correo y la contraseña. --> Ok, perfecto. --> Bien, ese es el ejemplo. --> Entonces, el caso Brenda, revisemos para ver el caso suyo. --> Tiene los datos, tiene todas las tareas vacías. --> Muestren si es tan amable el pail line. --> Listo, revisemos que tampoco Brenda le aquí estoy compartido su pantalla y --> revise para ver si quizás tiene el mismo problema. --> Vaya al fiel selector si es tan amable. --> Muestren por favor la configuración de ese fiel selector a nivel de nombres de --> por favor. --> Dele clic ahí. --> Ok, nombre del cliente listo del editar a editar al del cáncer ahí por favor. --> Si no hicimos ningún cambio, cáncel y dele clic nuevamente en campaña. --> Ejecute por favor nuevamente ese ese yo para ver si fue que cuando se --> ejecutó quizás el había un problema de configuración de la ruta nuevamente para ver. --> Ok, perfecto. --> Brenda, voy a compartir por aquí por el chat las credenciales de acceso a la cuenta. --> Ese sería el correo. --> Y este sería la clave un poquito complicada, pero no la fácil. --> Perfecto, me decía alguien más. --> Beatriz, vamos un momento a ver qué pasó. --> Mientras esperamos a ver. --> Muéstreme listo el fiel selector. --> Muéstreme la campaña, la campaña de clic en la campaña, por favor. --> Eso perfecto ahí. --> Ah, ok. --> Creo que el estado a donde usted lo envió es revisado, no en revisión. --> Entonces hagamos lo siguiente. --> Váyase al Data Stewards. --> Listo, momento listo, Data Stewards. --> Entre a las tareas de la campaña de la Euro línea, que sería la segunda, perfecto. --> Y en el estado, cámbielo a revisado. --> Y ahí está. --> Aclaro que este error no es tan común hacerlo porque normalmente los pasos están --> especificados para un grupo de usuarios. --> Lo que pasa es que como nada más tenemos un solo usuario, ese usuario tiene derecho --> a mandar los datos a cualquier estado. --> Entonces, pero sí, ahí están. --> Perfecto. --> Perfecto, están ahí. --> El caso suyo. --> Vamos a ver, Brenda, si están a Maldes. --> Vamos al Data Stewards, vamos a las campañas para ver a las tareas de la campaña. --> Baje para ver, por favor. --> Sí, ¿qué creo yo que cuando la ejecutó la primera vez me pareció que seleccionó --> todas las columnas del fiel selector, o sea, no salía nada para la salida? --> Y ahora que las habilitamos y tienen los datos. --> Perfecto. --> El ejemplo lo que buscaba era solucionar el inconveniente cuando que es demasiado --> común, cuando el modelo de datos no coincide con los nombres de columna y por defecto, --> la herramienta lo que hace es un match por nombre de columna. --> Entonces, con el fiel selector es posible que usted pueda solucionar ese tipo de --> problemas. --> Eso es lo que busca. --> Listo. --> Ahora terminamos, por ejemplo, de ver algunas tipo de otras campañas que están --> aquí, por ejemplo. --> Digamos, esta campaña de merging o de fusión, lo que busca este merging o fusión es tratar de --> encontrar registros que tengan duplicados. --> Y la idea es que usted pueda encontrar cuál de esos registros se encuentran duplicados. --> ¿Este sí es merging? --> Sí. --> Entonces, por ejemplo, aquí encontró una posible, digamos, --> duplicidad tanto a nivel de nombre, last name y muchos elementos. --> Entonces, lo veo desde este punto de vista. --> Usted tiene varias sucursales, tiene un dataset que va a unirlos. --> Entonces, la herramienta lo que hace es que usted hace una campaña de tipo merging y --> podía encontrar qué columnas tienen datos similares o iguales y usted decidir cuál de --> esos datos es el que va a quedar. --> Entonces, eso es lo que hace un merging. --> Este ejemplo, no lo voy a hacer, ya no me da tiempo. --> Vamos con una de arbitraje, esta que está aquí. --> Esta de arbitraje, note que aquí hay una pregunta. --> El arbitraje le había colocado el ejemplo de la siguiente forma. --> Usted va a acoger un candidato de unos candidatos y quiere tomar unos candidatos --> potenciales para que hagan una entrevista. --> Usted lee de manera que es visual nuevamente la característica si cumple o no --> cumple ese candidato y aquí resuelve la pregunta. --> En este caso, la pregunta es sí o no. --> Pero usted puede hacer cualquier tipo de preguntas con opciones múltiples de --> respuestas. Sí, no, quizás. Bueno, ahí lo podía hacer. --> Entonces, cada uno usted lee y puede decir yes, este sí, este no, este yes. --> Y usted entonces, cuando pase la siguiente etapa, pasarán las preguntas a la --> cual es usted decida. --> En este caso se configura para lo que sean sí, pasen a la siguiente etapa. --> Los no se quedan entonces en la etapa inicial. --> Esto es lo que haría una de tipo de arbitraje. --> Y la otra que es de agrupamiento. --> Esta que está aquí. --> Note entonces que lo que hace este señor es que a partir de un data sec --> toma características similares de los registros. --> Eso para qué es bueno? --> Es bueno cuando usted quiere segmentar, por ejemplo, los datos que puede --> segmentar los datos a nivel de ubicación, de estrato social y tomar --> decisiones con respecto a esos datos. --> Eso es. Al final, la herramienta no es más nada. --> Quizás se me escapó algo por ahí, pero eso es el total de la herramienta. --> No es más nada. --> Hay que se me haya pasado. --> Ya es. Eso es toda la herramienta completamente perfecto. --> Entonces aquí dejamos el tema del talent data staywars. --> Vamos a seguir con el tema del talent data preparation. --> Y eso terminamos el día de hoy. --> Debería terminar hasta donde terminemos el día de hoy y mañana sí --> seguimos con el tema del talent big data. --> Con ese talent big data me va a quedar un poco corto porque anteriormente --> eran cuatro días. --> Esto solamente son tres días. --> Entonces voy a tratar de colapsar la mayor cantidad de conocimiento de los --> ejemplos que vaya a ser, porque cuando empezamos este tema ya se había dado --> un curso que se llama el talent data integration que ya tenía una idea de --> cómo funcionaba el talent. --> Pero bueno, ahí vemos cómo hacemos para poder transmitir la mayor --> cantidad de conocimiento. --> Vamos a pasar de al talent data preparation. --> Fernanda, no sé si ya pudiste acceder. --> Te mandé las claves por ahí. --> No sé si se ve al cuerpo de listo. --> Voy para la pantalla un momento listo. --> Entonces voy aquí a lo siguiente que me cargue. --> No sé, salió aquí un error extraño. --> Espérate para ver si se fue directamente listo momento. --> Vamos a intentar lo guiarnos nuevamente a ver. --> Listo, está un poco lento al parecer. --> Dejé intento al F5 aquí porque ya está cargando. --> Listo, esperemos 30 segundos para que habilite este botón y podamos acceder --> a toda la herramienta de talent data fabric. --> Me esperan por favor los demás. --> Bien, si desea, vamos accediendo a la herramienta que se llama talent data --> preparation para poder subir algunos data sets. --> Ya sabemos que tenemos algunos problemas a nivel de tiempo de respuesta cuando --> intentamos subir a la cuna de la set. --> Por el problemita que tengo es que estoy compartiendo el tenen con muchos --> usuarios. --> Bueno, aquí está. --> Continuar listo, self explorer. --> No, por favor, Fernanda, no vamos a ubicar aquí en el talent data --> preparation. --> Por favor, este de aquí, listo. --> Listo, ya tomo el control con respecto a tu máquina virtual. --> Bueno, vamos a continuar. --> Antes de ver esta parte teórica, vamos a adelantarnos un poquito con este --> talent data preparation. --> Para esto vamos a hacer lo siguiente. --> Todos nos ubicamos en el talent data preparation. --> Y note que aquí tengo, en el menú vertical, tengo entonces un par de --> cosas que voy a explicar, pero aquí tengo nuevamente data set. --> Tome este data set y abra varias páginas en pestañas diferentes para --> poder ir cargando los diferentes ejemplos que vayamos a hacer. --> Entonces, en este caso he abierto tres pestañas sobre el data set. --> Abra tres, por favor. --> Y ahora se ubica en la primera pestaña y vamos a ir subiendo un --> par de data set que vamos a tomar como ejemplo. --> Primero que vamos a hacer entonces es lo siguiente. --> Váyase al escritorio de su máquina. --> Tengo el escritorio, escritorio. --> Váyase a la carpeta que se llama recursos. --> Accede a la carpeta que se llama TDP de talent data preparation. --> Accede a casos de estudios y va a donde dice ejercicios. --> Va al ejercicio número uno que es una carpeta y por cuestión de --> tiempo nada más suba el primer archivo que se llama data set limpieza --> datos clientes versión uno punto c s v. --> Tome este señor y lo suelta en la pestaña que dejó abierta del data set. --> Abre la siguiente pestaña y va a subir ahora el archivo que --> se llama ejercicio dos. --> Los demás no lo suba porque tiene que subir de nivel la pestaña en que --> estábamos, estábamos en ejercicio uno en la carpeta, suba de nivel la --> carpeta y ahora vamos a subir ejercicio dos. --> Y en la siguiente pestaña sube ejercicio tres. --> Le voy a pedir el favor que mientras de pronto haya algún tipo de --> sororidad muy particular de pronto con un problema con alguien que no --> le funcione algo, vaya subiendo usted estos archivos, el cuatro, --> el cinco y el seis de tal forma en que no perdamos mucho tiempo en --> esperar a que no suba para hacer el ejemplo. --> Deje esas ventanas ahí mientras va subiendo. --> Y mientras usted hace eso, no sé si alguno me voy a comentar algo. --> Ok, ¿Quién va a lo Fernando así? Sí, ah Brenda, perdón, que peta. Brenda, listo, --> entonces hagamos lo siguiente. --> Data set, listo, sí, ya creo que abrió ya la siguiente pestaña que tiene, --> la siguiente pestaña del browser. --> Dele click ahí, ah no, pero cierra, cierra esas pestañas que están hacia --> adelante, entonces es mejor para evitar que tenga tantas. --> Dele nada más abierta una, listo, listo, cierre también esa. --> Váyase al menú vertical que está al lado izquierdo y se ubica en --> data set y le da clic derecho. --> Dele open new tab, ese que está ahí. --> Haga eso dos veces más y listo, perfecto. --> Váyase a la segunda pestaña, la primera pestaña que abrió, nueva. --> Y ahora sí se va al explorador de archivos de Windows, a las carpetas, --> perfecto, y ahí entra la carpeta ejercicio uno y sube el primer --> archivo, el que es .csv, suéltelo acá, listo. --> Deja eso ahí, quietecito, váyase a la siguiente pestaña y sube ahora --> ejercicio dos, suba de nivel, la suba de nivel si es tan amable en --> el programa de archivo, se ubica en la carpeta ejercicios, dele atrás, --> no, ese no, dele atrás un momento, exactamente. --> Ahí coge ejercicio dos y lo suelta de este lado. --> Abre ahora por favor la última pestaña y ahí va subiendo --> ejercicio tres, a medida que vayamos, haya un break o algo --> particular, tenga presente en que vaya subiendo los temas. --> Si hay alguno que está demorando mucho tiempo, entonces por favor lo vuelve a --> subir nuevamente porque los errores que presentan es específicamente porque no --> te veo poco recursos, porque esto es compartido y limitado la cantidad de --> procesamiento que tenemos. --> Listo, perfecto, entonces ahora, perfecto, gracias a usted, listo. --> Sigamos entonces, vayamos ahora a la parte teórica de cuál es la función --> principal de este Talent Data Preparation, mientras usted va --> subiendo esos archivitos y después nos vamos a la parte práctica. --> Lo hice de esta manera porque ya tengo experiencia en que perdemos mucho tiempo --> subiendo y en realidad no se aprovecha el tiempo en su totalidad. --> Entonces, voy a, listo, ya estoy compartiendo la pantalla, --> confirmo, sí, perfecto, estoy compartiendo aquí la pantalla. --> Y vamos a iniciar entonces con este Talent Data Preparation, listo. --> ¿Cuál es el objetivo principal de esta herramienta? --> Bueno, resulta en que usted puede tener los datos estructurados. --> Y aclaro que el día de mañana voy a hacer una introducción y para hacer una --> discusión interesante sobre las diferencias de datos estructurados, --> no estructurados y semiestructurados. --> Eso lo hacemos mañana con el Big Data. --> Es una característica fundamental en que para mí no lo veo tan fundamental, --> pero, bueno, es una característica que se especifica en el Big Data y --> que mañana la vamos a ver en su totalidad. --> Entonces, como le decía, sus datos ya se encuentran estructurados, --> pero quizás esos datos te necesitan ser formateados o quizás los datos que --> tienes necesitas hacer unos cálculos específicos. --> ¿Para qué debes hacer esos cálculos o para qué hacer ese formateo? --> Para adaptar los datos a cierto tipo de herramientas, --> herramientas que pueden ser Power BI, --> herramientas que pueden ser de Tableau, --> herramientas que pueden ser para la parte de Machine Learning o --> herramientas que pueden ser para la parte de elementos de visualización que tiene Quilk. --> Entonces, al final hay que formatear los datos o hay que hacer algunos --> procesos de fórmulas matemáticas para llegar y tener, --> digamos, ese formato específico a donde lo quiero llevar. --> Listo, esto es muy común para los analistas de datos y para los --> científicos de datos, que normalmente, aunque tú le das los --> datos para que ellos trabajen, quizás hay que hacer un formateo a esos --> datos. Ahora, ¿cuál es la idea fundamental de la herramienta? --> Partiendo del hecho en que quizás ese analista o ese señor o ese --> científico de datos no tiene el tiempo para esperar a que un --> profesional del área y cuando hablo profesional puede ser un desarrollador --> de T.L. o un developer de database que te pueda formatear los datos --> así como tú quieres. Como no se puede dar lujo de esperar y perder el tiempo --> a que este señor le haga eso porque puede estar seguramente muy ocupado. --> Entonces, se crea esta herramienta de preparación de datos que cualquier --> persona, abro comillas doble, con conocimientos básicos en --> tecnología, podía preparar los datos según a él más le convence. --> Entonces, en esta nueva ola que mencioné el día de ayer, que son --> los ciudadanos de datos y que se habla mucho del autoservicio que tú --> mismo puedas configurar los datos o que tú me ayudes a corregir los datos por --> un problema de calidad que tengo, se crea en ese tipo de herramienta. --> Aclaro que estas herramientas, pues las vas a poder encontrar en otras --> plataformas, sea WS o Azure. El caso de Talent la llama --> Talent Data Preparation, que es una herramienta netamente de autoservicio. --> Dentro de las ventajas que plantea la herramienta, porque estoy tomando --> directamente toda esta teoría del tutorial que tienen ellos, te ayuda --> a agilizar esos flujos de trabajo. ¿Por qué? Porque ya no hay dependencia sobre --> algunos elementos que tú puedes hacer. Entonces, ya no dependes del developer, --> ya no dependes, por ejemplo, de estar de tele para que te los formatee como --> tú desees. Ahora tú mismo lo puedes formatear y eso te agiliza, te quita --> algunos cuellos de botella para esos tipos profesionales que se pueden --> dedicar a hacer otras cosas. Como su nombre lo dice, habilita el --> autoservicio, porque evidentemente tú lo puedes hacer. Y aquí hay algo un --> poco más de publicidad. Dice que da conectividad a cualquier fuente de datos. --> En realidad, pues eso es más de publicidad. La teoría, o sea, el --> tutorial dice que tiene conexión a 600 fuentes. Yo en realidad no he --> contado si en realidad son 600 fuentes, pero si te permite conectar a --> Azure, a Bigtable, a Databricks, a muchos tipos de plataformas que son muy --> comunes, en realidad lo que he hecho sí me permite la conexión. No he hecho, --> digamos, conexiones sobre algunos sistemas que no son muy conocidos, --> porque no trabajo con ellos. Pero bueno, la teoría dice que te ofrece 600 --> conectores a diferentes fuentes de datos como tal. Ahora, esto es lo que --> plantea, digamos, el tutorial de los beneficios principales, lo estoy tomando --> literal, esta parte del tutorial. Una es que te ofrece la integración y --> catálogo de datos. Hay que entender ese catálogo, porque quizás ya hemos --> visto que hay unas herramientas que te permiten catalogar. La primera en --> el ecosistema de talent se llama Talent Data Catalog, pero yo puedo hacer --> catálogo de datos con Talent Data Inventory. Y esta herramienta lo dice, --> bueno, pero yo entonces esta herramienta también me permite catalogar. Bueno, --> en realidad ese catálogo de datos que llama él es que ahora cuando tú subas un --> data sec al Talent Data Preparation, él te va a catalogar las columnas según --> unos datos semánticos que tenga. ¿Qué son datos semánticos? Son datos que --> puede ser una expresión regular o quizás un diccionario, que eso fue lo --> que vimos ayer. Entonces, ya por defecto, ayer les mostré, por ejemplo, --> que él tiene una cantidad de datos semánticos y buscamos, por ejemplo, --> animales. ¿Qué era un diccionario? Un diccionario que es para talent, --> simplemente un listado de nombre de animales. Entonces, hace lo mismo que el --> Talent Data Inventory, que en pocas palabras, cuando tú subes el data sec, él --> intenta verificar a qué grupo pertenecen las columnas que están --> ahí en cada uno de los elementos. Entonces, te la puedes clasificar como email, como --> código postal, como animal, dependiendo de los datos que estén ahí. A eso es lo --> que él llama el catálogo de datos, en realidad, o la catalogación que se hace. --> No es nada el otro mundo, simplemente es eso que se cataloga en --> las columnas según los datos semánticos que estén establecidos. --> Aquí se hace, sí, un descubrimiento y perfilamiento de datos. Si recordarás --> el día de ayer cuando hablé de curación y le dije que cuando se hace --> análisis de datos a nivel de calidad, hay dos procesos fundamentales. Uno que se --> llama limpieza, que es sinónimo de curación, y el otro que es la parte de --> perfilamiento. El perfilamiento es encontrar anomalías. Entonces, la --> herramienta te va a permitir hacer tanto la parte de perfilamiento de --> encontrar anomalías en los datos, así mismo te va a permitir hacer --> limpieza de esos datos según lo que tú requieras. Te da, entonces, enriquecimiento de conexión --> porque ahora también te va a permitir hacer joins las herramientas. Entonces, --> tú puedes tener diferentes cuentas de datos y hacer los joins y te hace, --> entonces, que tú puedas automatizar las tareas. Ya les voy a decir cómo es --> ese cuento de automatización como tal. Eso es lo que plantea, en realidad, y lo que --> tiene el Training Data Preparation. Y aquí simplemente unos conceptos clave que --> vamos a ver y que vamos a trabajar durante el día de hoy. En primer --> concepto, el concepto pues de data sec, que básicamente data sec que son datos --> en crudos, que puede ser tabla o puede ser un archivo en formato --> estructurado. Hay una parte conceptualización que hay algunos --> autores que no definen un data sec para datos no estructurados. Por --> ejemplo, una imagen. Hay algunos autores que sí, pero eso es netamente a nivel --> conceptual. Pero normalmente los data sec que tú manejas tienen una estructura y --> al final todos estos data lay, data lay house, que lo voy a discutir el día de --> mañana. Al final, aunque los datos estén no estructurados o semi --> estructurados, siempre, siempre se busca estructurar los datos. Entonces, --> un data sec puede estar en diferentes formatos. Aquí te voy a aclarar algo, --> hay algo en el tutorial que no cuadra, en el sentido de que el tutorial --> plantea en que los data sec pueden estar en formatos estructurados de tipo --> CSV, pueden ser tablas, pueden ser archivos XML y pueden ser archivos --> JSON. Las pruebas que he hecho con archivos JSON no me ha funcionado. Es --> decir, no está leyendo de forma correcta los archivos en formato --> JSON. Entonces, ahí hay algo que no está, digamos, que no es tan real con --> respecto a lo que dice el tutorial. Por otro lado, entonces, ese es el concepto --> data sec, que seguramente tengo el concepto data sec y data source. Data --> sec es el dato, como tal, el conjunto de datos. Y data source sería la --> fuente donde obtengo ese datos. Ahora viene un concepto que se llama --> preparación. La preparación lo que hace es que vincula una receta con un --> data sec con el objetivo de hacer algún cambio en el formato o calcular --> algún algo matemático que quieras, algún tipo de operación matemática --> que tú requieras. Entonces, cuando hablamos del concepto de --> preparación es que yo incluyo una receta para un conjunto de datos o un --> conjunto de funciones que tú haces. Digo conjunto porque yo puedo tener data sec y ya puedo hacer --> join sobre data sec en la herramienta como tal. Ahora preguntarán ¿qué es una --> receta? Bueno, una receta son un conjunto de funciones que tú haces. ¿Qué --> tipo de funciones? Funciones que ya están preestablecidas en la --> herramienta. Esas funciones te vas a dar cuenta que son prácticamente las --> mismas que te mostré ayer en el data stack worksheet, que no entramos en --> detalles porque te dije, no tiene sentido que te explique dos veces lo mismo. --> Entonces, las funciones que están establecidas allá en el data stack --> work son las mismas que vas a encontrar en el data preparation con una --> pequeña diferencia que el data preparation tiene más, mientras que --> el data stack work tiene una pequeña parte que tiene el data --> preparation. Listo. Entonces, esa receta define un conjunto de pasos de esas --> funciones que están establecidas y al final ¿qué es una función? Pues --> una función es una acción que vas a aplicar sobre una fila, sobre una --> columna o si tú quieres sobre el data sec completo. Ahí te coloco un ejemplo --> que es remover filas vacías, cambiar tipos de datos, etcétera. --> Listo. Entonces, eso es simplemente el talent data preparation. No sé de --> forma cómo lo vas a incluir dentro de tu diario de vivir, si es que te --> gusta hacer esta parte, pero es una herramienta que pues está dirigida más --> para un usuario final en el cual no tiene unos conceptos tan técnicos, no --> tiene conceptos a nivel pues que son requeridos para otras herramientas --> más especializadas, conceptos a nivel de programación y conceptos a nivel por --> ejemplo de SQL. Entonces, es más para un usuario final con ese tipo de --> características. Te voy a mostrar la herramienta y tú --> analizarás en qué caso pues tú la podrías usar en tu diario de vivir. --> Listo, aquí no hay más nada. Ah, bueno, aquí se me escapaba, aquí agrego el --> concepto de tipo semántico que es el mismo que vimos en el talent data --> stewards. Son exactamente lo mismo y lo que tú hagas, los tipos semánticos --> que tú hagas en el data stewards se comparten con lo del data preparation --> y al revés, los que hagan el data preparation también se comparten con el --> data stewards. Listo, entonces ahora sí vamos, voy a acceder aquí a la --> herramienta, por favor. Verifiquemos antes de empezar si el primer --> data sec se subió de forma correcta. En el caso mío no se subió. Todavía --> está procesando. Por experiencia he visto que cuando ya demora más de --> minutos creo que el data inventory va a fallar y no lo va a procesar. Entonces --> voy a hacer lo siguiente, voy a abrir otra pestaña aquí y lo voy a intentar --> abrir nuevamente. Voy por acá --> y voy a intentar entonces, perdón, era en el dataset. --> Voy a intentar subirlo nuevamente porque tuve un error. --> El tipo de errores no salen a nivel ya de una licencia que adquieras y que --> hayas cancelado, esto no suele. Esta herramienta al igual que la --> data stewardship te permite utilizarla en formato híbrido. Híbrido quiere --> decir que puedes instalar a nivel on-premise esta herramienta --> como tal. --> Bueno, a ver a quién le subió. Alejandro veo que le subió. Fernanda parece que le --> subió y veo que Beatriz tiene un error, no sé, salieron como 50 errores. --> Revisa Beatriz por favor si te subió el primero que se llama data --> del limpieza. No sé si se te subió ese señor. --> Ok. --> Permíteme e intento acceder para ver. --> No te reacciono, permíteme e intento acceder a tu máquina un momento. --> Reviso para ver. --> Listo, entonces. Bueno, vamos a ver. --> Listo, hay que volverse a lo guiar entonces. --> Bueno, subió. Si sube correctamente, normalmente como máximo dos minutos. Si --> pasa de dos minutos por experiencia en esta versión estrial, creería que no --> va a subir de forma correcta en el talent data inventory. --> Listo, esperemos que está demorando para cargar. Creo que sí, está demorando --> para cargar. Un momentito por favor que, Listo, no sé por qué está --> demorando tanto para cargar. --> Listo, voy aquí al preparation data set. Sí, te subió Beatriz, lo que es que --> como que si te subió, subiste todo. Excelente. Estaba bien como que había un --> error ahí, no sé, extraño. Bueno, vamos entonces. Vamos entonces y --> continuemos por favor. Bien, entonces aquí tenemos el concepto de preparación --> que fue el que te mostré a nivel teórico. Una preparación --> relaciona un data set con una receta. Vamos aquí a la parte de --> preparaciones y te aconsejaría, por buena práctica, que crees un folder y --> ese folder puedas organizar las diferentes preparaciones. En este caso, --> por cuestión de tiempo, vamos directamente a crear las preparaciones aquí, --> directamente. ¿Por qué el folder? Porque quizás puedas compartir tu tenant, --> esté compartido con diferentes usuarios y puedas ver las preparaciones de los --> demás. Entonces, sería muy interesante que puedas crear un folder --> que analice tus preparaciones o de los proyectos que tengas formados para --> que de pronto no haya, digamos, algún error ahí o que te --> puedas confundir en un par de cosas. Sería, en este caso, como cada, --> digamos, estamos en todos o que estamos en el mismo tenant físicamente, --> estamos en espacios separados a nivel de almacenamiento de lo que --> vayamos a hacer. Listo. Entonces, vamos a agregar aquí una preparación. --> Y, como te decía, primero vamos a colocar entonces el nombre de la --> preparación. Entonces, vamos a llamarla Dataset Curación. --> Sería, como buena práctica, que le agregues al Dataset la fecha en el --> cual hiciste la preparación, perdón, la fecha en la cual hiciste. Entonces, --> voy a colocar aquí 2025. Sería 0128. Y, si deseas, vamos a colocarle --> Underexcord y vamos a colocarle aquí Preparación. Ya tú el estándar, --> si colocas un sufijo o un prefijo, entonces ya tú decides. Preparación. --> A colocar así. Preparación. Lo llamé Dataset Curación. Todos separados por --> tipo Snake Case. Y le coloqué la fecha actual. --> Como la preparación tiene que estar ligada a un Dataset, entonces vamos a --> buscar el Dataset que se llama Dataset Limpieza Datos Clientes. --> Nota que te pueden aparecer en el caso mío deshabilitados. ¿Por qué --> deshabilitados? Porque el Data Inventory no lo progresó de forma correcta. Entonces, --> voy a escoger este señor que se llama Dataset Limpieza y le digo Submit. --> Perfecto. Aquí. Y entramos entonces a la pestaña y a la interfaz, perdón, --> a la interfaz del Talent Data Preparation. Listo, creo que todos estamos aquí. --> Bien, entonces, aquí tenemos primero el nombre. El nombre lo puedes cambiar --> exactamente como he cambiado el pipeline. Cada vez que colocas sobre el --> nombre, aquí le puedes cambiar en el lápizito. Permíteme y compruebo un --> pequeño bot que tenía esto. El bot que tenía hasta el año pasado era que --> cuando intentaba cambiar el lápizito, la primera vez no me funcionaba. Me --> tocaba hacerlo dos veces. Voy a intentar hacerlo aquí y probarlo para --> ver si se corrigió ese bot. Entonces, voy aquí. No lo hago usted acá, es --> simplemente para probar. Voy a cambiarlo aquí. Underscore 1, voy acá --> y fíjese que no lo cambió la primera vez. Hago la segunda vez. --> Listo, al parecer ese bot no ha sido corregido. Entonces, tenga en cuenta que --> hay un pequeño bot ahí cuando se cambia el nombre porque la primera vez tú lo --> cambia directamente aquí. Hay que hacerlo dos veces para cambiar el nombre. Listo, --> entonces de este lado izquierdo recordará que una preparación asocia --> un dataset con un conjunto de recetas. En este lado izquierdo va a colocar las --> recetas que hagamos sobre este dataset. Aparece vacío porque no hemos --> agregado ninguna. Del lado en la parte del medio te hace entonces, te --> toma lo siguiente, te toma un row con, perdón, un número de fila y te --> aparece las columnas que hayan sido especificadas dentro del dataset como --> tal. Recuerde que este dataset está copiado en el Talent Cloud. Significa que --> si tú tienes, por ejemplo, un S3, tienes un archivo un S3 o lo tienes, --> por ejemplo, en Azure y lo quieres preparar, primero tienes que pasarlo en --> realidad. Primero se pasa al Talent Cloud y el Talent Cloud se procesa. --> Ojo con la parte de seguridad que en ese paso de pasarlo del Azure o S3, --> pasarlo acá al Talent Cloud. Bien, pero esto está aquí a nivel del Talent Cloud, --> está en el, digamos, en el tenan, a nivel de almacenamiento que tengo aquí. --> Y aquí aparecen los nombres de columnas. Note entonces que cuando hablamos de --> catálogo de datos pasa lo siguiente. Aquello dataset que no tiene los tipos --> de datos, ya sea una de ese tipo, XML, un JSON, un CCV, pero te aclaro que el --> JSON y el XML no me han funcionado aquí en esta herramienta. O sea que en --> realidad no le he preguntado soporte, voy a preguntarle, ahora que no se me --> olvide. Pero el del CCV recordará que los nombres de columnas no está, --> los datos no están tipeados. Es decir, no tienen un tipo de datos. Entonces lo que --> hace la herramienta es lo siguiente. Toma un preview y ese preview puede --> ser inicial, es decir, por defecto toma un preview de 10.000 filas e intenta --> con los datos que están ahí definir a qué tipo de datos pertenece. Aclaro --> que ese preview tú lo puedes cambiar. Tú te preguntarás para qué --> cambiaría un preview. Lo que hace es que la herramienta se puede equivocar en --> definir el tipo de datos. Imagínese la siguiente forma. Imagínese que SID --> hasta la fila 10.000 son puros números, pero en la fila 10.001 aparecen letras y --> números. Por ende, como él solamente toma un preview hasta el 10.000, él --> catalogará el dato como integer. Pero en realidad tu dato debe ser textual. ¿Por qué? --> Porque tiene caracteres alfanuméricos. Entonces hay que tener en cuenta que --> aunque aquí se haga una clasificación, ten presente que esa --> clasificación puede haber un error, dependiendo de la cantidad de datos que --> tenga tu dataset. El caso si tú deseas cambiar como tal el tipo de datos, --> sencillo, tú te vas aquí, por ejemplo, aquí donde está el menú hamburguesa, de --> cada una de las columnas, le das click aquí y tú fácilmente, aquí está --> column, aquí te dice el tipo de datos, integer, le das click aquí y tú --> puedes cambiar el dato. Lo puedes cambiar ya sea a un tipo de datos, --> digamos que llama java básico que es boolean decimal o lo puedes cambiar a --> un tipo autosemántico. Nota ahora que nombre te aparece como texto, pero está --> clasificado como first name. Esto aplica exactamente como trabaja el --> data inventory, que es tomó esos datos que aparecen en esa columna y da --> la casualidad que tiene un tipo autosemántico en el cual, por lo --> menos, el 60% del preview coincide con esos datos que están en el --> dado semático llamado first name y entonces lo clasifica como first name. De --> igual forma tú puedes cambiar esa clasificación si tú quieres. Entonces --> da de cuenta lo siguiente, ahí tenemos cuatro columnas, la primera --> clasificada como integer, la segunda textual pero clasificada como --> first name, la tercera columna apellido textual pero clasificada --> como last name y la última clasificada como day y entonces eso es lo que --> llama la teoría al catálogo de datos. Perfecto, eso no hay nada de otro mundo, --> listo. Vamos a ver, vamos a analizar cómo funciona en realidad la --> herramienta y después nos vamos a este menú que es un poco extenso. Este --> menú de que estoy mostrando aquí que está del lado derecho, en --> realidad va a tener las mismas funciones de talent data stewards pero aquí se --> agregan unas nuevas. Vamos a hacer algo sencillo entonces, vamos a concatenar el --> nombre con el apellido porque quizás el analista o el señor el científico de --> datos necesita que esos datos estén concatenados. Entonces qué es lo que --> tú haces, primero vamos a aplicar una función, cuando aplicas una función --> tienes que decidir si la función vas a aplicarla a la columna, a la fila o al --> dataset. Nota que del lado derecho te aparece entonces columnas row y table --> indicando que funciones aplican a columna, a fila o a tabla. --> Listo, ahora cuando seleccionas una columna automáticamente la herramienta --> te dice, bueno mira ve, que fue lo que te mostré teóricamente, tú puedes --> hacer perfilado de datos. Entonces en ese perfilado de datos recuerden que lo --> que buscar son anomalías que pueden estar en los datos. Por defecto cada vez --> que yo selecciono una columna se habilita del lado derecho un menú con --> varias pestañas en que te va a mostrar ciertos datos que te pueden ayudar a --> ti a encontrar ciertos errores de calidad que pueda tener. Cuando el --> dato es numérico lo que hace es que te da un diagrama de barra de --> cuántas veces aparece ese datos. Por ejemplo te está diciendo aquí que el valor 1 --> aparece una vez, entonces ahí te da un diagrama de frecuencia mostrándote para --> ver cuántas veces repite ese dato. Si vas en ese menú sobre la columna ID y --> vas aquí donde dice VALUE te va a sacar unos datos que son sumamente --> importantes para cualquier herramienta de calidad de datos, que es contarte --> cuántos registros hay, cuántos distintos hay, cuántos duplicados hay, --> cuántos válidos, cuántos vacíos, cuántos inválidos hay y si es numérico --> te da algunos elementos de mínimo, máximo, media y desviación estándar. --> Lastimosamente no alcanzamos a ver el talent data quality pero con cuando --> el dato es numérico tú puedes encontrar con la desviación estándar --> que puede haber un error en los datos. Eso se aplica más que todo a --> valores numéricos y eso para que sería viable. De pronto tú tienes una --> tabla de precios y con esos datos tú puedes encontrar algunos errores que --> puedan tener presente esos datos, que puede ser porque se calculó mal o --> porque simplemente un error de digitación. --> Si vamos aquí donde dice PATRONES, lo que te hace esto técnicamente es un --> análisis de patrones, entonces te está diciendo cómo se están presentando --> los datos en la columna. Aclaro que los que está presentando aquí son --> del preview, es decir si tú tienes un millón de datos y tu preview es de 10.000 --> te está mostrando lo que está lo que consiguió en los primeros 10.000 --> datos. Quizás se equivoque porque porque tienes más datos en el preview. --> Entonces aquí el patrón está mostrando, mira aquí tengo el 9 y 9 --> indica dos números, estoy diciendo es para ver acá. En esa columna --> encontré los siguientes patrones, hay columna que tienen dos dígitos y --> hay columna que tiene un dígito. Y al final aquí donde dice ADVANCEDS --> aquí te va a mostrar una gráfica cuando es numérico que te va diciendo --> entonces algunos medios máxima de división estándar y que la pueda ver de --> manera gráfica. Si cambias de columna y te vas al mismo menú --> te va a cambiar un poco las estadísticas, las gráficas. Por ejemplo, --> esta sería un poco la misma gráfica, siendo que en la muestra diferente aquí --> me está diciendo ISABEL cuántas veces aparece. --> Si vas aquí a un devalue te aparece entonces las mismos datos, si vas a --> patrones está diciendo mira lo que ahí está son pura palabra, es decir no hay --> espacio en blanco. Entonces él mide las palabras por espacio en blanco. Cada --> espacio en blanco le indica una palabra. Entonces ahí notas entonces que --> ahí no hay valores numéricos, hay pura letra lo que está ahí. Y al final --> te muestra un poco el ADVANCED no se muestra cuando es texto. Eso es --> lo que se hace y de ahí viene ese concepto de perfilamiento porque te da --> algunas opciones que son características, algunas herramientas de --> calidad para encontrar algunos errores. Lástima no vimos ese curso para poder --> ver con estos datos cómo se pudieran encontrar errores. --> Bueno, pero entonces vayamos a lo siguiente. Vamos a ubicarnos entonces --> en la columna en la cual yo quiero hacer una función. Para este caso en --> particular por favor ubíquese en la columna nombre --> y yo deseo concatenar esa columna nombre con la columna que se llama --> apellido. Voy a hacer una tarea básica. Váyase por favor aquí al filtro que --> es este que está aquí, a este filtro de aquí y coloque la palabra concatenate --> concatenar en inglés concatenate y debería aparecerle conca conca --> concatenate aquí está en inglés y debería aparecer una función que dice --> concatenate with. Escojamos esa función por favor --> y esta función cómo trabaja. Bueno, en primer lugar vas a encontrar algunas --> funciones específicas que te van a permitir crear el resultado en una --> nueva columna. Entonces si tú habilitas aquí habilítelo por favor --> este chulito que está ahí para que sea nueva columna. Significa que lo que voy --> a hacer va a crear y no va a afectar la columna original. --> Ahora, la función cómo trabaja. En este caso si tú quieres le puedes --> colocar un prefijo antes de la concatenación. Si quieres lo dejas en --> blanco y vas a encontrar muchas funciones que hacen lo siguiente. Las --> funciones las puedes aplicar con otra columna o con un valor fijo. En --> este caso si coloco otra columna tendríamos que elegir las columnas que --> están en el traseque con el cual quiero hacer la operación de --> concatenación. En este caso deseo otra columna y voy a elegir que la deseo --> concatenar con la columna de tipo apellido. Te pregunta ahora si vas a --> colocar un separador. En este caso deje un espacio en blanco por favor --> para que no se unan los dos columnas --> y te pregunta si el separador cómo lo vas a colocar. Entonces aquí te --> pregunta el separador lo colocó si las dos columnas tienen datos o lo colocó --> siempre. ¿Qué pasaría aquí? Deberías escoger la primera opción. ¿Por qué? --> Porque si no tengo nombres e intento concatenar me va a quedar un espacio --> en blanco y creo que entendemos lo que nos pasa con el espacio en --> blanco cuando hacemos un word. Entonces buscamos por una --> columna y si la columna tiene un espacio en blanco al inicio o al final --> intentamos buscar por ese criterio de búsqueda no lo encuentran. Entonces --> dejamos que solamente, estoy diciendo aquí si dejo bot values solamente me --> va a colocar el espacio en blanco solo si las dos columnas están no son --> vacías. Y aquí por último te coloco un sufijo. --> La herramienta en la mayor parte de funciones te permite hacer un preview. --> Ese preview te va a mostrar cómo quedaría los datos después que termine --> de ejecutar pero sin hacer el cambio permanente. Dale por favor en preview --> y nota que te agregó una nueva columna llamada nombre onderscore --> apellido. Si tú das clic fuera en cualquier parte ese preview se pierde --> no te queda como receta porque simplemente estabas probando para ver --> cómo te quedaban esos datos. Entonces para hacer este cambio permanente --> dale aquí en Submit por favor --> y ya esto hace permanente, bueno permanente no tanto porque lo puedo --> cambiar el cambio como tal. Nota ahora que la receta --> te agrega una nueva función. Si te equivocas después del Submit, --> del lado de la receta vas a encontrar en la parte del nombre de la --> receta vas a encontrar un bote de basura. Si ese bote de basura le doy click ahí --> automáticamente borro como tal esa receta o esa función más --> específicamente perdón de la receta. Listo hagamos entonces lo siguiente --> ahora. Este primer ejemplo lo que busco es que entienda en su --> completitud cómo es la herramienta cuál es la función específica. Ya --> vamos ahora sí a los especializados que son las funciones pero la idea es --> que entienda. La herramienta maneja algo que se llaman las versiones. --> Se te recomienda en que uses versiones. ¿Por qué usar versiones? Primero porque --> puedes ver el estado de cambios que ha tenido tu preparación. --> Segundo porque quizás tus preparaciones tengas algunos jobs en --> estudio que dependan de esa preparación y al cambiarla te pueda --> dañar lo que te funcionaba anteriormente. Una lamentable preparación --> es que tú puedas ver qué tantos cambios tengo y que si yo deseo puedo --> ejecutar las preparaciones en la versión que yo desee. --> Sería recomendable entonces que usaras versiones. Esas versiones tú las --> vas a encontrar en la parte superior derecha al ladito del room vas a --> tener ahí con una especie de un botón que botón circular que tiene una --> especie de libros ahí. Dale clic ahí a ese señor que está ahí --> y al darle clic te da un menú para agregar una nueva versión --> en la parte superior derecha al ladito del room al lado izquierdo del --> le das clic ahí y te agrega entonces dale adversion y solamente estas --> versiones no puedes simplemente lo que te permite es agregar una descripción y --> lo ideal es que en la descripción especifica los cambios que tiene esa --> receta. Entonces aquí podemos colocar se concatenó --> el nombre y el apellido --> y le digo adversion. Se coloqué en la descripción se concatenó el nombre y --> el apellido. --> Si quieres volver al menú le da nuevamente clic en el en el botón de --> la versión y te vuelve al menú de las funciones. --> Haga lo siguiente entonces borre por favor la columna nombre cómo --> borramos una columna se va aquí al menú hamburguesa de la columna y dígale --> delete column --> note que automáticamente se agrega eso en la receta --> borre aquí apellido --> y por favor cambie el nombre de la columna de nombres apellido --> cámbielo rename column --> cámbelo a nombres espacio completo --> y le da subtin. --> Para probar este concepto de versiones que solamente lo voy a hacer en este --> primer ejemplo ya en los demás me voy a dedicar exclusivamente a la --> parte de funciones. Quiero que con este ejemplo entienda por completo la --> herramienta. Vamos a agregar una nueva versión aquí --> especificando los cambios que hicieron. Voy a agregar aquí una --> nueva versión y voy a decir se eliminaron --> las columnas nombres y apellidos y se cambió --> el nombre de la columna a nombres completos y le digo adverso. --> Es importante en que cuando vaya a crear ese tipo de recetas sea lo más --> eficiente posible trate de no repetir funciones. Por ejemplo hay personas --> que hacen lo siguiente toman por ejemplo una columna la convierten a --> tipo título primero después la convierten a tipo mayúscula y después --> otra vez la convierten a tipo título. Ahí está repitiendo muchos pasos. --> Entonces tiene que buscar que estas recetas sean lo más eficiente --> posible. Aclaro que la herramienta no tiene ningún, bueno a nivel de tutorial --> no tiene un máximo de filas con las cuales va a trabajar. El máximo de --> filas solamente es para el preview con lo que va a hacer la parte de definir --> los tipos de datos. Eso es nada más el preview pero la --> herramienta no tiene ningún tipo de, digamos de límite para el tamaño que --> tengan estos de hacer. Esto que hemos hecho es muy sencillo entonces he --> creado, he tomado un dataset, he creado una preparación. La preparación se basó --> en un dataset, después creé una receta con un conjunto de funciones, después --> creé un conjunto de versiones que sería interesante que las manejara. Ahora --> aclaro en este punto en que está aquí esta receta no ha cambiado el --> dataset original. Lo que me está mostrando es cómo quedaría después de --> ejecutar esta receta. Entonces vayamos a lo siguiente ahora. Si tú --> quieres hacer los cambios necesitas ejecutar la preparación. ¿Cómo la --> ejecutas? La ejecutas acá en el run. Vete acá a este run, por favor. --> En el run, por favor. Sí, efectivamente es superior derecho, exactamente, es --> superior derecho. --> Este run que está aquí. Entonces, ¿qué hace con este run de acá? Con este run de --> acá puedes entonces definir el destino que va a obtener después de ejecutar --> con el dataset original la receta. Una es que tú puedes mandarlo al mismo --> dataset que no es tan buena práctica. No es tan buena práctica perder el --> original, porque si hay un error en la receta se me puede dañar y cómo --> recupero nuevamente. Entonces para cualquier, digamos, trabajo que tú --> vayas a hacer o proyecto no es buena opción modificar original, quizás --> sacar una copia, pero mantener siempre el original por si nos --> equivocamos en algún paso. Si quisiese, por ejemplo, cambiar original --> aquí le diría que me lo mandará un dataset existente, pero deseo hacer lo --> siguiente o puedo hacer lo siguiente, mandarlo a un nuevo dataset --> o si quiero puedo mandarlo a una tabla. --> Pero en este caso vamos a hacer lo siguiente. Váyase a esta opción que --> se llama descarga directa, que es la última, --> que aquí no lo mandaría directamente al talent cloud, sino que --> va a permitir descargarlo en tu máquina. Dale por favor next. --> Aquí te piden el formato de salida, en lo cual tú lo quieres. Aquí sí lo --> he probado y se ha funcionado. Note que aquí hay dos formularios, que dos --> tipos de datos que quizás ya los ha visto, que es Abro y Parquet. Ese --> Abro y Parquet lo vamos a discutir en el Talent Big Data que coge --> relevancia para algunos tipos de motores, como el caso de Hi, Redshift, pero --> bueno, en este caso mandalo a un CSV. Ese Abro y Parquet lo explico mañana y --> aquí tú puedes colocar las características del CSV, cuál va a ser --> el carácter de separación, si vas a usar algún carácter para --> aquellas columnas que tenga el mismo carácter de separación. Bueno, en --> este caso vamos a verlo. Aquí next. No vamos a cambiar nada. Y aquí hay --> algo que tiene lo siguiente. Note que aquí está un keep row order, --> mantener el orden que está deshabilitado por defecto. Bueno, --> ¿Qué es lo que hace? Ese keep row order lo que hace ese señor es que --> se mantenga el orden de los registros tal cual como vayan entrando. --> Dirás, ¿Pero y eso qué tiene que ver? Tiene que ver mucho. --> Si yo mantengo el orden de los registros, --> hay un problema en que le queda complicado a la herramienta hacer --> paralización. O sea, permíteme y hago acá lo siguiente. --> Voy a hacer acá un diagram, un diagram más que un diagramita aquí, para que me --> entienda la importancia de ese señor. Eso más que todo aplica cuando el --> data sec tiene una gran cantidad de datos. Entonces vamos a lo siguiente. --> Sí ve mi pantalla, ¿Verdad? Imagínese que este es el data sec original y --> este data sec tiene una gran cantidad de registro. La gran cantidad de --> registro es netamente subjetivo y depende netamente de la empresa. Mientras que para --> una empresa 10 millones de registros puede ser mucho, quizás para una --> empresa puede ser muy poco. Entonces esa gran cantidad termina siendo --> subjetivo. Pero véalo a este punto de vista. Voy a colocar aquí 10 millones --> de registros. Vamos a suponer entonces que tú lo que deseas hacer, la función --> que deseas hacer es sencilla para el caso en particular, que es tomar el --> nombre y ese nombre lo voy a concatenar con el apellido. Eso es algo netamente --> sencillo. Pero entonces pasa lo siguiente. Eso como es sencillo y si yo tengo --> una gran cantidad de datos yo podría pensar en lo siguiente. Dividir este --> registro por decirte algo en n partes. En este caso lo voy a dividir en tres --> partes, parte 1, parte 2 y me queda en tres partes. Ahora al dividirlo en --> tres partes puedo hacer lo siguiente, lo que uno llama programación --> concurrente, que lo hace internamente. ¿Qué haría? Tomo que un núcleo del --> procesador, un core, procese este señor que está aquí. Otro core a nivel de --> hardware procese este señor de acá y otro core a nivel de hardware --> procese esto acá. Partiendo del hecho entonces tú reducirías el tiempo de --> procesamiento a una tercera parte. ¿Por qué? Porque estás paralizando. Ahora, --> ¿Qué tiene que ver esto que te expliqué con esa columna? Entonces pasa lo --> siguiente. Si la columna mantiene, si yo mantengo el orden de las filas --> como está establecido, queda muy complicado hacer esta paralización. --> Significa que los registros le toca manejarlo uno por uno, un solo core. --> Tú dirás, ¿En qué casos eso es conveniente? Imagínate que tú tengas --> tengas ventas por ciudad y entonces tú quieres ventas por ciudad de cada --> país. Entonces tú quieres rankear por cada país --> cuál es la ciudad que más vende. Entonces ahí tiene que estar ordenado --> y en ese orden puedo hacer un rankeo. Ahí no sería buena opción pues ahí tendría --> que mantener el mismo orden. ¿Por qué? Porque para poder clasificar y si están --> ordenados de mayor a menor sé que el primer registro correspondería al --> primer elemento del listado de lo que más venden. Entonces ahí cambiar --> ese orden de fila te puede dañar los datos. Pero en este caso en que los --> órdenes de fila no tienen nada que ver la fila anterior con la fila que --> y mantélo desordenado. ¿Para qué? Para que sea más eficiente. Aclaro que cuando --> hay casos en que la herramienta se da cuenta en que el orden tiene que --> prevalecer, te coloca automáticamente y te habilita esto de manera --> automática. Pero para eso es que sirve el key row order fuera lejan. Si en --> realidad que el orden no afecta la función que tú vayas a hacer, --> procesa los datos sin los filas ordenadas. ¿Por qué? Porque va a ser --> más eficiente porque lo que hace es que el código que se genera para --> procesarlo paraleliza la función y eso va a hacer que reduzca el tiempo de --> respuesta de procesamiento. Para eso es que sirve eso entonces. --> Aquí te piden seleccionar el room profile. Básicamente lo que hace este --> señor es que él elige la infraestructura donde va a ejecutar. --> Por defensa tengo este par aquí que este par es el que vamos a ver el día --> mañana y cómo se usa este par que tiene mucha relación con el --> talent big data, este par que está aquí. Pero bueno solamente tengo una --> infraestructura donde lo puedo ejecutar solamente a modo informativo con el --> TMC, los que vayan a ver, los que vayan a administrar talent, hay una --> herramienta que se llama el TMC y en el TMC puedes agregar más --> infraestructura. Es más puedes agregar infraestructura a nivel local. Puedes --> agregar entonces a nivel de máquina tuya. Defines allá una infraestructura --> y hace que se ejecute contra tu máquina. --> En este caso pues nada más tengo una en una versión real, nada más tengo esto. --> Listo aquí no hay más nada aquí simplemente debe un room por favor. --> Listo aquí se empieza el proceso de ejecución. --> El tiempo aunque sea muy pequeño recuerden que como esa infraestructura --> está compartida con millones de usuarios, por eso es que el tiempo de --> respuesta tarda mucho. --> Si quizás solamente modo informativo tengas problemas con los tiempos de --> respuesta a nivel del SAS, o sea software como servicio que tenemos el --> talent data preparation, puedes instalar esto a nivel local y ejecutarías --> directamente con la infraestructura tuya. No habría ningún problema. De aquí --> ya terminó, demoró un segundo bastante para la cantidad de elementos que --> hay y aquí tú puedes descargar el archivo. --> Aquí se descarga, voy a ver y debería estar el archivo aplicando la receta. --> Y aquí está el archivo. Con la receta preparada y aquí ya puedes tomar estos --> datos y llevarlo a un PowerBeam, llevarlo a un tablú o algo que tú --> quieras. No veo que hay alguno que lo descargaron y están revisando a ver cómo --> les quedó. A verlo con el Notepad si deseas para ver algún Notepad ahí y --> debería mostrar los datos que está ahí. Es un registro muy pequeño, --> solamente son 20 registros. Bien, continuamos entonces. Esto es lo que --> llamaba preparación, recetas. Esas recetas pueden ser cambiadas en el --> tiempo, bueno tú puedes eliminar, quitar y había una parte de --> automatización que decía. Bueno, vamos a ver cómo es ese cuento de --> automatización. Vayamos entonces a lo siguiente, --> veamos nuevamente la herramienta, devolvamos a donde estábamos --> en la preparación, no en el Room, en esta preparación de aquí. --> Ah, perdón, no. Vayamos, espera un momento a ver que se me escapa de aquí. --> Solamente de aquí me hace falta ver cómo integro el dataset, o sea como yo, --> nada más. Lo demás pues son las funciones que están acá, pero ya esa es --> la esencia de la herramienta. Vayamos a donde dice dataset, vayas al --> data preparation, por favor, data preparation. --> Sección de dataset. --> Y ahora escoja, seleccione el mismo dataset que tuvimos ahora que es --> datos limpieza a los clientes, coloque el mouse sobre el nombre y --> automáticamente, Brenda por favor, donde dice dataset, ahí lo puede decir --> exactamente, ahí. Coloca el mouse sobre el nombre del dataset llamado --> dataset limpieza y note que le aparece un pequeño menú, entonces ese menú le --> aparece como un tubo de ensayo, ese tubo de ensayo lo que hace es ver los --> datos, o sea es una tablita y puede consultar los datos, si quieres da --> clic ahí y eso lo que te va a hacer es que te va a consultar los datos que --> tiene el señor. Recuerde que los datos que te va a mostrarles es un --> preview, máximo de 10 mil filas. Puede haber más datos, sí, pero --> nada te muestra un preview. Y para el dato informativo, el preview máximo --> puede ser 100 mil, listo, de ahí no puedes cambiarlo. Me devuelvo nuevamente --> donde estaba. El otro elemento que está ahí como si fueran unas olas, lo --> que te permite que con ese dataset puedas crear un pipeline, el --> pipeline fue el que hicimos a nivel de data steward y que fue el último --> ejemplo que hicimos al principio. Y te aparece esa parte de química que se --> escapa, no me acuerdo cómo se llama eso en química, escapó como se llama y te --> permite crear una preparación. Dale clic ahí un momentito en esa --> preparación. --> Dale clic ahí. Y ahora pasa algo en particular, --> es que tú puedas con un mismo dataset escoger una preparación ya que hayas --> hecho. Para este caso no subimos todos los ejemplos que tenía, pero la idea es --> la misma, es decir, si yo intentaría subir un dataset con alguna --> característica, la herramienta va a buscar para ver cuáles preparaciones --> digamos son compatibles con eso que ya tú tienes. Entonces, si yo --> quisiera subir un dataset y usar una receta, déjame irme por este lado. Me voy por --> el dataset y abro las preparaciones y él me va a permitir entonces abrir --> el dataset con una preparación. Dele por favor aquí open --> aunque sea el mismo registro que va a ser, va a aplicar todas las funciones que --> tenga la receta ese dataset. Y eso es lo que él habla de automatización. --> Tendrás preguntas, muchas preguntas que dirás, pero esta automatización termina --> siendo semiautomática. ¿Por qué semiautomática? Porque me toca entrar en --> la herramienta, tomar el dataset, escoger la preparación que más se acomoda y --> volverlo a ejecutar. Sí señor, si tuviste esa visión es --> así, es decir, si lo hago de esta forma no es tan automatizado el --> proceso, es semiautomático porque hay unos elementos manuales que me toca --> hacer. Entonces, si deseamos automatizar el proceso resulta que --> la herramienta que se llama Talent Studio, que las voy a mostrar el día de mañana --> un poco ahí para que vea, pero esa herramienta te permite conectarte a --> las preparaciones que tú tengas definidas. Entonces allá puedes crear un --> job, ese job lo que hace es que tiene unas entradas, define la preparación --> con la versión que tú quieras y haces lo que tú deseas con esa --> preparación. Entonces en realidad la forma automática es utilizar el Talent --> Studio con la preparación que definí con el Talent Data Preparation, porque si --> la hago de esta forma termina siendo un poco semiautomático. Listo y en --> realidad esto es la herramienta, aquí no hay más nada, es decir, esto es el --> core de la herramienta en el cual yo tenga unos dataset en el cual me toca --> formatearlo para adaptarlo a alguna salida, sea un tablú, sea un PowerBee, lo --> que tú quieras o quizás adaptarlo para entenderlo mejor en un formato --> diferente como tú desees. Tú tomas ese elemento, aplicas una serie de --> funciones y ejecutas esa preparación que tú hiciste. Las --> preparaciones que están en las recetas, perdón, las recetas están --> compuestas por las funciones que te define la herramienta. Esto no es más --> nada, esto es el core de la herramienta. Vamos entonces a ver las diferentes --> funciones en cómo las puedes aplicar en tu diario Vivid. He cambiado el orden de --> este curso porque empezaba con algunas funciones que son mucho más básicas --> y después me iba a unas funciones que él llama avanzadas. --> Hablaremos que quizás para los que estamos metidos mucho en este medio --> de tecnología o de pronto los que hayan utilizado y Excel que es una de --> las mejores herramientas que tiene Office quizás no sea tan avanzado pero --> es lo que él llama avanzada. Entonces, cambié el curso para empezar con las --> avanzadas y las básicas pues si da tiempo la vemos, si no pues por lo --> menos dimos la avanzada y como es básica pues asumo que debería ser --> más fácil de entender. --> Sí o sí el curso termina el día de hoy hasta donde les cansemos a hablar --> porque no puedo darme el lujo de tomar unas horas para las big data que --> es el curso digamos que es el fundamental y además que con el big --> data me va a quedar unas horas faltantes. --> Bueno perfecto entonces vayamos a lo siguiente, vayamos nuevamente al --> menú y vamos aquí desde el menú vamos al dataset, vamos a crear una --> una preparación desde el dataset, vamos a escoger por favor busque el --> dataset que se llama ejercicio número uno, selecciona, coloca el mouse por --> encima del nombre y abre por favor para que le dé una preparación aquí. --> Aquí te piden si deseas usar una, bueno en caso de pronto no te aparezca y de --> pronto porque he usado aquí, si no te aparece él aquí en add --> y te va a llevar al menú que estábamos anteriormente. --> Listo, ubiquemos en el data preparation, perfecto, vayamos a --> en el menú izquierdo vertical. --> Seleccionamos y buscamos el dataset llamado ejercicio uno y colocamos el --> mouse por encima, nada más por encima de ejercicio uno, no le damos clic no --> colocamos el mouse y ahora nos aparece un menú del lado derecho, --> escogemos la tercera opción que es como no acuerdo cómo se llama la --> botellita esa en química, le da clic aquí y me le da aquí adicionar --> y le va a crear una nueva preparación aquí. --> Ah perdón, sería entonces el sí, espérate para ver si fue que me --> equivoqué, vamos el ejercicio, no está el dos verdad? --> Permíteme y confirmo el ejercicio dos para ver si da si no me toca --> subir ejercicio un, ah sí, sí, sí, sí, sí, sí, espérate para ver si no me --> equivoqué, perfecto, gracias por la observación, --> sí, efectivamente, ejercicio dos. --> Entonces busque ejercicio dos en su dataset y aplica lo mismo que --> intentaba explicar ahora, --> le dice aquí add, --> perfecto, listo, gracias por la observación, cambia el nombre, recuerde --> que hay un pequeño bot, cómo cambia, vamos a cambiar acá en el lápizito, --> creo que ya por experiencia no hago nada aquí, le doy nuevamente aquí clic --> porque sé que no me lo cambia, entonces le doy nuevamente clic y ahora sí lo --> voy a cambiar, lo voy a llamar ejercicio dos y he adoptado --> snake case, sería entonces underscore y le termino con el prefijo --> preparación, esto lo voy a hacer nada más una vez porque para aprovechar el --> tiempo al máximo listo y aquí ahora tampoco me lo cambió porque no me lo --> cambió, no sé si es que raro, vamos a ver nuevamente --> preparación --> bueno ahí sí lo lo corrigí --> bueno vamos entonces creo que sí todos estamos ubicados, ahora por favor --> hagamos lo siguiente, el primer ejercicio lo vamos a aplicar sobre la --> columna que se llama nombres, entonces ubique aquí en nombres por favor y --> vamos a aplicar en este caso funciones de columnas, aquí cuando --> usted selecciona una columna por defecto en el menú derecho de las --> funciones, le aparece una sugerencia que podías aplicar o que son comunes --> de aplicar al tipo de dato en que está, este nombre hace el text te --> quieren algunos tipos de funciones como por ejemplo magic fit que vamos a --> ver ahora, etcétera, pero para no perdernos y seguir un orden baje por --> favor y se ubica en el menú que se llama en el menú de stream --> este que está aquí, creería que hay algunas funciones ya que con --> solamente el nombre podíamos ya inferir qué es lo que hace por ejemplo calcula --> y lay pues lo que te va a hacer es que te va a calcular el número de --> caracteres que tiene ese stream, change to lower te va a cambiar a todo en --> minúscula, change to title va a colocar la primera letra de cada --> palabra en mayúscula y el change to uppercase lo que va a hacer es que te --> va a cambiar a mayúscula, solamente para probar vamos a cambiar el nombre --> a tipo title entonces vamos a darle click a la función change to title --> case por favor --> note que ya empieza un menú muy parecido en que hay algunas funciones --> que te van a permitir crear una nueva columna el resultado de la función no --> deseo hacer eso entonces lo que voy a hacer es que tengo el menú preview --> que es para ver, para testear y tengo el menú submit por favor entonces --> dale submit directamente para que automáticamente aplique el cambio --> recuerda que ahora cada función que voy agregando acá se va agregando en la --> receta de este lado note que automáticamente ya cambia --> perfecto listo, vayamos ahora y nos ubicamos en la columna que se llama --> url recuerde que estoy concentrado más que todo en las funciones ya la --> parte esta de cómo funciona el preparation ya más o menos lo explique --> inicialmente vayamos nuevamente al menú de stream --> y aquí hay algo que es stream perdón sería es stream --> listo y busque la función que se llama contain text pasa lo siguiente --> entonces tienes que tener en cuenta en que esto es algo que te va a pasar --> mucho con las herramientas de talent en forma general que al estar basada en --> java son sensibles a mayúsculas y minúsculas donde quiero llegar es lo --> siguiente vamos a buscar aquí me pide si deseo hacer la búsqueda basado en --> un valor fijo o en otra columna ya te había explicado un poquito cuando --> cuando hicieron la parte de concatenación que algunas opciones que --> ofrecen esto en este caso vamos a coger un valor fijo --> y vamos a buscar entonces si contiene la palabra con pero hagamos algo --> colóquela en c mayúscula y lo demás en minúscula dele por --> favor aquí en preview para ver que da y de igual forma aunque haya --> funciones que no te tenga el menú crear columna ellos --> automáticamente te crean una columna este es el caso particular de esta --> función en que al darle al ejecutarla me va a crear una nueva columna y me va --> a volver un booleano para especificar si lo que estás buscando fue correcto --> se encuentra o no se encuentra como sub cadena dentro la cadena textual note --> entonces ahora en caso particular este que tiene aquí no la encontró y --> partiendo del hecho en que la primera fila si la contiene por qué no --> la encontró porque por defecto aquí hace edición de la herramienta por --> defecto él busca en caso sensitivo significa que tendría que buscarla con --> esta función exactamente como está si le aquí damos le damos entonces con y --> le damos aquí un preview debería tener un true en la primera y ahí está --> entonces esto lo agregué para que tenga presente en que cuando buscas --> valores --> por funciones de manera estática él te va a buscar en caso insensitivo --> seguramente te preguntarás cómo haría para buscarla en caso insensitivo es --> decir que me da lo mismo si está con c mayúsculo o c minúsculo bueno lo --> que sí es claro es que esta función no te ayuda en esa parte listo --> bueno deja entonces cuando busco de manera fija me va a buscar un texto --> de manera insensitiva de la que un sumi para que nos quede ahí ya la función --> hecha realizada ahí --> ahora resolvamos entonces inmediatamente cómo haría para resolver --> entonces el problema de buscarlo en caso insensitivo entonces para --> buscar en caso insensitivo ya esto lo hayamos hecho en el tal en data --> stay wars vamos a usar una función que es un --> entonces vamos a buscar un ser aquí --> pero esta función se ha hecho un momento no me va a dar lo que quiero --> espera ese momento no que venga esta función creo que no no eso lo hago --> después esa función se hace porque me tocaría reemplazar entonces no deseo --> reemplazar ahora le digo la función porque haría que hacerlo con una --> expresión regular entonces voy siguiendo con el otro ejemplo mejor --> ahí qué pena y pensé que me iba a funcionar esta vez no bien vamos entonces --> a lo siguiente vayamos nuevamente nos ubicamos en la columna ure l y vayamos --> entonces a espring --> vayamos entonces aquí hay una función que dice extraer el valor por --> índice en este caso el índice de iría es decir posición desde qué --> posición tú quieres sacar elementos entonces vayamos a lo siguiente --> vamos aquí vamos a suponer que te piden extraer el dominio de la ure l ok --> este lo podía hacer de diferente forma una función que te puede ayudar es esta --> estamos en ure l y vamos a escoger la función de string que se llama extraer --> el valor por índice y dele clic por favor --> aquí en el tú hay diferentes --> formas de sacar los elementos por defecto tenemos aquí un 5 por ejemplo --> si yo ejecuto esta función con tu índice lo que haría sería que va a --> sacar desde la posición 0 hasta la posición 5 es la que está por defecto --> si utilizo otra función que es su en esta que está aquí --> aquí me permite buscar de dónde yo quiero hasta el final por ejemplo si --> yo digo si es como tu en él me va a decir oye dónde quieres empezar --> voy a decirle quiero empezar desde la posición 2 y quiero terminar en la --> posición 5 tú puedes ahí sacar esto pocas palabras --> una sub cadena ahora quiero aplicar lo siguiente como quiero sacar los --> primeros tres elementos en este caso tomando como referencia en que las los --> dominios tienen tres elementos yo podía hacer lo siguiente ahora podía --> hacer lo siguiente voy a cambiar aquí la función --> y voy a decir que quién me habló --> de atriz vamos a ver ya voy a ver listo de atriz notarás que en la --> parte derecha hay como una especie de una flechita que es la punta la --> flecha que está al final en la barra no sé no sé si en pantalla --> de mi pantalla esta flecha que está aquí --> las bandes aquí perfecto --> entonces aquí tú puedes sacar desde una posición de la posición 0 hasta el --> final o puede sacar de la posición que tú quieras hasta la posición final --> que tú quieras entonces vamos a sacar simplemente al revés quiero con la --> opción from n before entonces aquí voy a colocar 3 y --> explico cómo funciona ese n before entonces tengo el dominio que es --> example punto con permítame y te lo hago acá tengo aquí example punto con --> de ello oye me favor posiciones de tres posiciones antes del final o sea 1 --> 2 3 se coloca aquí y a partir de ahí saca de ahí hasta el final entonces lo --> que pasa es que hace el índice de derecha izquierda y después saca los --> elementos hasta el final entonces le voy a decir aquí 3 con la función from --> n before le digo toma tres elementos de derecha izquierda y de esa posición --> saca los elementos al final le voy a decir que cree una nueva columna y le --> voy a enviar aquí un submit y debería sacar el dominio --> bueno en este caso debió ser 4 al parecer entonces me parece bien voy a --> como es 4 podía hacer dos cosas una sería borrar acá la función o la otra --> cambiarla acá y decir que yo puse tres yo puse tres no en realidad fue que yo --> que me equivoqué de 13 tenía 2 le dio nuevamente sumi para que lo vuelva a --> ejecutar con el cambio y debería mostrarme --> ahora sí entonces cuando hay un error en alguna función o tú elimina la --> función o la puedes corregir en la receta y la vuelves a ejecutar nuevamente --> en caso de cualquier cambio lo cambia el lado de receta y le da nuevamente --> sumi para que tome el cambio que usted requiera si en realidad lo que --> desea es eliminar pues baja el bote basura y lo elimina vamos ahora a una --> función interesante esta sí es interesante porque puede hacer un --> formateo de los datos de una manera muy sencilla y esto es esta función le --> ayudaría a solucionar el problema de ayer cuando ayer teníamos unos --> teléfonos que tenían unos formatos y dije que era complicado quizá con --> esta función te sale para formatear esos teléfonos en la forma correcta --> vamos a escoger nuevamente nombres --> ok y vamos a buscar dentro de las funciones de string --> la que se llama magic fill o llenado mágico --> perfecto magic fill ahora mire lo que quiero hacer entonces colocó --> inicialmente lo que deseo hacer para que me entiendas el ejemplo nota que --> los nombres está primer nombre tengo a john john dole tengo a jane smith y --> deseo formatear los nombres de la siguiente forma quiero que los --> nombres ahora me aparezcan de esta manera primera letra del nombre punto --> espacio apellido por lo tanto así me quedaría john dole y j smith me --> quedaría de esta manera j es mi primera letra del nombre punto espacio --> apellido deseo formatear esto podía salir con un regex pero hay cosas que --> con el regex te pueden salir muy complicadas entonces el magic fill te --> ayuda a lo siguiente el magic fill te pide máximo tres --> entradas para entender qué es lo que tú vas a hacer pero en teoría con --> tres entradas mínimos que haga él debería entender qué es lo que va a --> hacer entonces primero en el input número uno --> qué va a hacer vas a colocar un registro que pertenezca a tus datos tal --> cual como está en este caso va a colocar john o tache dole que aparece --> en este listado de acá y voy a colocar en el output como --> quiero que salga eso quiero que salga ota punto dole me pide por lo menos --> tres entradas entonces escojo el siguiente que es jane es mi uno que --> esté ahí en el registro y acá aquí me equivoqué porque coloqué m j --> jota punto es mi listo y me pide bueno bueno en realidad me pide 2 --> voy a voy a colocarle el 3 por si acaso sería el 3 sería robert --> johnson en realidad perdón me pide son tres como dos perdón como mínimo acá --> me coloco r punto johnson eso que me pide los mínimos es para poder --> entender que desea hacer --> aquí por defecto está crear nueva columna dale aquí un preview --> y debería cambiar aquí está a brown mike wilson e davis entonces él --> aprende en función a los input que tú le colocas si quizás no todos los --> datos salieron de forma correcta lo que debe ser es agregar más input para --> que él pueda aprender como esto es lo que quiero del aquí su --> y si quieres verifica por favor --> que estén los nombres tal cual como quería la salida entonces esto lo --> podía aplicar para eso los teléfonos en que estaba en un formato y lo --> podía convertir en el formato con esa función específica magic film bueno --> continuó entonces ya creo que todos lo hicieron perfecto vamos ahora sí a --> lo siguiente vamos --> si desea hagámoslo con este vayamos a url por favor --> y vayamos nuevamente a la extreme que está aquí es serín --> para funciones extreme --> y aquí me da un match pattern decir de la función que viene después del --> magic field que es match pattern dele clic acá --> bueno este nuevamente viene con funciones con expresiones regulares y --> entonces aquí donde dice pattern es un patrón --> de consulta mira lo siguiente en primer lugar aquí tengo este patrón que --> dice a zeta bueno va a colocar lo mejor de este lado para lo que creo --> que hay algunos que ya entienden esta parte de presiones regulares pero de --> un momento por favor momento que me abrió aquí la lupa esta de aquí --> la lupa qué pena --> no me está saliendo momento aquí sale tengo lo siguiente ahora --> tengo esta expresión regular que dice a zeta zeta entonces este la de los --> corchetes lo que están haciendo es que buscan un patrón a nivel de --> aquí buscaría todo lo que tenga este patrón de dar a la zeta entonces aquí --> buscaría en pocas palabras todas aquellas columnas que tengan letras ya --> sea en minúscula o en mayúscula si tiene un número significa en que no --> sé en que no no no no pertenece al patrón aquí hay unos patrones --> establecidos y lo que te va a buscar es para ver qué columnas coinciden --> digamos con qué patrón ahora vamos aquí donde dice odors --> y haga lo siguiente vamos a buscar porque yo puedo hacer búsquedas con --> expresiones regulares vamos a buscar ahora si los que empiezan por con en --> minúscula y le da un preview por favor --> un preview y aquí este patrón no coincide porque como no tengo ninguna --> expresión aquí entonces aquí estaría buscando todos los que tengan --> exactamente a perdón todos los que exactamente sean igual a con pero de ese --> cuenta que ahí no son iguales a con se da cuenta entonces aquí voy a --> colocar expresión regular debería permitirme aquí punto asterisco --> aquí sería el momento y hago la expresión regular aquí asterisco --> punto y algo aquí por favor un momento y la expresión a perdón es que aquí --> tengo el valor igual y tenía que ser reyes qué pena aquí se me escapó qué --> pena qué pena ya como que vamos qué pena ahí fue listo aquí cuando cogí --> odors aquí hay varios operadores y aquí en realidad he estado buscando por --> que sean iguales que coincidan exactamente y por eso fue que nos dio --> aquí me interesa bueno aquí está nuevamente los que contengan está lo --> que inicien lo que finalicen pero me interesa los reyes expresión regular --> aquí busqué por con que debería funcionarme aquí nuevamente como voy --> a colocar aquí preview no sé si me toco ahora sí qué pena listo qué pena --> retomo nuevamente retomo nuevamente este match panel se parece mucho al --> contén siendo que el contén que vimos el contén vida que la contenga en --> cualquier parte la versatilidad que tiene el match father es que tú puedes --> buscar una una sub cadena ya sea que añadir que sea igual que inicie que --> finalice o que use un reyes esa es la diferencia con el contén porque --> este tiene más versatilidad cambia por favor este con hace mayúscula por --> favor y dale nuevamente preview si es tan amable --> nota que pasa lo siguiente pasa lo mismo que con el contén está en caso --> sensitivo entonces pero como es una expresión regular la expresión regular --> tiene algunos elementos que te van a permitir buscarlo en casos --> insensitivos en pocas palabras vas a colocar la expresión de la siguiente --> forma en una expresión regular cuando vayas en caso de tipo colocas --> paréntesis colocas signo en signo de --> esta ocasión le colocas y de insensitivo y si es con la expresión en --> pocas palabras vas a colocar este con con seis mayúsculas así te --> quedaría la expresión de esta manera y le das preview y debería ahora --> independiente que la c esté en mayúscula o esté en minúscula --> debería traerte voy a probar para ver voy a darle entonces a este --> señor voy a decirle signo de interrogación y le doy un preview --> y ahí está el true moral en pocas palabras --> si vas a hacer una búsqueda de algún carácter y lo vas a evaluar en caso --> insensitivo te recomiendo que uses esta función que es match pattern en --> la configuración de regex y le colocas al principio estos carácteres que --> indican en que la va a buscar en modo insensitivo esa es la moraleja con --> respecto cuando vayas a buscar en caso insensitivo te voy a mandar esto --> aquí por el chat para que lo tengas ahí lo guardes en alguna parte no sé --> que sería la expresión regular para buscar en caso insensitivo de te --> encontrar en la herramienta me parece bueno no yo voy a decir que es poco --> ético pero bueno este contén que está aquí contén text sería exactamente la --> misma función en el patrón contén de acá esta función match pattern en el --> order acá en el operador el contén es la misma contén ahí va a aparecer el --> caso de que hay funciones que la vas a encontrar dos veces dentro de la --> herramienta bueno continuamos entonces si no sé si todos van conmigo o de --> pronto voy un poco más a listo no le hizo mi verdad vamos a sumir muchas --> gracias después no me queda ahí para que me quede ahí como ejemplo --> bueno vamos entonces --> escojamos ahora nombre nuevamente y vamos a suponer que le piden hacer lo --> siguiente quieren obtener solamente el nombre --> porque ahí en nombre tengo nombre y apellido se asumiría en este caso en --> particular que la segunda le la segunda palabra se refiere al apellido --> entonces quiero sacar el nombre aquí ya vimos una forma en el cual puedo --> hacer esto que es con magic field yo podía decirle john do y la salida --> sería john hago jane smith y la salida sería jane y me debería --> funcionar con el magic field pero hagamos una forma diferente hagámoslo --> con un ser harry place y volvemos nuevamente con expresiones --> regulares listo vamos entonces aquí a nombres y va a la string a la función --> string --> es string y vamos a la que dice --> espere un momento que --> no sé si es este match similar no está no es separado otro coche vamos --> a la función ser replace que está al final ya ese ejemplo tengo con otra --> parte ese fuchs ser el replace por favor el problema que tengo con un --> ser el replace es cómo hago para eliminar todo lo que está con el --> primer espacio en blanco o sea veamos aquí los operadores que me permite --> aquí me permite igual que inicie que finalice y que haga un rey entonces ahí --> no sé si nos sale con estar wich entonces hacemos la prueba le digo --> estar wich que empiece con espacio en blanco --> no no lo saldría porque porque él buscaría la el string que empiece por --> ir por espacio en blanco y el espacio blanco está en el medio no --> funcionaría entonces aquí que deberías hacer una expresión regular y --> expresiones regulares pues de pronto no es lo tuyo recuerda que el día de --> ayer hicimos un ejemplo con con con chat gpt en el cual le pedí que me --> diera una expresión regular para lo que yo quisiera si redactas bien lo que --> tú quieres en un 99% de los casos te va a dar la represión regular que --> tú quieras que sea eficiente creo que puede ser más eficiente que la que tú --> haces de forma manual puede ser más eficiente pero entonces eso que quiero --> hacer ya dicho que ya lo pudo hacer con el magic y pero lo quiero hacerlo de --> forma diferente con una expresión regular entonces voy a decirle la --> siguiente expresión regular voy a apuntarla aquí la expresión --> regular listo entonces en expresiones regulares hay unos caracteres y unos --> símbolos que indican unos elementos en particulares entonces este símbolo con --> el separador el con el carácter especial slash ese indica espacio en --> blanco entonces yo le voy a decir mira dame un favor búscame el espacio en --> blanco el punto indica cualquier cantidad de caracteres --> perdón el punto indica cualquier carácter asterisco indica cero o más --> caracteres y le voy a decir este símbolo que es el símbolo peso que --> llegue hasta el final de la línea porque quizás la línea --> no llega por los caracteres que de pronto no te dan lo que tú quieres --> entonces para asegurarme le estoy diciendo con este señor que está --> aquí que empiece en el primer espacio en blanco después que sigan --> todos los caracteres que él quiera y que finalice con una línea esa línea la --> coloco porque sería conveniente es cuando tú tengas por ejemplo lo --> siguiente imagínate que tienes este John Doe --> acá y Jay Smith tiene este dato si yo no le coloco este señor que es el --> señor que no está viendo aquí si yo no le coloco este fin de --> línea que pasa que él cuando intente buscar y eliminar me elimina --> todo esto porque estoy diciendo elimina todo lo que --> hay después en blanco para evitar eso entonces yo le coloco elimina desde el --> primer espacio en blanco hasta que encuentre un separador de filas --> entonces significa que esto nada más eliminaría hasta aquí al final va a --> depender de lo que tú quieras hacer pero esto lo voy a hacer simplemente --> lo hizo esta manera para agregar esa temática a nivel de presiones --> regulares entonces voy a hacer lo siguiente aquí voy a decirles valor --> qué valor va a buscar voy a decir entonces este señor ese punto asterisco --> y el símbolo de peso te mando esta expresión regular si tú desee por acá --> por el chat eso es lo que va a buscar y te la mandé por el chat eso es lo --> que va a buscar ahora reemplazar va a reemplazar por espacio en blanco ok --> voy a crear aquí una nueva columna para que para que me muestre voy a hacer --> aquí un preview a ver si no tengo error en la expresión regular --> y si tengo un error en la expresión regular porque no funcionó para ver --> por qué no funcionó aquí tengo reyes --> valve reemplazar which a ver por qué no funcionó --> bueno excelente a ver qué fue que coloque mal aquí --> y le coloque un --> no a mí no me está dando con el símbolo pesos porque voy a copiarle --> directamente no sé si de pronto estoy colocando un carácter especial que es --> las expresiones son sumamente sensibles para ver lo copio --> directamente de acá --> sí no sé hay un símbolo que hay como que cuando en el teclado no sé lo --> estamos tomando mal pero bueno esto es aclaro que esto mismo que estoy --> haciendo aquí pues lo puedo hacer directamente con el magic field lo que --> quería aquí con esta parte de mostrar es que las expresiones regulares son --> es una herramienta que es muy poderosa tanto para búsquedas o para --> emplazar cosas que puede ser compleja anteriormente era más compleja hoy en --> día son menos complejas partiendo del hecho de que lo puedes hacer --> directamente con con una yala que tú quieras para que te de la expresión --> regular bueno vamos a hacer el break de los 20 minutos si volvemos entonces a --> las 11 y 50 a 2 y 30 tomemos algo frío algo caliente entonces y --> volvemos entonces en 20 minutos ok eso --> bueno regresamos nuevamente espero que haya tomado y he descansado un poco --> entonces continuamos estamos conectados estamos conectados no --> estamos conectados estamos señor si listo bien continuemos entonces bien --> vamos a ver una función que es muy común en herramientas de calidad que --> la encuentras en el ecosistema de talent también la encuentran el talent data --> quality aunque el talent data quality tiene un par entonces cuando tú entras a --> esas herramientas de calidad te publicitan de que ellos pueden --> encontrar errores tipográficos y en realidad si hay algunas funciones que --> te puede te pueden ayudar a encontrar algún error tipográfico que --> un poco semiautomática porque porque en automatizar un proceso a través de --> las herramientas que ofrece puede llevar un error y más cuando de pronto tú --> quieres de pronto haya errores y nombres sabes que los nombres tienen --> ortografía y cada uno puede llamarse como le dé la gana entonces ahí hay --> casos en que de pronto podía automatizar y otros casos que en --> realidad pues hay que vigilar para ver antes de hacer cualquier cambio --> explico los dos modelos que se utilizan para encontrar errores tipográficos el --> cual la herramienta talent data preparation te ofrece uno y el talent data --> quality te ofrece los dos entonces supongamos entonces que es lo que --> hacen listo esto que es acá --> no voy a listo mejor espera un momento y lo abro mejor desde acá --> desde aquí listo entonces en primer lugar la primera forma que usan es --> lógica fuzy en lo que hace es sencillo el algoritmo el algoritmo de fuzy es --> el siguiente supongamos que tú tienes el nombre --> john de esta forma y yo particularmente me escribo john de esta --> forma entonces aquí puede haber un error --> tipográfico en el caso particular pues de los nombres no mucho pero sí --> puedes encontrarlo con quizás nombres de productos el inconveniente de los --> nombres de productos es que hay algunos para hacer su producto digamos --> nombrarlo de manera muy particular y llamativa no siguen las reglas de la --> real academia lengua entonces le colocan como ellos quieren el nombre --> para hacerlo atractivo pero veamos cómo funciona esta lógica de fuzy --> la lógica de fuzy que está aquí funciona de la siguiente manera es --> cuántos cambios debería hacer para que esta palabra sea igual a esta palabra --> básicamente aquí me tocaría hacer dos cambios porque porque aquí para que --> este john sea igual a este john tendría entonces que cambiar --> la j por la o y la h por la la o por la h para que me quedase por ejemplo si --> yo tengo el nombre kelly de esta forma y yo tengo kelly con y latina por --> ejemplo cuántos cambios hay que hacer para que esta palabra sea igual a --> esta solamente uno que es cambiar la y esa por eso que saca por esa y --> esa es la forma en que trabaja para encontrar duplicidad o para poder --> encontrar errores tipográficos que pueden existir en palabras ahora esa es --> la otra forma es utilizan una técnica que se llama --> son dex y entonces hacen lo siguiente por ejemplo colocan que él y aquí --> está muy buena para encontrar duplicados y que él y así agraemos --> tomando el idioma español ahí esas palabras las dos se dividen en dos en --> dos partes en dos fonemas que sería que lee de se cuenta que en el español --> es aqueli con y latina y ese aqueli con y griega se pronuncian igual kelly y --> kelly aquí lo que voy a encontrar son duplicados en la forma en que se --> pronuncia en el idioma inglés quizás eso se cambia por ejemplo en el --> español esto sería igual yo yo pero en el idioma inglés eso más lo llaman --> ese show yo lo sé una rara show no es un yo así un show ahí entonces la --> pronunciación puede ser diferente estas son las dos técnicas que utilizan --> tanto para encontrar duplicados o para poder encontrar palabras que son --> similares o parecidas o que estén mal escritas para este ejemplo --> entonces vamos a hacerlo de la siguiente forma vayamos al nombre --> y vayamos entonces a los perdón a nombres al nombre que reemplazamos el --> que sacamos el al que reemplazamos y vamos a buscar lo siguiente a ver --> vayamos al menú de string --> al menú de string que está por aquí abajo y vamos a la acción match similar --> text dele clic por favor --> perfecto aquí lo que te van a pedir es comparar con valor con columna en --> caso que sea columna pues se comparan las columnas que tengan la --> misma fila pero vamos a compararlo con un valor fijo para entender lo --> siguiente vea aquí tengo emily que está escrito con y latina entonces yo voy --> a decir mira hazme favor busca todos los nombres que se parezcan a emily --> pero con y latina está con un y griega perdón y la voy a buscar con --> y latina y aquí me pisen el número de cambios que voy a hacer entonces --> aquí tengo un emily que está con y griega para que este milis igual a --> nada más necesito un solo cambio del entonces en preview para ver qué sale --> aquí y debería parecerme en en emily aquí está un true diciendo de que --> esas palabras son similares son parecidas que ya sea que puede estar --> mal escritas o que simplemente se producen exactamente igual dependiendo --> y ahí podías encontrar errores tipográficos con ese tipo de función --> match similar text que está en stream match similar text está en el stream se --> hizo un preview ayúdeme a este para ver supongamos que yo quisiera no no lo --> mande a submit terminamos con el sumi con este quiero tengo kelly de esta --> y yo quisiera buscar este que él y así o una sola cuántos cambios debería --> hacer para que ésta sea parecida o igual a éste tocaría hacer dos cambios --> verdad eliminar una l y cambiar ésta y por y latina entonces vamos a ver si --> funciona si yo coloco uno así por ejemplo kelly a colocar aquí kelly --> así como estaba pero con un cambio está que él y que está acá debería --> salir en forz voy a mandar aquí un preview --> aquí está en forz porque el número de cambio para que sea igual sea 2 si yo --> cambio aquí a 2 le doy aquí un preview y debería salir en true --> aquí está en true entonces aquí por favor este sí ejemplo envíelo a --> sumi para que le quede ahí esa es la forma en que trabaja para --> encontrar o ya sea duplicados o ya sea para encontrar posibles errores --> tipográficos que pueden existir en los datos --> esta opción esta herramienta no tiene la de son de que es interesante es --> que sean similares pero por pronunciación y ahí sí de pronto te --> equivocaste en algún nombre o algo específico --> perfecto sigamos entonces terminemos ya casi a esa función --> vayamos aquí a lo que damos aquí en nombre replace aquí en ese que --> estamos acá en la misma columna que estamos vayamos aquí donde dice es --> stream nuevamente es stream --> es stream y voy por bueno remover caracteres consecutivos --> esta es muy buena cuando tienes no tienes analizado el número de --> espacios en blanco entonces por ejemplo tienes una separación de algunos tienen --> 2 3 4 espacios en blanco y quisiera estandarizar para que todos tengan --> solamente un espacio en blanco ahí como todos tienen espacios en blanco --> entonces no sirve pero por ejemplo cambie aquí este por defecto el --> carácter de repetición que está espacio en blanco cambia sólo a odors --> esta función no lo veo mucho la la funcionalidad que le veo es más como --> tenga mucho espacio en blanco y quisiera de eliminar que queda uno es por ejemplo --> al colocar él ahí va a eliminar todas las ele que estén duplicadas me deja --> una sola es decir si yo tengo tres ele nada más me deja una al final --> independiente el número de ele que tenga repetidas consecutivamente él me --> deja una por ejemplo aquí vemos aquí kelly kelly está aquí con una --> sola con doble ele al decirle que elimine la ele aquí me dejaría kelly --> con una sola ele créalo una nueva columna por si acaso nueva columna --> y manda de aquí a sumir --> y aquí está aquí hay un error no sé qué pero aquí sí lo hizo aquí está --> eso no es nada del otro mundo vuelvo a repito esa función tendría mucho más --> sentido cuando vayas a eliminar de pronto los espacios en blanco pero --> quizás te toque bueno alguna vez algo por ahí no sé --> bueno vamos entonces lo siguiente ya que para finalizar ya este menú vayamos aquí --> al teléfono --> voy a darle aquí f5 aquí es como que hay algún error de algo no sé voy a darle --> aquí f5 para que desaparezca --> se ubica en número por favor --> en el teléfono nuevo teléfono y vayamos aquí a string a las funciones que son --> revuelve parte del texto --> aquí te aplica lo mismo exactamente la misma idea que tenía en el ser en el --> en el match pattern donde tienes que sean iguales que contengan que --> finalicen entonces voy a hacer lo siguiente voy a --> voy a eliminar voy a remover todos los elementos que empiezan a nivel de --> teléfono por paréntesis 555 cierro paréntesis enviarle aquí un preview --> para ver si no hay problemas si ahí está por favor así listo mandale un --> perfecto eso lo que hace es que remueve hace exactamente lo mismo que un ser --> en replay siendo que te crean una función simplemente para reemplazar --> algún elemento específico fernando así nada más dale f5 porque a veces te --> vas a ir saliendo ese error dale f5 ahí para que te recargue y --> terminamos ese menú con la última función note lo siguiente ahora note --> que aquí le quedó un espacio en blanco que se lo marque a la herramienta como --> si fuese una especie de cuadrado con líneas gris y blanca este que está --> aquí este blanquito que está acá en este blanquito que aparece acá --> cuando se arrumbe los espacios en blanco al inicio y al final --> el stream tiene una función que se llama trailing ahí está remover trailing --> and leading caracteres que inician y infidelizan te pregunta qué --> carácter quieres normalmente uno lo que elimina son espacios en blanco --> de pronto algún sufijo prefiero que tenga pero en este caso pues dejemos --> espacio en blanco para que pueda tener entonces una columna con esos --> caracteres que me forma muchos problemas cuando genera una consulta --> se puede y lo que hace eso es eliminar y ese es el menú completo para el señor --> spring no creo que reviso para ver si ahí vimos todas las funciones de lo --> que hace ese spring bueno vamos entonces al siguiente que sería el --> ejercicio 3 mientras voy subiendo el 4 y el 5 porque no lo es subir no sé --> pronto ya usted lo subió a listo aquí voy a decirle data set voy a subir el 4 --> es acá en escritorio recursos talent data preparation --> caso de estudio y pero ejercicios y voy aquí a subir el 4 --> en otras hubo el 5 --> y en otras hubo el 6 --> bueno continuamos pues --> me ubico nuevamente me tenía en preparation estaba trabajando voy a --> agregar una nueva preparación ya sabe que hay dos formas de hacerlo o se va --> al data sec o se va al menú de preparation entonces voy ahora por el --> menú de preparaciones va a decirle aquí a preparation aquí le voy a --> colocar ejercicio --> ejercicio 3 on record preparación --> y escojo el ejercicio 3 entonces --> le damos aquí su mi para enviar --> y me abre entonces la ventana del --> perfecto listo vamos a empezar nos ubicamos entonces aquí tengo --> identificador y se me escapaba mencionar algo también voy a aprovechar lo --> siguiente note que en las columnas aparecen --> un color una línea de colores que es muy parecida al talent data steward que --> aparece rojo significa en que hay unos datos de calidad que están --> errados por ejemplo ahí aparece errado 7a porque porque él identificó la --> columna como integer y ahora entonces tiene un 7a ahí --> entonces dice epa 7a no corresponde a un valor entero y tengo los líneas --> verdes que me van a indicar que los esos esos columnas tienen valores --> que han pasado los procesos de calidad aquí se agrega una nueva --> columna permítame hacerlo acá para que usted la vea nada más que es cuando está --> vacío cuando está vacío entonces te marca ahora un color negro --> aquí está este color negro que está aquí indicando que ahí vacío --> entonces esos colores que se van a reflear en todas las herramientas que --> denga talent verde todo correcto rojo error y negro significa que hay un --> error que está vacío hay algo que está vacío en esa columna voy a --> disminar eso que hice ahí entonces para que me quede tal cual --> ubiquemos perdón en la columna de análisis de animales perdón --> animales y vayamos al último menú que es string avanzado vayamos a la --> primera función que es adicionar a extra caracteres --> esa que está ahí listo eso lo que hace sencillamente es a partir de un --> tamaño máximo tú vas a agregar caracteres y la columna no contiene ese --> tamaño máximo me explico por defecto tengo un tamaño de 5 note que la --> primera fila de la columna animales dice ca si yo dejo ahí como 5 y ca --> tiene tres elementos le faltarían dos caracteres para llegar al máximo que --> yo quiero esos dos caracteres que hacen falta para llegar se rellena --> con el carácter que tú especifices por ejemplo coloquemos --> aquí x el carácter que deseo agregar y diga por favor que los va a agregar no --> a la izquierda sino a la derecha y le da un preview --> y mire lo que hace aquellos columnas que tengan menos de 5 caracteres se --> rellenan con x el caso por ejemplo de elefante que es la columna número --> 7 no se agrega en x porque la número de caracteres es superior a la --> cantidad máxima que estemos eso para qué puede servir quizás te --> puede servir en algunos casos para buscar algunas claves por ejemplo me --> explico a usted le ha pasado entonces que de pronto tú digitas una clave --> común que tiene cinco caracteres pero te los muestra con a veces con --> asterisco te muestra más de 5 te muestra como 10 eso lo que hace es que --> la persona que vaya a leer no sepa cuántas cantidades de caracteres tú --> tengas entonces quizás para buscar un poco ese tipo de claves tú puedes --> agregarle más carácter para que la persona no sepa cuántos caracteres en --> realidad tiene la clave que tú vayas a colocar eso es lo que hace nada más --> no le de sumi por favor y si le va a sumi creerle una nueva columna porque --> necesita esa columna acá ahora para un ejercicio dele aquí bueno aquí le --> agregue una nueva columna y lo voy a enviar una nueva columna entonces --> bueno esto sigamos en la misma columna animales por favor no la convertida --> sino la original aclaro yo no soy experto en este tema y tampoco lo --> investigado en profundidad pero aquí viene algo que se llama vaya a ser --> chain --> ah no perdón no no es el que yo quería no en el último perdón que --> convertir charácteres a convertir bueno esto yo le voy a decir lo que --> dice la teoría pero yo todavía no no me cuadra mucho --> la teoría dice lo siguiente en que cuando tú tienes un texto las letras --> pueden tener diferentes tamaños esos diferentes tamaños de las letras como --> tal entre vayúscula y minúscula genera un espaciado en el cual --> abro comillas doble al cerebro y quizás no puedas entender o no te puedas --> concentrar de forma correcta entonces esto lo que hace es que independiente --> de los tipos de letra que tú tengas te adapta el texto a un tamaño digamos --> que estándar eso es lo que dice todavía yo en esta parte no no la --> entiendo muy bien yo nunca la he usado pero bueno aquí lo que sí es --> seguro es que para que pueda haber un cambio escoja la conversión full --> ahí te pregunta que deseas convertir a los tamaños fijos --> ahí está dígito letra bueno ahí dice catacana --> otro carácter no sé qué será catacana dele por favor preview no --> mande los dos nuevas columnas para que vea el cambio que se hay de luz --> aquí y lo que intenta hacer es que le da el mismo tamaño a letras para que --> cuando tú tengas un reporte esa es la teoría que dice no haya ningún --> problema en la lectura que yo no sé por qué debe haber problemas en --> lectura cuando los tamaños están diferentes eso es lo que dice esta --> teoría no no la entiendo muy bien para que funcione eso pero eso lo --> bueno sigamos entonces este con ver la segunda que es con ver --> charácter wich y escoge la segunda que es con ver full --> full week la segunda opción que es con ver full week y lo mandas a una --> columna nueva por favor para que no nos dañe la columna que tenemos ahí --> sigamos entonces vamos ahora en la opción fine and group similar text --> encontrar grupos de textos similares esto funciona exactamente igual a lo --> que expliqué con fuzy pero vamos a ver la diferencia que hay entonces dele --> clic aquí en fine sobre la columna animal esto aplica fuzy pero no le --> especificar caracteres creo que busca con una distancia máxima de tres --> caracteres entonces vea lo siguiente dice es va va va si la distancia de --> máxima de tres caracteres yo encontré tres palabras que son --> parecidas por ejemplo doc y doc se parecen porque porque para el llevar --> de doc a doc bueno doctor es que me toque quitar la u por o me toque --> eliminar la k y cambiarlas por la g entonces tú dices epa si son parecidas --> puedo cambiar en este caso sabemos que eso está raro ahí verdad entonces --> usted de chulea por qué porque pato y perro no hay la herramienta pues no --> digamos que se equivocó sino que el fuzy ahí no me sirve date cuenta --> ahora que aquí tengo aquí si cosas parecidas tengo un ct tengo un cac --> y tengo un coto lo que sí es seguro que este guard que está aquí no puede --> ser de ese mismo grupo que esto esté go at y aquí me dice oye esas tres --> palabras que son parecidas a nivel de fuzy la quiere reemplazar por cual la --> que va a reemplazar por cat entonces aquí le da sumi y a donde --> encuentren esta columna estos elementos te los cambia y de esa forma --> puede corregir algunos errores de manera muy sencilla cuando hay una --> similitud a nivel de fuzy --> repito nuevamente voy a devolverme para que hay algunos que todavía no lo han --> hecho entonces voy a lo siguiente estoy en animal y voy aquí y con la función --> fine and group similar me doy cuenta en que doc son palabras --> diferentes la de pato y perro la de chuleo --> y en el grupo de los cuatro de chuleo go at para reemplazar todas las --> que tiene ct go at y cot por cat aquí por defecto está cat entonces le doy --> sumi y eso lo que hace es que aplica el cambio entonces para reemplazar esas --> palabras que similarmente por distancia fuzy las encontré seguimos --> entonces listo la función que viene ahora permíteme y la veo bien --> toma ahora selecciona este identificador por favor --> y pasa lo siguiente a nivel de seguridad bueno perdón a nivel de base --> de datos quizás algunos que hayan desarrollado quizás cuando tú creas --> una tabla y en esa tabla quieres colocar un identificador que es --> generado como por ejemplo una secuencia tú en base de datos usaba --> seriales cierto sea una serie una secuencia entonces 1 2 3 4 5 y con eso --> elemento identificada cada uno de los registros como tal eso a nivel de --> seguridad que hoy en día no se puede hacer o no se debería hacer perdón --> porque porque los hackers saben en que tú puedes usar secuencias entonces --> empieza a buscar por esos datos por el 1 por el 2 por el 3 a ver cuál le --> da entonces hoy en día esos datos que son generados deberías que en --> vez de usar una secuencia generar un ID un número identificador único --> eso ahora va a permitir ahora que esos hackers pues no pueden hacer esa --> técnica de ir a ser un para que vaya recorriendo los diferentes números y --> ver para de qué encuentro entonces muchas veces quisieras agregar eso a --> nivel de campos dentro del tracé eso cómo lo haces te vas entonces al --> menú y aquí está una opción que dice generar un ID y lo que hace --> señores que en una nueva columna te va a crear un identificador único --> ahí está este identificador que está eso es lo que --> se está haciendo actualmente para prevenir ese tipo de ataques entonces --> bueno aquí me hizo un cambio aquí voy a borrar ese cambio --> se llama generar un ID voy a ver qué es que alvien ahora --> bien si tú ese por favor en identificador y ese identificador note que el identificador es --> numérico pero hay algunas filas en que tienen una letra entonces en algunos casos tú --> quisieses tener una columna en la cual pues vas a tener algunos datos que no tienen la --> mejor calidad y ahora quisiese remover dejar solamente los números y remover todo lo que --> no sea número para hacer eso entonces situate en identificador y aquí vas a encontrar una --> opción que dice remover a caracteres no numéricos no alfanuméricos entonces dale --> clic aquí sobre la misma columna y debería quitar todos los caracteres y dejarme solamente los --> números perdón aquí me equivoqué es la otra es remover en realidad es remover los no --> numéricos que pena si tú es en identificador ahí me equivoqué es remover los no numéricos --> remove no number --> no nombre no numeric charácter ese que está aquí listo sumi y debería remover los barací --> fíjese que ahora ya todos pasan toda la parte de calidad vamos al caso contrario entonces --> qué es quiero dejar solamente las letras váyase por favor de ese cuenta que en frutas en la --> línea número 5 la fruta que es melón watermelon ese que está aquí tiene unos caracteres --> especiales entonces ahora tiene también caracteres por ello no que tiene el número --> nada más que dejar las letras para este caso selecciona frutas y ahora sí remueve los no --> alfanuméricos listo remuevo aquí envío a la misma columna perfecto ahí se removió los --> caracteres terminamos con la última función que es simplificar texto vamos aquí donde --> dice nombres vayamos a la última función que es simplify text y esto lo que está haciendo --> es que remueve cualquier acento que tenga y remueve por ejemplo el case en este caso --> remover el case va a colocar a un case lower o sea lo va a colocar en minúscula y cualquier --> carácter especial que tenga ese cuenta que jose maría andrés y sofía tienen tilde vamos --> entonces a darle simplify test a nombres clientes --> y listo aquí ese cuenta que removió el case y los acentos como tal para qué sirve pues --> quizás alguna vez algo lo use y ese es el menú completo de string y string avanzado --> perfecto sigamos entonces vayamos ahora al ejemplo 4 vamos a ver si ya me subió el ejercicio 4 --> tengo el 5 arriba 6 y creo que ni subir el 4 ya lo tengo arriba aquí bien desde aquí este --> ejercicio puedo hacer también una preparación váyase aquí en el menú derecho superior le --> va a aparecer el el tubo ensayo este que está aquí que se me escapa el nombre ahora en química --> y aquí puedo preparar directamente el tada inventor y aquí le puedo dar click aquí y --> me va a llevar al menú para adicionar un nuevo preparación --> le tomamos a ver está en ese momento está aquí en la parte superior derecha aquí está --> como el signo de aquí está como al ladito del descargar está un la pipetica esta --> quien me habló --> ah perdón ahora sí voy a su máquina --> si exactamente es la otra forma de agregarlo de leer hasta ahí y hacer lo mismo lo que es --> llegue por allá lo mismo eso --> bueno y por acá estaba aquí este son los datos como tal ya sabe los nombres no te --> encuentro lo siguiente ahora esto tiene cinco columnas y vea la que dice país código de ese --> cuenta que automáticamente lo que hace una categoría una catalogación de country --> por qué porque eso pertenecen a códigos de países vea que aquí no lo categorizó y aquí --> pues lo nombró vea que este que es numérico lo colocó como código postal de francia --> esto claro que lo puedes cambiar evidentemente no puedes cambiar cuando quieras --> bueno vamos entonces lo siguiente vamos al menú vamos a escoger país código y vamos al menú --> que bueno aquí un dato curioso yo en realidad no no le veo tanta funcionalidad pero cuando --> le uno el tutorial se nota uno que hacen énfasis en que muestra este mapa y no --> se muestra como si fuese alguna maravilla pues al final dicen ellos que la idea de --> esto es que tú puedas ubicar en caso de que sean unos clientes ubicación geográfica y --> una teoría sepa dónde están tus clientes a nivel mundial y puede hacer pero yo no --> le veo a otro mundo a esta gráfica que está aquí está que está acá bajito mire des cuenta --> que aquí aparece en un mapa mundo y le marca en función a estos códigos en que ubicación --> gráfica se encuentra eso es lo que hace y o si no cambias a al típico de barra que te --> puede decir cuántos registros está en cada uno de los códigos de países cuántos registros --> pertenecen o están agrupados digamos por el código que está en particular esto que está --> aquí pues no le veo en el otro mundo pero es lo que dicen ellos vayamos al menú que dice --> conversión por favor ubicado en país código conversión y aquí me quien me habló brenda no --> y eso no va a cargar haga lo siguiente por favor ábrese una nueva ventana por favor de --> en la última que tiene allá que se llama data preparation por ahora la pestaña es la última --> el click si dele ahí en la flechita en la parte izquierda ahí listo y mande ahí el 4 nuevamente --> mande lo para ver un momento no quedan iguales ahí la única diferencia es el time el tiempo --> en que subió quedarían con el mismo nombre pero la forma en que lo puedes diferenciar es el --> que subió intenté subir el 5 ya es un co subió que el ejercicio 5 ya lo subió --> de ese de ese ya la pestaña que está al lado vez subió el 4k de los hagamos ahora la --> preparación ahí inmediatamente al lado derecho el menú derecho antes ese que es ahí perfecto --> dele a si están amables perfecto ubíquese en la columna país código que es la que --> estamos actualmente listo bien entonces vamos a país código en el menú de conversión desacada --> del lado derecho vamos a escoger convertir country names a coach listo aquí dice from me dice en --> qué formato está el el nombre el código del país en este caso creo que es esa hizo que --> voy a tomar esa hizo que está acá y quiero que me lo convierta a nombre de países si el --> código corresponde a uno de hizo lo colocará el nombre del país dele por favor envíelo --> a una nueva columna a ver si lo hace de él es aquí --> y ahí está el problema que puede tener es que el nombre lo coloca en inglés es el único --> inconveniente será que lo convertimos acá en español lo puso en español si vamos a ver si --> y cómo se lo puso será que tiene la el el browser que le será que el browser le traduce --> inmediatamente porque este para ver quién me habló que de con la curiosidad alejandro un --> momento y a ver tu pantalla un momento para ver que de con la curiosidad ese --> no no pero que todavía no han enviado su mitad del único sumi para ver submit no lo que pasa --> es que eso que está en español son los que venían por defecto en la en la set --> en el no sé que estaban esos nombres estados unidos en español para intentar ahora convertirlos --> a códigos ahora era que faltaba ejecutarlo bueno ahora aclaro que él te traduce en el --> idioma en que tengas la herramienta nada más no la gusté para recordarle el día de ayer le --> dice cómo cambiar el idioma previamente no creo que tenga poco sentido es decir aquí --> cambió a inglés porque la herramienta no la gusta ya simplemente ver acá en el profile --> preference aquí me pide loguiarme nuevamente en este profile preference hay una opción que --> es el lenguaje es el lenguaje que está aquí entonces yo podía cambiar a diferentes idiomas --> aquí pero español no existe aquí está inglés francés japonés y alemán no sirve --> ahora vamos a hacer entonces con el siguiente que sería data preparation lo hago nuevamente --> sería la preparación número 4 --> y nos situamos ahora en el nombre del país vamos a intentar entonces convertir estos nombres a un --> código voy a ser nuevamente al menú de conversión donde dice convert con trinen sanco --> dile fron dígale que está el country name y páselo por favor a hizo 02 con tricot vamos --> a ver qué pasa en una nueva columna --> ahí no creo que haga mucho de ese cuenta que lo único que hice que se me hace raro --> fue que convertió código japon gp no sé por qué porque normalmente lo buscaría en español --> es a tilde grinejapón no sé por qué voy a hacer algo en particular voy a convertir esta --> francia en france voy a cambiar aquí como hacía ya en el tal nata severs va a cambiar --> francia a france su mi --> el problema es ahora quedó con la siguiente duda si intentaría ejecutar esto el cambio --> está acá abajo por lo tanto me daría lo mismo voy a intentar a ver un momento a ver --> si intento mandar un su mi en teoría debería si me da lo mismo por qué porque el cambio --> lo hice acá en tercero aquí me tocaría nuevamente voy a cambiar aquí el orden que --> también no lo he mostrado y a cambiar aquí el orden voy a subir este señor para que lo haga --> de segundo primero me reemplazaría y después me intentaría convertir y ahí está bueno ahí --> me sirvió para dar eso que podía cambiarle acá el orden de la receta hacia arriba o --> hacia abajo cambia lo primero y después sube el cambio como segundo elemento en la en la --> receta y después qué va a pasar que primero hacer en plaza y después va a intentar convertir --> esos nombres a código morales a este señor y también nos pasa mucho con el tal nata --> catalog pues se está muy ligado al idioma inglés no es posible hacer una a cambiarlo --> inglés a español perdón y creo que no está entre la corto plazo no está ese --> de la herramienta en español --> recuerda cambie a france y después sube y cambia el orden como segundo y debería ya --> parecerte el código de francia que espere por lo demás no funcionó porque están en español --> y los espera en inglés --> que todo no funcionó, a ver que uno que no haya funcionado --> vayase --> ah ok --> esa que está ubicado está convirtiendo alison el problema que tiene ahí es que --> está convirtiendo de código a nombre y la conversión es al revés de nombre a código --> entonces en el front dele clic en el front donde está ubicada en ese front que está --> en la parte de arriba del front ahí y va a decir que es country name y ahora páselo dele --> en el to dígale que lo pase a iso 02 code ese country code iso 02 dele nuevamente --> y ahora sí está era que el problema era la la configuración de la conversión --> bueno seguimos entonces quién me habló es una buena pregunta que no le sé la --> respuesta en realidad no sé por qué no debió porque esa tilde no está en el idioma --> ese sí está raro que lo haya convertido en el código correcto --> ahora me puse a pensar que es verdad que en inglés es japan ni siquiera es japon --> sino japan sería listo hagamos lo siguiente vamos a probar lo que --> tú dices para ver vamos a colocar aquí germany pero con la y latina germany germany aquí --> no --> no no lo convierte estamos ahí sí tenemos la duda voy a convertir este en japan debe ser --> gp verdad que este en japan --> para colocar un no en realidad no sé por qué japón lo no le sé decir voy a investigar --> por qué porque japón lo convierte el código no sé es que ni siquiera porque --> que la tilde esa bueno y tampoco no funcionó lo del el fusil bueno así --> queda con la duda de por qué vamos aquí ahora vamos a distancia metros en --> la columna y vamos al menú de conversión --> en conversión que me pasé en el menú de conversión listo y aquí hice convertir distancias --> entonces te pregunta la unidad que en que está y es a millas voy a coger --> kilo me en la unidad que está está en metros metros y quiero convertirlos a kilómetros aquí --> la precisión va a ser cuántos decimales vas a querer colocar ahí en la conversión entonces --> en que está está en metros la coloque en metros a que lo quiero convertir a kilómetros --> y con una precisión de uno significa con solamente con un número decimal delez --> súbmica aquí debería cambiar el 10.000 debería cambiarlo a 10 y así suecidamente --> efectivamente con la precisión de uno sólo un solo carácter decimal seleccionó ahora la de --> pero que algunos terminen vamos con duración horas vamos al mismo menú de convert --> de convertir y aquí está convertir duración entonces te pregunta así como el de --> el de distancias te convierte pregunta en qué está la unidad entonces voy a decir que esto está --> en horas en horas y las quiero pasar a días a cinco horas las quiero pasar a días con una --> precisión de uno entonces voy aquí a súbmica hace la conversión y me convierte las horas a --> días de ya era una fracción del día 0.2 días sería equivale a cuatro horas 0.3 días 0.2 --> día equivale a cuatro horas que pudiera convertir año a meses meses a días como tú quieras esa --> función si es interesante porque esas conversión de fechas y se ven mucho para tratar de --> estandarizar los diferentes de lo que tengas vamos ahora aquí ahora a temperatura para --> finalizar ya este menú de conversiones y aquí está convertir temperatura lo mismo te pregunten --> qué está y a dónde la quieres convertir dígale entonces que está en faren que y la quiere --> convertir a celsius esto viene porque no está centígrado porque este señor viene de europa --> normalmente el centígrado se usa más acá en américa asumo que por eso no está centígrado --> acá eso sí de temperatura nunca lo he usado pues algo comercial pero bueno te hace la --> conversión al a lo que tú quieras ahí bueno específicamente farenje y celsius y --> kelvin y ese es el menú completo a nivel de lo que es conversión --> bueno continuamos entonces con el siguiente menú que sería el menú de limpieza este --> menú de limpieza y unas cosas que las puede hacer con el ser replays o con el match --> match pattern que fue que hicimos ahora y muchas veces repite algunas cosas para esto --> entonces vamos a tomar ejercicio 5 que yo creo que si subió tengo el 6 y tengo el 5 --> ejercicio 5 si subió voy a crear aquí una nueva preparación --> la voy a llamar cambiarle el nombre aquí underscore --> efectivamente la primera vez no funciona en la segunda --> es la que funciona no sé qué pasa ahí me ubico para ver en ese menú --> bien vamos entonces se ubicamos en nombre en nombre y vamos con la primera función --> que se va a dar cuenta que es exactamente igual o parecida ser replays o el match --> pattern la única diferencia es que aquí por defecto el limpia la --> limpia como tal la expresión entonces aquí por ejemplo nos ubicamos en nombre y podemos --> cliar un matching value me pregunta si deseo ya sea por valor y aquí lo mismo funciona --> que tenemos igual igual contiene inicia finaliza o regex asume que vamos vamos a eliminar todas --> las columnas que tengan el nombre carlos cuando digo eliminar las columnas es que --> la voy a colocar en blanco eso es lo que hace un clear limpia la columna es igual a un --> ser replay recuerden que si yo hago con contén igual estar o en qué va a pasar en que va a --> ser caso sensitivo si quieres caso insensitivo lo mejor es que hagas con un regex para repasar --> regex vamos a decirle aquí regex y entonces como es caso insensitivo tenemos que hacer --> lo siguiente tendríamos que hacerlo de esta forma sería empezamos con paréntesis signo --> de interrogación y yo digo carlos aquí él reemplazaría a todas las columnas que contienen --> carlos ya sea minúscula mayúscula o mixto lo mando por el chat por si las dudas coloco aquí --> en valor primero que sea regex y después colocó la expresión como la mandé en el chat voy a --> hacer aquí un preview y debería eliminar de la segunda con la segunda fía y está --> este casualmente no tiene no tiene para que el resultado me lo envíe en una columna nueva de --> él aquí su mick inmediatamente entonces su mick --> perfecto este es esa función si usted analiza es exactamente un ser replays y el replay lo --> mando en blanco para que reemplace toda la columna no hay nada del otro mundo --> bernanda brenda vamos a ver darle f5 nuevamente para ver y hay un f5 para --> recargar la página para ver parece que hay una función con la expresión de --> espera un momento y me conecto a tu listo espera un momento a ver este es un regex --> parece que hubiese un error en esta expresión regular ese es un ahí lo que --> está ahí sí es un ahí verdad vamos a eliminarlo un momento aquí y vamos a volverla a crear para --> ver sería entonces estoy ubicado donde debo voy a hacer aquí un pillars voy aquí entonces regex --> y voy a pegar la expresión perdón sería paréntesis y --> si no se hicieron no sé porque la expresión la única diferencia que tenía la c mayúscula y --> daría lo mismo si es con c mayúsculas y minúsculas decir déjame para ver y pruebo porque --> aunque no colóquese a eso voy a cambiar aquí a c carlos con c mayúsculas no para mí que --> hubo un error antes en la ejecución que no tiene nada que ver contigo fue de pronto algún --> error de de memoria algo para estirlo que indicó que estaba mal pero no creo que haya sido error --> tuyo le hizo seguimos entonces si digo quién me habló fernández y ya voy por ahí momento --> momento por favor y veo para ver qué hay --> vamos a ver este clear como lo tienes aquí raro no es pan de aquí la voy a eliminar a --> la señora que está acá un momento no sé voy a la función clear voy aquí donde dice regex y --> sería paréntesis aquí lo tiene ya este de aquí pero me parece que ésta no es una y si eso --> parece un signo de admiración verdad y si me parece que era el signo de admiración esa que --> perfecto listo ahora sí no sé qué va a pasar que era la signo de admiración vayamos a la --> columna género esta que está aquí y aquí hay una función que dice clear clear significa --> colocarla en vacío clear cerda con invalid values recuerde que hay tres colores que se --> identifican el negro el rojo y el verde el rojo indica valores inválidos el negro indica --> vacío y el verde valores correcto limpie las columnas que tienen valores en la columna género --> nada más darle a clear aquí y él automáticamente envía un submit y lo que hace que esas --> columnas las coloca vacías perfecto aquí hay una función de línea la que viene que se llama --> delete the row that much esto lo que va a hacer es que va a eliminar las filas que contenga --> alguna columna lo que está buscando tú por ejemplo aquí sí la voy a buscar por no usar --> regex porque la usar entonces que contengan por ejemplo una m entonces si da cuenta la línea --> número 1 no contiene m la fila la la fila o línea número 2 contiene m en género debería --> borrar la base de aquí un preview si ahí está la que debería eliminar no hagamos el --> porque necesito esa columna para los ejercicios que vienen pero lo que hace eso es que elimina --> las filas sobre una coincidencia por ejemplo vamos a eliminar la que contengan una y y preview --> no porque es que contengan y pero debió marcar isabel raro raro porque no marco isabel a no --> que contengan no es que sean iguales voy a colocar aquí mejor que inicien con y a ver para --> ver ops aquí no sé tenía anteriormente contain pero es que debería aplicar así claro si si --> seleccionó aquí salió un pequeño rol le voy a decir a borrar las filas --> de partiendo de esta columna aquí para ese momentito si si tiene razón verdad que si --> ops voy a hacer aquí un tal en punto login entonces voy a volver a loguiar --> bueno errores que pasan aquí si si claro tiene razón es decir borrar las filas --> sería estamos en el 4 o el 5 en el 5 o el 4 el 5 --> si entonces voy aquí al delict delict row dat más de esta columna nombre borra las filas --> que contienen y vamos a ver si es sí sí efectivamente aquí no me pasa con la y en --> latina por qué porque recuerden que es sencilla si quisiera que fuera insensible --> meto quería hacerla con un reyes entonces es el delict row del match de las columnas en --> que esté si hace match lo que va a eliminar es la fila no hagamos el sumi porque necesitaría --> las siguientes columnas bueno aquí tendría el delict row de las anti cell de la columna en --> que esté ubicada por ejemplo en este caso como estoy ubicado por nombre si yo le digo delict row --> week anti cell debería mandar entonces a eliminar la fila número dos efectivamente elimina la --> fila número dos gracias por la observación ya cansancio ya que me corrigieron a un hombre --> y una mujer no sé quién pero muchas gracias listo sigamos entonces saber qué más hay en esa --> parte delict row bueno delict row con valor negativo entendemos aquí me aplicaría nada más --> para esta parte de la edad ok significa entonces que aquí si le digo delict row entre valores --> negativos eliminaría esta columna que sería la 5 nada más creo que el único tiene con --> valores negativos listo voy a ver qué más hay aquí a nivel de columnas --> estamos aquí a ver listo --> estamos aquí en el menú delict row listo bueno este sí llenar valores con --> celda con valor vayamos a género --> y escojamos fill cell with value esto lo que haría es que las filas que estén vacías --> espérate parece que existe aquí un no este lo que haría es que si le doy aquí por ejemplo --> m todas las celdas la reemplazaría por m confirmo sí efectivamente ese reemplaza --> todos los valores de la columna no lo hagamos porque me daña entonces el ejercicio que --> viene el fill cell with value lo que hace es que llena entonces todas las columnas por --> valor que yo quiera o que haya especificado en el text box pero vamos me interesa llenar --> mejor son las filas que están vacías vamos a bueno este que está aquí quizá --> aparte un momento que ahí lo lo le explico para qué funciona ese --> voy a eliminar esto que hice aquí para explicar algo --> resulta que esto es más para un científico de datos resulta lo siguiente en algunos casos --> tú puedes tener una columna por ejemplo esa columna puede ser precio digamos de esta forma --> esa columna precio puede tener digamos varias filas voy a colocar aquí bueno precio más o --> ver que esto hay más columnas acá pero me interesa esta precio para que pueda entender --> para qué sirve eso esta precio puede tener los siguientes valores puede tener 1 2 3 4 puede --> tener aquí un vacío 5 6 7 puede tener aquí un null a nivel de base de datos que es --> diferente vacío lo coloco aquí entre paréntesis para que me entienda aquí puede estar estos --> vacíos y puede seguir acá con 10 11 el problema que se tiene cuando tú haces algunas --> de minería de datos también te te aplica es que muchas veces cuando tienes valores vacíos --> te afecta la desviación estándar y eso te puede llegar a conclusiones que pueden ser --> erróneas entonces lo que hacen y la técnica que están aplicando a nivel estadístico es --> que tú haces lo siguiente tú los valores vacíos los rellenas con el valor más cercano ya --> del lado izquierdo del lado abajo el izquierdo derecho perdón aquí como lo tengo vertical es --> que tú lo escojas hacia arriba o hacia abajo la edición que escoja no cambia porque al fin y --> al cabo te lo que busca es lo siguiente si yo tomo este 4 aquí yo tomo que este lo --> va a rellenar con el más cercano hacia arriba significa que todo rellena con 4 este null lo --> relleno con 7 este señor lo relleno con el de más arriba que ya lo puse con 7 y así se --> seguía su suecidamente seguiría hasta aquí y te rellenaría los datos de esta forma que --> va a pasar ahí que esta técnica te ayuda a que la desviación estándar de esos datos no sea --> tan alta porque eso que están ahí vacíos te pueden afectar o te pueden afectar también --> el promedio entonces estos señores aplican esa técnica esta técnica está hecha en esta --> en esta función que está acá escoge por favor género si es tan amable escoge la columna género --> y ten en cuenta estos vacíos que están aquí si lo rellenate por favor quítalos --> y hay una función que dice lo siguiente --> film entice el front a vos a vos arriba verdad sí o arriba o arriba sí arriba entonces esta --> fila que está vacía o lo siguiente esta fila que está vacía rellenará de su valor vacío con --> el mismo que está arriba o sea con una f este seguiría con el de más arriba que ya --> reemplace con una f este con una f este con una f y este con una m eso más que todo es --> para la técnica se llama suavizar los datos vamos a ver entice listo hago ahí para ver --> efectivamente ahí los rellenó eso esa esa función está específicamente es para eso --> recuerden que esto va más para analistas y científicos de datos para que los formateen --> pues en el formato que yo te sé listo vamos a ver qué más función hay bueno aquí film --> en vale balwe y esta estandarización funció vamos a ver listo ok esta es la misma técnica --> del max similar que teníamos allá pero aquí con un porcentaje de desatitud vamos a lo --> siguiente vamos a tomar nombres este nombre que está aquí y vamos a la función esa que --> confirmo que me confirmo algo acá es por ese momento listo vamos a ver y encuentro un nombre --> aquí listo aquí tengo un nombre Elena y quiero estandarizarlo a Helen a ver cómo me va --> entonces para eso voy a tomar la columna nombre me voy al data clínica el que estamos y voy --> a estandar de valor aplica el mismo fusy entonces aquí que pena que se me escapó el --> lo confundí con otra función ya le ente ya ya ya ya recordé note que aquí tengo anteriormente --> el fusy que usaba lo comparaba contra un valor pero ahora voy a compararlo con todos los elementos --> que estén en la columna en la en la en la columna es decir mire darte cuenta que en la --> fila número 2 tengo elena y en la fila número 10 tengo elena con h en la fila número 11 --> esta que está aquí tengo aquí yo y yo acá vamos entonces él va a intentar hacer un --> producto cartesiano de todo contra todo para ver qué elementos similares encuentran la misma --> columna los que habíamos hecho anteriormente lo que hacíamos es que colocamos un valor --> base y ese valor base se comparaba vamos a ver lo siguiente aquí dice entonces que busque --> por un porcentaje mayor 80 vamos a encontrar algo de él aquí preview para ver qué hace ahí no --> hace nada parece que no encuentra voy a darle el más cercano que sería el nom más cercano a ver --> pero no está funcionando a ver un momentico ahí ahí parece que me subiese a ese momento --> que este ejemplo no me acordé ahora pese para ver voy a esta analización fuchsia aquí --> aquí me está marcando estos elementos de género porque me está marcando pero no sé --> por qué me está marcando aquí pero de se cuenta que aquí me está marcando quisiera --> entender por qué me está marcando aquí solamente este valor acá pero lo que me está --> marcando son los parecidos por ejemplo este yon se parece este yon de acá y el yon de acá --> esta laura no se parece en nada este para el espectro mítico porque --> esta estandarción fu si me está dando es --> no este no sé por qué no me funcionó este momento de ahí reviso para ver la teoría que --> se me escapó este ejemplo momento por favor que no me está funcionando es aquí debió convertir --> este lena elana elena pero lo raro es que no está siendo bueno hagamos algo ese tenemos --> un brillo ahora el del almuerzo en el almuerzo reviso este ejemplo y les digo por qué fue --> que no funcionó por qué que raro que no haya funcionado en un momento intentó hacer la última vez --> enmarca estos elementos acá --> bueno ahí disculpo ahora en el break reviso para ver por qué no funcionó este ejemplo entonces --> quedamos en ese estándar fu si y le explico ahora por qué fue que no funcionó bueno vamos --> entonces al ejercicio número 6 que es el este data masking que funciona mucho más para --> la privacidad y confidencia de datos entonces vamos al ejercicio número 6 --> voy a revisar para decir el 6 lo subí aquí lo tengo arriba --> voy a crear entonces una preparación con el 6 aquí listo le voy a cambiar el nombre --> perfecto entonces voy a cambiar aquí el nombre a ejercicio 6 --> preparación --> la primera vez no funciona --> perfecto --> bien entonces aquí lo que hace es lo siguiente primero note que puede pasar aunque eso no creo --> que pasó hoy en día en la vida real esta parte pero quien quita que lo tenga note que --> aquí tengo un par de columnas que tengo id nombre correo y password ok entonces note --> que el password está aquí en texto plano y quisiese de pronto encriptar ese texto para --> que nadie lo vea entonces tú puedes hacer lo siguiente puedes convertir este señor que --> está aquí está texto plano en una clave hash tal forma en que cuando lo compartas no puedan --> entender qué es lo que está aquí entonces si te vas aquí donde dice password vete a donde --> dice el menú data masking de máscara de datos y escoge has data le envías un submit --> y te convierte esa columna en una clave hash esa clave pues ya ahora sí va a estar encriptada --> y va a ser difícil entonces que detecten entonces la clave que estaba en texto plano --> básicamente lo que hace es convertir una cadena a una clave hash teniendo como base --> la otra parte es el correo --> vayamos a la otra función si estuviese en la columna correo y tú puedes enmascarar --> ciertas letras que están aquí entonces vete o nata masking nos situamos en correo ahora --> estamos en correo le damos en max data ofuscación aquí hay muchas técnicas de ofuscación entre --> esa técnica de ofuscación la más sencilla es la que dice reemplazar los primeros n caracteres --> replace n first character reemplazar los primeros n caracteres aquí por defecto está 5 --> aquí te dice si lo deseas repetir con caracteres aleatorios vamos a colocar un --> carácter repetible y voy a colocar x significa que ahora va a colocar en los --> primeros elementos una x este no es tan parecido al de al que se rellenaba con el con la máxima --> cantidad que este es un poco diferente ese para que no vean cierta parte esto puede suceder --> cuando puede ser esto cuando de pronto compartan datos que tengan datos sensibles como dirección --> le vamos a decirle como de pronto quizás el el el sueldo entonces aquí le damos aquí --> bueno al final me cogió fue un randon ahí voy a ver por qué me cogió el randon --> porque perdón yo le puse la x fue en la semilla ese es para cuando es randon debió --> colocarle la x en replacement voy a darle su mi nuevamente si porque le coloqué la --> semilla aquí fue la sec de la semilla esa semilla se coloca ahí para cuando los caracteres sean --> randon y ahora si le coloca los caracteres x para eso que es el data más que no es nada --> para otro mundo perfecto ahí terminamos entonces vamos al ejercicio 7 yo no sé si --> me pareció que no lo he subido voy a subir el 7 el 8 --> si no lo había subido el 7 --> voy a subir el 8 --> el 8 --> y voy a subir también el 9 para que sean los tres que vamos a continuar --> no sé si me regala un break de 10 minuticos para buscar agua que se ve que se me acabó --> entonces empezamos en 10 minuticos por favor a la 1 y 25 mientras busco algo de agua --> regresamos en 10 minutos ok --> bueno regresamos pues listo ya con la garganta un poco más aclarada bien continuamos entonces --> ya vamos el ejercicio 7 8 y 9 esperamos ya el 10 vamos a hacer conexiones entonces de --> pronto a una base de datos listo entonces vayamos a lo siguiente ejercicio 7 vamos a ver si subió --> perfectamente aquí ya subió listo voy aquí a las preparaciones esto perfecto dígame --> sí seguramente sí vamos a ver cuáles son si eso es para un formato de teléfono que tengo ahí --> pero creo que no sé si nos da tiempo porque quiero hacer otro ejercicio vamos a quedar --> hasta aquí hasta el 9 y si nos da tiempo subimos eso es 10 y 11 para ver porque la --> idea es comentar una base de datos ahora muchas gracias a ti bueno continuamos entonces --> listo voy a hacer una preparación aquí con el 7 --> y esa viene con funciones de fechas --> entonces vamos a escoger fecha nacimiento esta que está aquí --> vamos a las funciones de fechas sería el 7 por favor mientras algunos oídos están --> subiendo vamos a esperar 7 7 nada más tiene tres columnas que es fecha nacimiento fecha registro --> la fecha nacimiento vamos a calcular entonces la edad que tiene cada uno de los registros que --> están establecidos que solamente son 5 apenas espero todavía que hay algunos que le está --> subiendo perfecto yo creo que ya brenda le subió entonces hacemos la preparación el 7 y --> vamos a calcular la edad que pueda tener cada uno de estos registros partiendo de la fecha --> nacimiento para hacer entonces funciones con fechas y calcular con fechas vamos aquí a la --> primera vamos al menú de dates y aquí hay una la primera función que dice calcular tiempo --> desde vamos clic ahí tomando desde la fecha nacimiento listo primero te pregunta en qué --> unidades deseas la salida en este caso deseo la salida en gears aquí está gears y contra --> qué quieres entonces hacer la operación de ese elemento en este caso sería now la actual de --> esa forma calcularía pues cuál sería la edad actual que tiene también hay otras opciones que --> puede especificar una fecha la que tú quieras o es su defecto usa su otra columna como base --> en este caso deseo calcular es la edad actual por lo tanto la configuración de esta columna --> sería desde tiempo unidad unidad de tiempo gears y hasta ahora no crea lo de una nueva --> columna por favor y la edad sumi y ahí te están marcando cuál sería la edad que se tiene --> actualmente partiendo esa fecha nacimiento más específicamente cuál es el tiempo que --> ha ocurrido desde esa edad hasta la que estamos tiene que tener en cuenta algo que ya había --> mencionado en el talent data steward y te lo menciono en esto también talent ha escogido --> como como formato de fecha formato año guión mes día si el formato no está lo más --> recomendable que puedas convertirlo a formato que él entienda o en su defecto que los --> formatos estén estandarizados para hacer algunas operaciones listo entonces eso sería aquí 34 --> perfecto vamos a ver qué otra función viene ahora vamos a cambiar el formato de la fecha --> vamos a escoger la fecha de registro y vamos a escoger vamos a cambiar su formato como --> hacemos para cambiar el formato de la fecha quizás el formato no lo cambia para hacer --> operaciones dentro del talent pero sí le serviría para quizás lo vas a llevar a un power v a un --> tablú que quizás quien necesite un formato especial entonces es como fecha de registro y --> vamos a cambiar chains el data el formato de fecha ahí te preguntan que si en realidad te --> preguntan si sabes el formato de la fecha en cuál está ese el caso de que tú no sepas puede --> darte el caso en que quizás los registros no todos estén estandarizados entonces le pides al --> sistema que te adivine cuál es el formato en que está pero como el formato sé lo mejor --> es entonces es que cojas y vamos a definir nuestro propio formato el formato en que está --> sería el siguiente aclaro que estos formatos son establecidos por el formato de java entonces --> permítame y encuentro aquí format date java modifide si lo encuentro aquí --> aquí están estas serían las letras de los formatos de java tienes que tener en cuenta --> que tendría que usar estas letras para cambiar un formato específico por ejemplo --> que quisieses cambiar de numérico a nombre del mes el nombre del mes por ejemplo está en --> formato m m mayúscula en la m mayúscula es demo y la m minúscula es de minuto entonces --> hay que saber cómo conjugo cada uno de sus elementos ahora vamos entonces a lo siguiente --> vamos a cambiar este formato partiendo ese hecho el formato estaría en año guión mes --> día el original por lo tanto partiendo de java para java el año sería ye y como está --> en formato de cuatro dígitos sería ye ye ye ye guión perdón lo vi en minúscula mayúscula --> en minúscula que perdón gracias no sé por qué este día muchísimas gracias es en --> minúscula ye ye ye porque él de java hizo perfecto vendría m m dos dígitos del mes y --> sería en minúscula de de te pide si deseas el nuevo formato a uno estandarizado sobre hizo --> normalmente porque estos maestros se meten con esa parte de hizo y estos estándares lo que --> pasa es que en la unión europea hay que seguir unas regulaciones así como quizás tú adoptaste --> es como norma a nivel de privacidad de datos un gdpr que es el europeo estándar europeo --> entonces en europa hay unos estándares que tienen que conseguir que seguir las diferentes --> fechas entonces por eso es que quizás estos estándares están muy bien establecidos en esta --> herramienta aunque acá no es que se base en el caso de colombia no sé cómo estaría méxico --> pero no todas las empresas no hay un estándar a nivel de fechas cada empresa --> adota como él quiera pero lo que he visto es que la mayoría se casa por un año mes --> y raro en eeuu este software europeo el software en eeuu normalmente el formato que ellos --> siguen es un mes día año pero estos están muy regulados a nivel de europa como no quiero --> ninguno de estos estándares voy a decirle others y voy a decirle que me cambia el formato --> a lo siguiente mm 12 m mayúscula voy a cambiar el carácter de separación a slash --> voy a decirle dd y que me termine en yeyeye en minúscula gracias por la persona que me --> colaboró y no sé pero muchas gracias yeye en minúscula y voy a hacer aquí un preview para --> ver si ese formato en realidad lo está tomando si efectivamente ahí lo tomó voy a hacerlo en --> que me cree una nueva columna mejor y lo manda sumi para revisar si que todo esté bien --> si efectivamente ahí está 0 9 10 y es 20 al nuevo formato establecido --> en la única moraleja que hay que tener en cuenta es que las letras que vayas a escoger para --> definir el formato son las que están establecidas por java no son las que están establecidas por --> talen porque como tan basado en el lenguaje java quien establece esas letras es java y no --> talen perfecto listo ya terminamos con ese date vamos a comparar las fechas vamos a ver --> si la fecha de registro la fecha de registro de en este caso para sacar el documento de --> identificación no sé en méxico pero en colombia todavía estamos en que aquí hay que sacar dos --> documentos un documento que llama antes de 18 años y el documento que está después de 18 años --> eso se vuelve un complique porque los números se varían y es independiente todavía no se han --> actualizado en esa parte el caso de eeuu no sé el caso médico que está un solo número --> nace con un número y ese número lo acompaña toda la vida el caso de colombia y dos números y --> eso trae algunos inconvenientes a nivel de universidades porque el pelado entra el muchacho --> entra adolescente y después cuando entra etapa adulta entonces ya tiene cédulas entonces bueno --> eso hay que adaptar los sistemas de información para eso vamos a hacer lo siguiente vamos a --> registro y vamos a escoger la función de que hice comparar fechas --> comparar fechas y en este caso entonces la deseo comparar es si la fecha de registro es mayor --> aquí están todos los operadores igual no igual mayor igual mayor menor igual y menor --> entonces voy a coger mayor greater than puedo compararla con un valor fijo en este --> caso lo voy a comprar con otra columna y la columna que la quiero comparar sería fecha de registro --> verifique que esté una nueva columna aquí al parecer vamos a darle aquí submit --> debería estar todas en true si fecha de nacimiento y con que la comparé vamos a ver --> a la misma con la misma si si si fecha de nacimiento muchísimas gracias submita aquí --> y efectivamente es como usted sí dígame quién me habló disculpe --> brenda voy para allá listo --> bueno ah listo ahí dele clic por favor y vamos a darlo operador greater dan es el tercero ese --> que es ahí perfecto ese de ahí use envalue dele clic ahí porque malo es para un valor --> fijo y estático dele clic a ese valor y escoja other column no escoja other column porque --> la vamos a comprar el con fecha de nacimiento other column y ahora en el column que le --> apareció escoja la fecha de nacimiento fecha de nacimiento dele submi si es tan amable envíe --> dele submi para que le cree la perfecto comparemos aquí entonces voy a cambiar aquí la fecha --> listo me voy a cambiar aquí a 1981 debería 1981 --> y aquí hay algo de la herramienta que --> bueno yo lo hubiese hecho como desarrollador que automáticamente cuando --> se hizo un registro ejecutar a esto creo que de pronto lo pensó porque le consumía mucho --> tiempo me tocaría volver nuevamente a hacer la evaluación con submi para que este cambio --> que hice aquí a no porque perdón en realidad no lo hizo fue porque en realidad estoy --> reemplazando después de comparar entonces me tocaría subir este valor aquí a la --> tercera posición para que reemplace y después vuelva a comparar entonces y aquí está entonces --> el por sí ahí fue un error de apreciación y eso cual viene ahora con ver a listo --> listo el otro vamos a tomar la fecha de registro nuevamente y ya habíamos visto el cambio de --> formato el cambio de formato es que tú pues quisieses pasar como hicimos el caso particular --> de que estaba año mes día y tú quisiera pasar la mes día por ejemplo pero aquí está una --> de conversión vayamos entonces y escojamos fecha de registro y vamos a convertir en --> este convertir te preguntan entonces en qué formato está el formato que debería estar --> debería ser calendario gregoñano este que está aquí pero ahora si tú quieres lo puedes --> convertir a otros tipos de calendarios aquí lo que de pronto te puede o que pronto es conocido --> ese formato juliano y ese push day es el formato que se usa para time están al final es muy --> parecido pero no es igual la diferencia fundamental es el año con el cual tú vas a sacar el --> cálculo entonces mientras si mis cálculos no me fallan el push day lo calculas con la --> fecha del mil novecientos setenta y el full and they lo comparan con una fecha que no recuerdo --> es decir para poder darte el valor en que está al final como lo que te convierte es un --> número para poder saber qué fecha es ese número entonces lo que hace es que lo resta --> con la fecha base que tiene el calendario conviértelo por favor a push day este push --> day que está aquí y dale un sube mit debería darte un número aquí lo cree sobre la nueva --> sobre aquí está este número que está aquí representa entonces la fecha pero se me hace --> porque normalmente es más grande para evitar voy a darle aquí voy a eliminar este señor --> para que no crea no no debía ser eso debí darle un creen y un colón y mandarlo a ejecutar --> nuevamente voy a correr nuevamente fecha de registro y voy a hacer estas conversiones --> que se tienen aquí entonces era en el formato de is --> con ver de --> y aquí está el push day perdón está en grego en gregoña calendario y lo puedes pasar a --> push day permíteme y hago una consulta aquí porque se me escapó la diferencia de push y --> creo que está en están es diferente a juliano se basan en lo mismo pero es diferente es --> un momentico aquí y hago una consulta rápida es un momento --> es poch está en están --> y julio --> es poch empieza en el año primer o sea para calcular lo calculas con el 1 de enero del --> año 1970 el tan están bueno pero no me dice aquí la el juliano lo calculas con el 1 de --> enero del 47 13 antes de cristo o sea ese sí listo de cristo o sea juliano viene de cristo --> para acá el push empieza el año 70 para acá y el tan están bueno es un formato específico --> que se calcula como no me dice aquí pero bueno esa es la diferencia que hay en realidad son --> diferentes los tres cuál es mejor dependiendo del caso esto sí se usa bastante porque lo --> he usado mucho lo uso más que todo el tan están porque para evitar el problema de los --> porque es que hay algunos que usan el formato mes día año día mes año entonces mejor puedes --> usar un formato de esto intermedio en que al final tú puedes convertir un époche julian o --> el tan están lo puedes convertir a la fecha que es y en el formato que tú quieras entonces te --> da mucha versabilidad utilizada en alguno de estos formatos pero bueno ahí está la función --> que no es nada del otro mundo lo que hace es que te convierte a un en este caso convertimos --> creo que el que viene te convierte julian vamos a ver aquí nuevamente aprende que --> aquí hizo fue lo mismo es un momento que ya como que me está dando hambre el almuerzo --> pero es un momento a ver aquí listo vamos aquí a hacer lo mismo que hice ahora que --> se me perdió deis aquí está y había hecho un convert crear nueva columna y le voy a decir --> que sea époche de ahí entonces su mic aquí ahora sí y creo que ahora viene --> el de convertir a ahora bueno convertamos un lado porque aquí vamos a convertir a --> tallestán en la función que viene este señor que está aquí y el nuevo formato --> hay varios formatos como dice de julian vamos a usar el de la iso y debería también darme --> un número se te insana debería darme un número también si no lo calculó es porque la fecha de --> registro no entiende el formato pero ahí aparece en blanco al parecer bueno ese ejemplo no me --> salió también ahí ahí lo que debe tener en cuenta es que hay algunas funciones al parecer --> el formato no sé no como que debió entenderlo pero como que no lo entendió y él no pudo --> convertir termino ya esta parte de day ya casi para irnos al break del almuerzo que más nos --> falta extraer parte de la fecha entonces estamos en fecha de registro extraer parte --> de la fecha aquí tengo un error no sé si sale aquí un error voy a volverme a loguiar --> no me espera un momento por favor sería tdp --> para que me cerró la sesión un momento --> y es --> qué pasa aquí no sé si ésta me funciona no --> espero un momento que está cargando