24:24
2025-01-27 13:13:59
2:06:12
2025-01-27 13:42:41
3:36:29
2025-01-28 09:08:14
4:33
2025-01-28 13:48:42
55:46
2025-01-28 14:06:51
2:02
2025-01-29 10:22:33
1:02:14
2025-01-29 10:25:14
2:10
2025-01-29 11:38:26
2:26
2025-01-29 12:03:00
1:23:37
2025-01-29 12:05:56
35:40
2025-01-29 15:01:26
1:40:43
2025-01-30 09:07:07
1:08:48
2025-01-30 11:20:20
1:10:50
2025-01-30 13:15:56
3:50:03
2025-01-31 07:20:07
Visit the Talend Big Data Integration y Ecosistema de Talend course recordings page
WEBVTT
-->
si pudiste acceder, si, bueno los restantes por favor vean accediendo al
-->
a la interfaz del Talent Data Fabric y se ubican en el Talent Data Stewards
-->
para terminar el ejercicio del día de ayer, simplemente es una algo que una
-->
temática que deseo adicionar nada más, es más del Talent File Line que del
-->
Talent Data Stewards, listo algunos ya están accediendo, Fernan en el caso tuyo
-->
accedes y efectivamente será el browser de preferencia, el de Chrome o el de Edge
-->
el que tú quieras, listo perfecto, ahí entra a la página talent.com, toca
-->
talent.com, esa que está ahí perfecto, en la parte superior derecha está un
-->
que dice Free Tial, entra ahí por favor, dale click listo, perfecto
-->
y ahora te vas a registrar en el formulario que va a aparecer ahora
-->
dale entonces, lo importante de ahí de toda la información es que coloques el
-->
nombre, el correo empresarial, en este caso te registra con el correo DAXA
-->
por favor, si le están amable, si copiaste de tu máquina a la máquina virtual
-->
quizás fue que no habilitaste, eso depende directamente del browser, si
-->
habilitaste es el portapapeles, entonces bueno, registra ahí con tu
-->
correo, entonces el browser entonces, listo, lo demás si puede ser cualquier
-->
información, lo importante que sea el correo empresarial
-->
listo, cuando actives el trial te va a llegar un correo y
-->
ese correo te va a habilitar para que escojas un tenan, escoja el que tú
-->
quieras, ya sea de Azure o de AWS, no sé si lo hace directamente y no sé si
-->
puedes acceder directamente aquí a tu correo en la máquina virtual o si
-->
quieres accedes allá desde tu máquina, como tú desees, los restantes por favor
-->
verifiquen en el Data Inventory que tenga los dos dataset que tomamos el
-->
día de ayer, que fue el de pasajeros y el de vuelos, ese dataset estaba
-->
inicialmente en un S3 y lo que hicimos fue entonces traernos ese dataset al
-->
Talent Cloud, esos son los que vamos a trabajar, es un ejemplo muy pequeño
-->
ya para terminar el tema del Data Stagworth y seguir con el tema del
-->
Talent Data Preparation
-->
Sí, te llegó el correo, Fernanda, perdón, perdón, no te escuché, qué pena, sí,
-->
te tuvo que llegar y algo así como iniciar un Lex y te va a pedir
-->
escoger el tenan, más que todo la ubicación donde van a quedar los
-->
datos, ahí puedes escoger AWS o Azure, el que tú prefieras y al final no te
-->
llega todavía
-->
No sé si me muestras, por favor, comparte ahora tu pantalla donde estás
-->
abriendo directamente de tu máquina, no sé si tú compartes la pantalla, a ver
-->
sí, muéstrame el correo que llegó
-->
el correo que te llegó a AXA, a la cuenta de AXA, sí, dale click ahí en
-->
Lex
-->
dale click ahí
-->
ahora intenta lo guiarte para ver, tú tenías, tú habías creado alguna cuenta
-->
anteriormente con Talent
-->
porque si la creaste ya los 14 días de trial se nos acabaron
-->
tú lo habías creado, sí
-->
Ah, el Data Catalog, pero no recuerdo, a ver, el problema es que los 14 días esos
-->
deja decirle a Jimena para ver si nos colabora con algún correo de la
-->
empresa de ella y podamos crear para que funcione, un momento, por favor
-->
a ver
-->
¿Verdad? Por favor Listo, ¿Eh?
-->
Hagamos algo, Fernanda, eh,
-->
vamos a terminar un ejemplito
-->
del día de ayer mientras
-->
conseguimos una cuenta y ya
-->
con esa cuenta eh que me va a
-->
conseguir ahora Jimena, podamos
-->
iniciar entonces el curso del
-->
que es el que vamos a iniciar
-->
el día de hoy, ¿OK? Entonces
-->
terminemos el el lo del día
-->
de ayer. Entonces, vamos a lo
-->
siguiente. Bueno, el día de
-->
ayer eh iniciamos con el talent
-->
data keywords. Básicamente
-->
analizamos los tres perfiles.
-->
El primer perfil era el del
-->
creador de la campaña, ese
-->
creador de la campaña tiene
-->
como función, crear el modelo
-->
de datos, crear la campaña,
-->
en la campaña tiene que
-->
definir roles, los roles que
-->
tiene la campaña, y el
-->
workflow que va a manejar y
-->
los diferentes pasos de ese
-->
workflow. Ese workflow tiene
-->
que ser asignado a unos roles
-->
específicos. Después vimos el
-->
operador de campaña que el
-->
perfil de él es principalmente
-->
listar las campañas que le
-->
fueron asignadas y más que
-->
todo poblar la campaña de
-->
tareas. Recordemos que las
-->
tareas corresponden a
-->
registros que deben ser
-->
revisados para algún proceso
-->
de calidad. Entonces, las
-->
tareas del día de ayer la
-->
hicimos tanto de forma
-->
manual como de forma
-->
automática. De forma manual
-->
creamos una tarea y de
-->
forma automática tomamos un
-->
data set y subimos y poblamo
-->
los datos de ese data set con
-->
la campaña. Y por último
-->
vimos el perfil que es el de
-->
Data Stewards, que es la
-->
persona encargada de
-->
corregir los diferentes
-->
tareas que le fueron
-->
asignadas. Esos son los
-->
perfiles básicos que tiene
-->
y es el core de la
-->
herramienta. La herramienta
-->
está más pensada, como
-->
dije el día de ayer, para
-->
la parte de curación y
-->
arbitraje de datos. Si tú
-->
la quieres adaptar para
-->
algunos elementos muy
-->
específico de tu empresa,
-->
pues hay que ver la forma en
-->
que eso se podía adaptar.
-->
Vamos entonces a terminar
-->
un ejemplo del día de ayer.
-->
Sí, dígame.
-->
Perdió, sí, sí, sí, claro,
-->
porque sí, sí, sí, claro que
-->
sí, claro que sí. Ahora sí.
-->
Perfecto. Por darme
-->
entonces. Listo, para ahora
-->
entonces, para lo siguiente,
-->
vamos al Talent Pile Line,
-->
Pile Line Designer, vamos al
-->
Pile Line Designer y vamos a
-->
agregar un Pile Line.
-->
Listo, este Pile Line,
-->
vamos a cambiar el nombre,
-->
recuerde que para cambiar
-->
el nombre, nos colocamos
-->
justamente en el nombre,
-->
el mouse, automáticamente
-->
nos aparece un lapicito,
-->
damos clic en el lápiz y
-->
cambiamos el nombre.
-->
Entonces, voy a colocar aquí
-->
como nombre, Poblar, Datos,
-->
Campaña, Aerolínea. Listo,
-->
perfecto, hacemos esto aquí.
-->
Listo, algunos todavía están
-->
accediendo al Pile Line,
-->
está cargando en algunos
-->
casos. El caso de Brenda
-->
todavía está cargando,
-->
perfecto, espero un momento.
-->
Voy un momento a tu pantalla,
-->
Brenda, que se me hace extraño
-->
que haya demorado tanto para
-->
cargar. Espera un momento.
-->
No, no quería eso.
-->
Espérate un momento, por
-->
favor. Sí, termino a veces.
-->
Listo.
-->
Bueno, listo, Brenda.
-->
Acceda para ver si le puede
-->
adicionar el Pile Line.
-->
Sí, ahí, perfecto.
-->
Cambie el nombre, por favor,
-->
a Poblar, Datos,
-->
Campaña, Aerolínea.
-->
Y vamos por ese punto que
-->
está ahí.
-->
Perfecto, continuamos entonces.
-->
Listo, perfecto. Listo,
-->
sigamos entonces. Ahora,
-->
vamos a hacer un porque
-->
resulta que los datos están
-->
repartidos en dos data sets.
-->
Entonces, para eso, para
-->
agregar los datos de entrada,
-->
vamos a darle clic aquí en
-->
add source.
-->
Y vamos a escoger en este
-->
caso, pues, el data set
-->
que le hemos llamado pasajeros.
-->
Y le damos aquí select.
-->
Y para hacer un join, vamos a
-->
darle clic aquí en el más que
-->
aparece después del de la
-->
entrada del S3 de pasajeros.
-->
Y vamos a escoger como
-->
procesamiento eh la condición
-->
que dice join. Dele aquí
-->
clic en join. Y le debería
-->
aparecer un recuadro para
-->
definir otra fuente de entrada.
-->
Entonces, dele nuevamente clic
-->
en add source y va a escoger
-->
la el otro data set con el
-->
cual vamos a hacer el join,
-->
que en este caso sería
-->
vuelos.
-->
Eh, Luis, dale clic en el
-->
más, por favor, el que está
-->
al ladito del ese ahí.
-->
Perfecto, dale clic en ese.
-->
Y coge join, la funcionalidad
-->
que se llama join. Y listo, te
-->
tuvo que haber agregado.
-->
Entonces, en la nueva fuente de
-->
entrada, escoge vuelos.
-->
Perfecto, listo, select.
-->
Perfecto, ahora vamos a hacer
-->
el proceso de join.
-->
Dele clic aquí donde dice
-->
join, por favor.
-->
Y definimos las claves de
-->
enlace para los dos data set.
-->
En este caso, entonces, me
-->
pide la left sería lo el
-->
data set que está en la
-->
parte de arriba y el ray
-->
sería el data set que está en
-->
la parte de abajo.
-->
Entonces, los data set se
-->
unen a través de una llave
-->
llamada número de vuelo.
-->
Entonces, aquí aparece el
-->
número de vuelo.
-->
Y aquí está, entonces,
-->
número de vuelo.
-->
En caso que los data set
-->
se unan a través de
-->
diferentes llaves o
-->
diferentes columnas,
-->
simplemente se agrega aquí
-->
cada una de las columnas
-->
aquí en el más que está
-->
aquí que toman la
-->
condición.
-->
Recuerde algo, esa herramienta
-->
no guarda automáticamente los
-->
cambios, sino cada vez que
-->
haya un cambio, hay que
-->
darle safe.
-->
Aquí hay una opción que
-->
dice que mantenga las dos
-->
columnas, pues, si usted
-->
desea, si no está habilitada,
-->
significa que aunque haya
-->
número de vuelo aparecido
-->
dos veces, uno en pasajeros
-->
y uno en vuelo, nada más
-->
va a salir, va a salir, va
-->
a tener como salida,
-->
solamente un número de
-->
vuelo.
-->
Y le por aquí safe.
-->
Y listo.
-->
Perfecto, listo.
-->
Perfecto, démonos para
-->
guardar ahí, ¿qué raro?
-->
Listo.
-->
Ahora vamos a escoger como
-->
destino la campaña a la
-->
cual yo quiero poblar.
-->
Entonces, para este caso en
-->
particular, dele click acá
-->
en el destino y le va a
-->
entonces unas pestañas en la parte de arriba que dice dataset y campañas, escoja campañas y
-->
selecciona la campaña. Recuerde que esta herramienta solamente permite popular campañas de tipo
-->
resolución y de tipo merging. Ahora, si desea popular los otros tipos de campañas, lo hace
-->
con una herramienta que se llama el talent studio, que ya está instalada en su empresa.
-->
Entonces vamos a escoger aquí que sería campaña, variación, aerolíneas, selecciona.
-->
Aquí tengo un problema por la forma en que trabaja. Recuerde que para poder polar los datos
-->
hacia una campaña, lo que hace la herramienta es que hace un match por nombre de columna y
-->
en este caso me parece un poco tedioso esta parte y además de eso es caso sensitivo, es decir,
-->
si la columna en alguno de los casos está mixto y en la otra está en minúscula,
-->
no va a cargar los datos. Tengo un problema que se me va a formar aquí que va a ser muy
-->
común con este tipo de herramienta, es que los nombres de columna que están en el modelo
-->
de datos quizás no coinciden con los nombres de columna del dataset. Eso es común ¿Por qué?
-->
Porque el que crea la campaña, que asimismo crea el modelo, no sabe exactamente cómo están
-->
guardadas las columnas dentro de los dataset, que pueden ser tablas o cualquier elemento que
-->
tenga. Entonces, si tú eres operador de campaña, tienes que tener la capacidad de
-->
poder mapear a los nombres correctos. Más específicamente el problema que tengo es
-->
que el nombre del cliente que está en pasajeros aparece solamente como nombre y en el modelo
-->
de datos aparece como nombre cliente. Si intentamos ejecutar actualmente el JOK así
-->
como está, vamos a tener un problema en que en el caso particular del nombre cliente que
-->
aparece en campaña y nombre dataset, ese columna no va a tener datos, se va a llenar de forma
-->
vacía, o sea va a tener datos vacíos, perdón. Para esto entonces la herramienta plantea
-->
lo siguiente, agregue aquí un nuevo elemento, un nuevo componente, dele click aquí en
-->
el más. Y ahora en este más escoja una opción que se llama field selector, este
-->
el de campo, sector de campo, esta que está aquí. Sí, dígame. Y quién me
-->
lo que pena. Alejandro, un momento, listo, vamos a ver. Listo, ¿qué no te despliega?
-->
El fiel, ah no, no te despliega ahí porque él intenta buscar datos en esa campaña
-->
y todavía no ha ejecutado, entonces está vacía y ahí se queda bloqueado. Entonces
-->
como todavía no hemos ejecutado, primero dale click ahí en el más, perfecto, field
-->
selector, el de abajo, ese, listo. Bueno, aquí tengo el field selector, este que
-->
está aquí, este componente lo que va a hacer es que va a permitirle mapear,
-->
primero, filtrar las columnas que deseas de salida y segundo, en algunos casos si
-->
tú lo deseas, cambiar los nombres de las columnas. Listo, aquí tiene dos
-->
modos, un modo simple y un modo avanzado. Vamos entonces a esta parte simple que es
-->
más sencilla. Listo, entonces dele click aquí en el modo simple que es el que
-->
está por defecto, dele click aquí en el, como para abrir una ventana y
-->
editar. Y aquí usted puede mapear los datos que desea de salida, esto es
-->
como un filter column, pero para el caso particular que va hacia una
-->
campaña, aunque la campaña tenga menos columnas que los datos de entrada, pues
-->
él solamente va a tomar los datos que mapea a nivel de nombre. Quiere decir que
-->
si entran 15 columnas y la campaña tiene cuatro, él solamente va a
-->
intentar mapear esas cuatro columnas y cómo las mapea por nombre. Entonces
-->
aquí tengo un problema que es con esta columna que se llama nombre,
-->
¿por qué? Porque esta columna nombre se llama nombre cliente en el modelo
-->
datos que definimos. Para cambiarle el nombre, seleccione, se ubica el mouse, le
-->
da click sobre, un momentito que voy a cogerle el truco aquí, aquí le aparece cuando
-->
selecciona. Aquí, ah, listo. Coloque el mouse un poquito a la
-->
derecha al final del nombre de la columna y le va a aparecer un
-->
lápizito ahí. Dele click en ese lápiz y va a especificar cómo desea mapear el
-->
nombre de la columna. En este caso la hemos llamado por estándar nombre
-->
underscore cliente y dele click por favor en el chulito para que acepte.
-->
Dele editar por favor en el click y debería parecerle que hay un campo
-->
que está renombrado. Perfecto, listo. Ahora se nos olvidó configurar la
-->
salida de la campaña, dele click por favor en la salida de la campaña que se nos
-->
olvidó configurar. Y recordará que esta herramienta permite hacer dos
-->
funciones sobre las tareas que tiene una campaña que son o insertar más
-->
tareas o borrar tareas existentes. Para este caso en particular vamos a
-->
insertar, vamos a coger el primer estado que se llama en revisión, se la
-->
vamos a asignar al dueño de la tarea que es Luis Martínez.
-->
De pronto se preguntará por qué sale por defecto no asignada, por qué quizás en el
-->
momento de poblar todavía no sabe a quién le puede asignar, porque la
-->
herramienta le permite tener un paso en el workflow asignado a varias
-->
personas, pero tú podías dividir las tareas entre esas personas que
-->
digamos están para ese paso. Esta prioridad aquí tú puedes manejarla,
-->
pues ya es algo más interno de cómo la vas a manejar, si es alta, media, baja
-->
y cómo internamente se maneja cada una de esas prioridades.
-->
Listo y aquí recuerde darle aquí safe.
-->
Y listo, ahora lo que deberíamos hacer es ejecutar entonces el job.
-->
Listo, aquí escoge la infraestructura.
-->
Bien, el tiempo de ejecución demora porque los recursos están compartidos
-->
con millones de usuarios que han creado alguna cuenta teal.
-->
Asumo que cuando usted pues adquiere una licencia de talent cloud, pues el
-->
tena en el cual reserva los recursos es privado para usted, entonces los
-->
tiempos de respuesta pues tendrían que bajar dramáticamente.
-->
Sí, dígame.
-->
Ok, vamos a ver.
-->
Sí, eso es porque, bueno, ese warning que está ahí es porque intenta
-->
buscar datos en la campaña y no hay. Dele a F5, por favor, a su
-->
ventana, de F5 recargar un momento. Váyase nuevamente a la campaña cuando
-->
termine de recargar, dele clic en la campaña y sí, sí tomo los campos.
-->
Listo, dele run ahora. Escoja, por favor, el engine tipo Spark
-->
Local y dele run, por favor. Si ya terminó, revise en su data
-->
staywars, si las tareas, por favor, si son tan amables, las
-->
tareas de la campaña de la aerolínea y deberían estar ahí.
-->
Aquí está, TAS, aerolínea. Y aquí está. Y el caso del nombre cliente,
-->
aquí me salió un error. Vea, dese cuenta que este nombre cliente no me lo tomó.
-->
Voy a revisar el modelo para ver qué pasó, cómo lo llamé. En el modelo lo llamé.
-->
El campo lo llamé.
-->
Perdón, es el modelo de la aerolínea. El nombre cliente lo llamé. Nombre
-->
underscore cliente. Voy a ver cómo salió de este lado. Qué raro.
-->
Reviso para ver el pipeline. No sé si ha salido el mismo error.
-->
Algo particular, no me tomó la configuración. No sé por qué.
-->
Dese cuenta que esta configuración no sé si fue que no la salvé.
-->
Nombre underscore cliente. Editar.
-->
Un momento, un momento. Aquí nuevamente, nombre underscore cliente.
-->
Doy el chulito. Doy editar. Y creo que no le di safe.
-->
Ahora sí. Confirmo para ver. Listo. Intento ejecutar nuevamente.
-->
El caso suyo, Brenda, seleccione todo. Listo. Ahí cambia el nombre.
-->
Y a mí fue que no le di safe. Dele ahí clic, por favor. Nombre cliente.
-->
Y tiene que darle el chulito al final porque si no, no tiene el cambio.
-->
Dele safe ahí si está mal Brenda para que tenga el cambio porque si no, no lo, no lo mantiene.
-->
Listo. Reviso ahora sí. Nuevamente, debería tener el doble de tareas,
-->
pero las tareas que agregué ahora deberían tener ahora sí el nombre cliente.
-->
Efectivamente, aquí están las tareas nuevas que agregué,
-->
pero ahora con el nombre de cliente.
-->
Mientras alguno termina para que hiciste ejemplo,
-->
porque es muy común que los nombres de los modelos no cuadren exactamente con
-->
los nombres de columna del darsteco original y eso entonces va a impedir que se complete.
-->
Jimena, ibas a comentar algo. Coloca en AWS, no hay problema.
-->
Manda, por favor, el correo y la contraseña.
-->
Ok, perfecto.
-->
Bien, ese es el ejemplo.
-->
Entonces, el caso Brenda, revisemos para ver el caso suyo.
-->
Tiene los datos, tiene todas las tareas vacías.
-->
Muestren si es tan amable el pail line.
-->
Listo, revisemos que tampoco Brenda le aquí estoy compartido su pantalla y
-->
revise para ver si quizás tiene el mismo problema.
-->
Vaya al fiel selector si es tan amable.
-->
Muestren por favor la configuración de ese fiel selector a nivel de nombres de
-->
por favor.
-->
Dele clic ahí.
-->
Ok, nombre del cliente listo del editar a editar al del cáncer ahí por favor.
-->
Si no hicimos ningún cambio, cáncel y dele clic nuevamente en campaña.
-->
Ejecute por favor nuevamente ese ese yo para ver si fue que cuando se
-->
ejecutó quizás el había un problema de configuración de la ruta nuevamente para ver.
-->
Ok, perfecto.
-->
Brenda, voy a compartir por aquí por el chat las credenciales de acceso a la cuenta.
-->
Ese sería el correo.
-->
Y este sería la clave un poquito complicada, pero no la fácil.
-->
Perfecto, me decía alguien más.
-->
Beatriz, vamos un momento a ver qué pasó.
-->
Mientras esperamos a ver.
-->
Muéstreme listo el fiel selector.
-->
Muéstreme la campaña, la campaña de clic en la campaña, por favor.
-->
Eso perfecto ahí.
-->
Ah, ok.
-->
Creo que el estado a donde usted lo envió es revisado, no en revisión.
-->
Entonces hagamos lo siguiente.
-->
Váyase al Data Stewards.
-->
Listo, momento listo, Data Stewards.
-->
Entre a las tareas de la campaña de la Euro línea, que sería la segunda, perfecto.
-->
Y en el estado, cámbielo a revisado.
-->
Y ahí está.
-->
Aclaro que este error no es tan común hacerlo porque normalmente los pasos están
-->
especificados para un grupo de usuarios.
-->
Lo que pasa es que como nada más tenemos un solo usuario, ese usuario tiene derecho
-->
a mandar los datos a cualquier estado.
-->
Entonces, pero sí, ahí están.
-->
Perfecto.
-->
Perfecto, están ahí.
-->
El caso suyo.
-->
Vamos a ver, Brenda, si están a Maldes.
-->
Vamos al Data Stewards, vamos a las campañas para ver a las tareas de la campaña.
-->
Baje para ver, por favor.
-->
Sí, ¿qué creo yo que cuando la ejecutó la primera vez me pareció que seleccionó
-->
todas las columnas del fiel selector, o sea, no salía nada para la salida?
-->
Y ahora que las habilitamos y tienen los datos.
-->
Perfecto.
-->
El ejemplo lo que buscaba era solucionar el inconveniente cuando que es demasiado
-->
común, cuando el modelo de datos no coincide con los nombres de columna y por defecto,
-->
la herramienta lo que hace es un match por nombre de columna.
-->
Entonces, con el fiel selector es posible que usted pueda solucionar ese tipo de
-->
problemas.
-->
Eso es lo que busca.
-->
Listo.
-->
Ahora terminamos, por ejemplo, de ver algunas tipo de otras campañas que están
-->
aquí, por ejemplo.
-->
Digamos, esta campaña de merging o de fusión, lo que busca este merging o fusión es tratar de
-->
encontrar registros que tengan duplicados.
-->
Y la idea es que usted pueda encontrar cuál de esos registros se encuentran duplicados.
-->
¿Este sí es merging?
-->
Sí.
-->
Entonces, por ejemplo, aquí encontró una posible, digamos,
-->
duplicidad tanto a nivel de nombre, last name y muchos elementos.
-->
Entonces, lo veo desde este punto de vista.
-->
Usted tiene varias sucursales, tiene un dataset que va a unirlos.
-->
Entonces, la herramienta lo que hace es que usted hace una campaña de tipo merging y
-->
podía encontrar qué columnas tienen datos similares o iguales y usted decidir cuál de
-->
esos datos es el que va a quedar.
-->
Entonces, eso es lo que hace un merging.
-->
Este ejemplo, no lo voy a hacer, ya no me da tiempo.
-->
Vamos con una de arbitraje, esta que está aquí.
-->
Esta de arbitraje, note que aquí hay una pregunta.
-->
El arbitraje le había colocado el ejemplo de la siguiente forma.
-->
Usted va a acoger un candidato de unos candidatos y quiere tomar unos candidatos
-->
potenciales para que hagan una entrevista.
-->
Usted lee de manera que es visual nuevamente la característica si cumple o no
-->
cumple ese candidato y aquí resuelve la pregunta.
-->
En este caso, la pregunta es sí o no.
-->
Pero usted puede hacer cualquier tipo de preguntas con opciones múltiples de
-->
respuestas. Sí, no, quizás. Bueno, ahí lo podía hacer.
-->
Entonces, cada uno usted lee y puede decir yes, este sí, este no, este yes.
-->
Y usted entonces, cuando pase la siguiente etapa, pasarán las preguntas a la
-->
cual es usted decida.
-->
En este caso se configura para lo que sean sí, pasen a la siguiente etapa.
-->
Los no se quedan entonces en la etapa inicial.
-->
Esto es lo que haría una de tipo de arbitraje.
-->
Y la otra que es de agrupamiento.
-->
Esta que está aquí.
-->
Note entonces que lo que hace este señor es que a partir de un data sec
-->
toma características similares de los registros.
-->
Eso para qué es bueno?
-->
Es bueno cuando usted quiere segmentar, por ejemplo, los datos que puede
-->
segmentar los datos a nivel de ubicación, de estrato social y tomar
-->
decisiones con respecto a esos datos.
-->
Eso es. Al final, la herramienta no es más nada.
-->
Quizás se me escapó algo por ahí, pero eso es el total de la herramienta.
-->
No es más nada.
-->
Hay que se me haya pasado.
-->
Ya es. Eso es toda la herramienta completamente perfecto.
-->
Entonces aquí dejamos el tema del talent data staywars.
-->
Vamos a seguir con el tema del talent data preparation.
-->
Y eso terminamos el día de hoy.
-->
Debería terminar hasta donde terminemos el día de hoy y mañana sí
-->
seguimos con el tema del talent big data.
-->
Con ese talent big data me va a quedar un poco corto porque anteriormente
-->
eran cuatro días.
-->
Esto solamente son tres días.
-->
Entonces voy a tratar de colapsar la mayor cantidad de conocimiento de los
-->
ejemplos que vaya a ser, porque cuando empezamos este tema ya se había dado
-->
un curso que se llama el talent data integration que ya tenía una idea de
-->
cómo funcionaba el talent.
-->
Pero bueno, ahí vemos cómo hacemos para poder transmitir la mayor
-->
cantidad de conocimiento.
-->
Vamos a pasar de al talent data preparation.
-->
Fernanda, no sé si ya pudiste acceder.
-->
Te mandé las claves por ahí.
-->
No sé si se ve al cuerpo de listo.
-->
Voy para la pantalla un momento listo.
-->
Entonces voy aquí a lo siguiente que me cargue.
-->
No sé, salió aquí un error extraño.
-->
Espérate para ver si se fue directamente listo momento.
-->
Vamos a intentar lo guiarnos nuevamente a ver.
-->
Listo, está un poco lento al parecer.
-->
Dejé intento al F5 aquí porque ya está cargando.
-->
Listo, esperemos 30 segundos para que habilite este botón y podamos acceder
-->
a toda la herramienta de talent data fabric.
-->
Me esperan por favor los demás.
-->
Bien, si desea, vamos accediendo a la herramienta que se llama talent data
-->
preparation para poder subir algunos data sets.
-->
Ya sabemos que tenemos algunos problemas a nivel de tiempo de respuesta cuando
-->
intentamos subir a la cuna de la set.
-->
Por el problemita que tengo es que estoy compartiendo el tenen con muchos
-->
usuarios.
-->
Bueno, aquí está.
-->
Continuar listo, self explorer.
-->
No, por favor, Fernanda, no vamos a ubicar aquí en el talent data
-->
preparation.
-->
Por favor, este de aquí, listo.
-->
Listo, ya tomo el control con respecto a tu máquina virtual.
-->
Bueno, vamos a continuar.
-->
Antes de ver esta parte teórica, vamos a adelantarnos un poquito con este
-->
talent data preparation.
-->
Para esto vamos a hacer lo siguiente.
-->
Todos nos ubicamos en el talent data preparation.
-->
Y note que aquí tengo, en el menú vertical, tengo entonces un par de
-->
cosas que voy a explicar, pero aquí tengo nuevamente data set.
-->
Tome este data set y abra varias páginas en pestañas diferentes para
-->
poder ir cargando los diferentes ejemplos que vayamos a hacer.
-->
Entonces, en este caso he abierto tres pestañas sobre el data set.
-->
Abra tres, por favor.
-->
Y ahora se ubica en la primera pestaña y vamos a ir subiendo un
-->
par de data set que vamos a tomar como ejemplo.
-->
Primero que vamos a hacer entonces es lo siguiente.
-->
Váyase al escritorio de su máquina.
-->
Tengo el escritorio, escritorio.
-->
Váyase a la carpeta que se llama recursos.
-->
Accede a la carpeta que se llama TDP de talent data preparation.
-->
Accede a casos de estudios y va a donde dice ejercicios.
-->
Va al ejercicio número uno que es una carpeta y por cuestión de
-->
tiempo nada más suba el primer archivo que se llama data set limpieza
-->
datos clientes versión uno punto c s v.
-->
Tome este señor y lo suelta en la pestaña que dejó abierta del data set.
-->
Abre la siguiente pestaña y va a subir ahora el archivo que
-->
se llama ejercicio dos.
-->
Los demás no lo suba porque tiene que subir de nivel la pestaña en que
-->
estábamos, estábamos en ejercicio uno en la carpeta, suba de nivel la
-->
carpeta y ahora vamos a subir ejercicio dos.
-->
Y en la siguiente pestaña sube ejercicio tres.
-->
Le voy a pedir el favor que mientras de pronto haya algún tipo de
-->
sororidad muy particular de pronto con un problema con alguien que no
-->
le funcione algo, vaya subiendo usted estos archivos, el cuatro,
-->
el cinco y el seis de tal forma en que no perdamos mucho tiempo en
-->
esperar a que no suba para hacer el ejemplo.
-->
Deje esas ventanas ahí mientras va subiendo.
-->
Y mientras usted hace eso, no sé si alguno me voy a comentar algo.
-->
Ok, ¿Quién va a lo Fernando así? Sí, ah Brenda, perdón, que peta. Brenda, listo,
-->
entonces hagamos lo siguiente.
-->
Data set, listo, sí, ya creo que abrió ya la siguiente pestaña que tiene,
-->
la siguiente pestaña del browser.
-->
Dele click ahí, ah no, pero cierra, cierra esas pestañas que están hacia
-->
adelante, entonces es mejor para evitar que tenga tantas.
-->
Dele nada más abierta una, listo, listo, cierre también esa.
-->
Váyase al menú vertical que está al lado izquierdo y se ubica en
-->
data set y le da clic derecho.
-->
Dele open new tab, ese que está ahí.
-->
Haga eso dos veces más y listo, perfecto.
-->
Váyase a la segunda pestaña, la primera pestaña que abrió, nueva.
-->
Y ahora sí se va al explorador de archivos de Windows, a las carpetas,
-->
perfecto, y ahí entra la carpeta ejercicio uno y sube el primer
-->
archivo, el que es .csv, suéltelo acá, listo.
-->
Deja eso ahí, quietecito, váyase a la siguiente pestaña y sube ahora
-->
ejercicio dos, suba de nivel, la suba de nivel si es tan amable en
-->
el programa de archivo, se ubica en la carpeta ejercicios, dele atrás,
-->
no, ese no, dele atrás un momento, exactamente.
-->
Ahí coge ejercicio dos y lo suelta de este lado.
-->
Abre ahora por favor la última pestaña y ahí va subiendo
-->
ejercicio tres, a medida que vayamos, haya un break o algo
-->
particular, tenga presente en que vaya subiendo los temas.
-->
Si hay alguno que está demorando mucho tiempo, entonces por favor lo vuelve a
-->
subir nuevamente porque los errores que presentan es específicamente porque no
-->
te veo poco recursos, porque esto es compartido y limitado la cantidad de
-->
procesamiento que tenemos.
-->
Listo, perfecto, entonces ahora, perfecto, gracias a usted, listo.
-->
Sigamos entonces, vayamos ahora a la parte teórica de cuál es la función
-->
principal de este Talent Data Preparation, mientras usted va
-->
subiendo esos archivitos y después nos vamos a la parte práctica.
-->
Lo hice de esta manera porque ya tengo experiencia en que perdemos mucho tiempo
-->
subiendo y en realidad no se aprovecha el tiempo en su totalidad.
-->
Entonces, voy a, listo, ya estoy compartiendo la pantalla,
-->
confirmo, sí, perfecto, estoy compartiendo aquí la pantalla.
-->
Y vamos a iniciar entonces con este Talent Data Preparation, listo.
-->
¿Cuál es el objetivo principal de esta herramienta?
-->
Bueno, resulta en que usted puede tener los datos estructurados.
-->
Y aclaro que el día de mañana voy a hacer una introducción y para hacer una
-->
discusión interesante sobre las diferencias de datos estructurados,
-->
no estructurados y semiestructurados.
-->
Eso lo hacemos mañana con el Big Data.
-->
Es una característica fundamental en que para mí no lo veo tan fundamental,
-->
pero, bueno, es una característica que se especifica en el Big Data y
-->
que mañana la vamos a ver en su totalidad.
-->
Entonces, como le decía, sus datos ya se encuentran estructurados,
-->
pero quizás esos datos te necesitan ser formateados o quizás los datos que
-->
tienes necesitas hacer unos cálculos específicos.
-->
¿Para qué debes hacer esos cálculos o para qué hacer ese formateo?
-->
Para adaptar los datos a cierto tipo de herramientas,
-->
herramientas que pueden ser Power BI,
-->
herramientas que pueden ser de Tableau,
-->
herramientas que pueden ser para la parte de Machine Learning o
-->
herramientas que pueden ser para la parte de elementos de visualización que tiene Quilk.
-->
Entonces, al final hay que formatear los datos o hay que hacer algunos
-->
procesos de fórmulas matemáticas para llegar y tener,
-->
digamos, ese formato específico a donde lo quiero llevar.
-->
Listo, esto es muy común para los analistas de datos y para los
-->
científicos de datos, que normalmente, aunque tú le das los
-->
datos para que ellos trabajen, quizás hay que hacer un formateo a esos
-->
datos. Ahora, ¿cuál es la idea fundamental de la herramienta?
-->
Partiendo del hecho en que quizás ese analista o ese señor o ese
-->
científico de datos no tiene el tiempo para esperar a que un
-->
profesional del área y cuando hablo profesional puede ser un desarrollador
-->
de T.L. o un developer de database que te pueda formatear los datos
-->
así como tú quieres. Como no se puede dar lujo de esperar y perder el tiempo
-->
a que este señor le haga eso porque puede estar seguramente muy ocupado.
-->
Entonces, se crea esta herramienta de preparación de datos que cualquier
-->
persona, abro comillas doble, con conocimientos básicos en
-->
tecnología, podía preparar los datos según a él más le convence.
-->
Entonces, en esta nueva ola que mencioné el día de ayer, que son
-->
los ciudadanos de datos y que se habla mucho del autoservicio que tú
-->
mismo puedas configurar los datos o que tú me ayudes a corregir los datos por
-->
un problema de calidad que tengo, se crea en ese tipo de herramienta.
-->
Aclaro que estas herramientas, pues las vas a poder encontrar en otras
-->
plataformas, sea WS o Azure. El caso de Talent la llama
-->
Talent Data Preparation, que es una herramienta netamente de autoservicio.
-->
Dentro de las ventajas que plantea la herramienta, porque estoy tomando
-->
directamente toda esta teoría del tutorial que tienen ellos, te ayuda
-->
a agilizar esos flujos de trabajo. ¿Por qué? Porque ya no hay dependencia sobre
-->
algunos elementos que tú puedes hacer. Entonces, ya no dependes del developer,
-->
ya no dependes, por ejemplo, de estar de tele para que te los formatee como
-->
tú desees. Ahora tú mismo lo puedes formatear y eso te agiliza, te quita
-->
algunos cuellos de botella para esos tipos profesionales que se pueden
-->
dedicar a hacer otras cosas. Como su nombre lo dice, habilita el
-->
autoservicio, porque evidentemente tú lo puedes hacer. Y aquí hay algo un
-->
poco más de publicidad. Dice que da conectividad a cualquier fuente de datos.
-->
En realidad, pues eso es más de publicidad. La teoría, o sea, el
-->
tutorial dice que tiene conexión a 600 fuentes. Yo en realidad no he
-->
contado si en realidad son 600 fuentes, pero si te permite conectar a
-->
Azure, a Bigtable, a Databricks, a muchos tipos de plataformas que son muy
-->
comunes, en realidad lo que he hecho sí me permite la conexión. No he hecho,
-->
digamos, conexiones sobre algunos sistemas que no son muy conocidos,
-->
porque no trabajo con ellos. Pero bueno, la teoría dice que te ofrece 600
-->
conectores a diferentes fuentes de datos como tal. Ahora, esto es lo que
-->
plantea, digamos, el tutorial de los beneficios principales, lo estoy tomando
-->
literal, esta parte del tutorial. Una es que te ofrece la integración y
-->
catálogo de datos. Hay que entender ese catálogo, porque quizás ya hemos
-->
visto que hay unas herramientas que te permiten catalogar. La primera en
-->
el ecosistema de talent se llama Talent Data Catalog, pero yo puedo hacer
-->
catálogo de datos con Talent Data Inventory. Y esta herramienta lo dice,
-->
bueno, pero yo entonces esta herramienta también me permite catalogar. Bueno,
-->
en realidad ese catálogo de datos que llama él es que ahora cuando tú subas un
-->
data sec al Talent Data Preparation, él te va a catalogar las columnas según
-->
unos datos semánticos que tenga. ¿Qué son datos semánticos? Son datos que
-->
puede ser una expresión regular o quizás un diccionario, que eso fue lo
-->
que vimos ayer. Entonces, ya por defecto, ayer les mostré, por ejemplo,
-->
que él tiene una cantidad de datos semánticos y buscamos, por ejemplo,
-->
animales. ¿Qué era un diccionario? Un diccionario que es para talent,
-->
simplemente un listado de nombre de animales. Entonces, hace lo mismo que el
-->
Talent Data Inventory, que en pocas palabras, cuando tú subes el data sec, él
-->
intenta verificar a qué grupo pertenecen las columnas que están
-->
ahí en cada uno de los elementos. Entonces, te la puedes clasificar como email, como
-->
código postal, como animal, dependiendo de los datos que estén ahí. A eso es lo
-->
que él llama el catálogo de datos, en realidad, o la catalogación que se hace.
-->
No es nada el otro mundo, simplemente es eso que se cataloga en
-->
las columnas según los datos semánticos que estén establecidos.
-->
Aquí se hace, sí, un descubrimiento y perfilamiento de datos. Si recordarás
-->
el día de ayer cuando hablé de curación y le dije que cuando se hace
-->
análisis de datos a nivel de calidad, hay dos procesos fundamentales. Uno que se
-->
llama limpieza, que es sinónimo de curación, y el otro que es la parte de
-->
perfilamiento. El perfilamiento es encontrar anomalías. Entonces, la
-->
herramienta te va a permitir hacer tanto la parte de perfilamiento de
-->
encontrar anomalías en los datos, así mismo te va a permitir hacer
-->
limpieza de esos datos según lo que tú requieras. Te da, entonces, enriquecimiento de conexión
-->
porque ahora también te va a permitir hacer joins las herramientas. Entonces,
-->
tú puedes tener diferentes cuentas de datos y hacer los joins y te hace,
-->
entonces, que tú puedas automatizar las tareas. Ya les voy a decir cómo es
-->
ese cuento de automatización como tal. Eso es lo que plantea, en realidad, y lo que
-->
tiene el Training Data Preparation. Y aquí simplemente unos conceptos clave que
-->
vamos a ver y que vamos a trabajar durante el día de hoy. En primer
-->
concepto, el concepto pues de data sec, que básicamente data sec que son datos
-->
en crudos, que puede ser tabla o puede ser un archivo en formato
-->
estructurado. Hay una parte conceptualización que hay algunos
-->
autores que no definen un data sec para datos no estructurados. Por
-->
ejemplo, una imagen. Hay algunos autores que sí, pero eso es netamente a nivel
-->
conceptual. Pero normalmente los data sec que tú manejas tienen una estructura y
-->
al final todos estos data lay, data lay house, que lo voy a discutir el día de
-->
mañana. Al final, aunque los datos estén no estructurados o semi
-->
estructurados, siempre, siempre se busca estructurar los datos. Entonces,
-->
un data sec puede estar en diferentes formatos. Aquí te voy a aclarar algo,
-->
hay algo en el tutorial que no cuadra, en el sentido de que el tutorial
-->
plantea en que los data sec pueden estar en formatos estructurados de tipo
-->
CSV, pueden ser tablas, pueden ser archivos XML y pueden ser archivos
-->
JSON. Las pruebas que he hecho con archivos JSON no me ha funcionado. Es
-->
decir, no está leyendo de forma correcta los archivos en formato
-->
JSON. Entonces, ahí hay algo que no está, digamos, que no es tan real con
-->
respecto a lo que dice el tutorial. Por otro lado, entonces, ese es el concepto
-->
data sec, que seguramente tengo el concepto data sec y data source. Data
-->
sec es el dato, como tal, el conjunto de datos. Y data source sería la
-->
fuente donde obtengo ese datos. Ahora viene un concepto que se llama
-->
preparación. La preparación lo que hace es que vincula una receta con un
-->
data sec con el objetivo de hacer algún cambio en el formato o calcular
-->
algún algo matemático que quieras, algún tipo de operación matemática
-->
que tú requieras. Entonces, cuando hablamos del concepto de
-->
preparación es que yo incluyo una receta para un conjunto de datos o un
-->
conjunto de funciones que tú haces. Digo conjunto porque yo puedo tener data sec y ya puedo hacer
-->
join sobre data sec en la herramienta como tal. Ahora preguntarán ¿qué es una
-->
receta? Bueno, una receta son un conjunto de funciones que tú haces. ¿Qué
-->
tipo de funciones? Funciones que ya están preestablecidas en la
-->
herramienta. Esas funciones te vas a dar cuenta que son prácticamente las
-->
mismas que te mostré ayer en el data stack worksheet, que no entramos en
-->
detalles porque te dije, no tiene sentido que te explique dos veces lo mismo.
-->
Entonces, las funciones que están establecidas allá en el data stack
-->
work son las mismas que vas a encontrar en el data preparation con una
-->
pequeña diferencia que el data preparation tiene más, mientras que
-->
el data stack work tiene una pequeña parte que tiene el data
-->
preparation. Listo. Entonces, esa receta define un conjunto de pasos de esas
-->
funciones que están establecidas y al final ¿qué es una función? Pues
-->
una función es una acción que vas a aplicar sobre una fila, sobre una
-->
columna o si tú quieres sobre el data sec completo. Ahí te coloco un ejemplo
-->
que es remover filas vacías, cambiar tipos de datos, etcétera.
-->
Listo. Entonces, eso es simplemente el talent data preparation. No sé de
-->
forma cómo lo vas a incluir dentro de tu diario de vivir, si es que te
-->
gusta hacer esta parte, pero es una herramienta que pues está dirigida más
-->
para un usuario final en el cual no tiene unos conceptos tan técnicos, no
-->
tiene conceptos a nivel pues que son requeridos para otras herramientas
-->
más especializadas, conceptos a nivel de programación y conceptos a nivel por
-->
ejemplo de SQL. Entonces, es más para un usuario final con ese tipo de
-->
características. Te voy a mostrar la herramienta y tú
-->
analizarás en qué caso pues tú la podrías usar en tu diario de vivir.
-->
Listo, aquí no hay más nada. Ah, bueno, aquí se me escapaba, aquí agrego el
-->
concepto de tipo semántico que es el mismo que vimos en el talent data
-->
stewards. Son exactamente lo mismo y lo que tú hagas, los tipos semánticos
-->
que tú hagas en el data stewards se comparten con lo del data preparation
-->
y al revés, los que hagan el data preparation también se comparten con el
-->
data stewards. Listo, entonces ahora sí vamos, voy a acceder aquí a la
-->
herramienta, por favor. Verifiquemos antes de empezar si el primer
-->
data sec se subió de forma correcta. En el caso mío no se subió. Todavía
-->
está procesando. Por experiencia he visto que cuando ya demora más de
-->
minutos creo que el data inventory va a fallar y no lo va a procesar. Entonces
-->
voy a hacer lo siguiente, voy a abrir otra pestaña aquí y lo voy a intentar
-->
abrir nuevamente. Voy por acá
-->
y voy a intentar entonces, perdón, era en el dataset.
-->
Voy a intentar subirlo nuevamente porque tuve un error.
-->
El tipo de errores no salen a nivel ya de una licencia que adquieras y que
-->
hayas cancelado, esto no suele. Esta herramienta al igual que la
-->
data stewardship te permite utilizarla en formato híbrido. Híbrido quiere
-->
decir que puedes instalar a nivel on-premise esta herramienta
-->
como tal.
-->
Bueno, a ver a quién le subió. Alejandro veo que le subió. Fernanda parece que le
-->
subió y veo que Beatriz tiene un error, no sé, salieron como 50 errores.
-->
Revisa Beatriz por favor si te subió el primero que se llama data
-->
del limpieza. No sé si se te subió ese señor.
-->
Ok.
-->
Permíteme e intento acceder para ver.
-->
No te reacciono, permíteme e intento acceder a tu máquina un momento.
-->
Reviso para ver.
-->
Listo, entonces. Bueno, vamos a ver.
-->
Listo, hay que volverse a lo guiar entonces.
-->
Bueno, subió. Si sube correctamente, normalmente como máximo dos minutos. Si
-->
pasa de dos minutos por experiencia en esta versión estrial, creería que no
-->
va a subir de forma correcta en el talent data inventory.
-->
Listo, esperemos que está demorando para cargar. Creo que sí, está demorando
-->
para cargar. Un momentito por favor que, Listo, no sé por qué está
-->
demorando tanto para cargar.
-->
Listo, voy aquí al preparation data set. Sí, te subió Beatriz, lo que es que
-->
como que si te subió, subiste todo. Excelente. Estaba bien como que había un
-->
error ahí, no sé, extraño. Bueno, vamos entonces. Vamos entonces y
-->
continuemos por favor. Bien, entonces aquí tenemos el concepto de preparación
-->
que fue el que te mostré a nivel teórico. Una preparación
-->
relaciona un data set con una receta. Vamos aquí a la parte de
-->
preparaciones y te aconsejaría, por buena práctica, que crees un folder y
-->
ese folder puedas organizar las diferentes preparaciones. En este caso,
-->
por cuestión de tiempo, vamos directamente a crear las preparaciones aquí,
-->
directamente. ¿Por qué el folder? Porque quizás puedas compartir tu tenant,
-->
esté compartido con diferentes usuarios y puedas ver las preparaciones de los
-->
demás. Entonces, sería muy interesante que puedas crear un folder
-->
que analice tus preparaciones o de los proyectos que tengas formados para
-->
que de pronto no haya, digamos, algún error ahí o que te
-->
puedas confundir en un par de cosas. Sería, en este caso, como cada,
-->
digamos, estamos en todos o que estamos en el mismo tenant físicamente,
-->
estamos en espacios separados a nivel de almacenamiento de lo que
-->
vayamos a hacer. Listo. Entonces, vamos a agregar aquí una preparación.
-->
Y, como te decía, primero vamos a colocar entonces el nombre de la
-->
preparación. Entonces, vamos a llamarla Dataset Curación.
-->
Sería, como buena práctica, que le agregues al Dataset la fecha en el
-->
cual hiciste la preparación, perdón, la fecha en la cual hiciste. Entonces,
-->
voy a colocar aquí 2025. Sería 0128. Y, si deseas, vamos a colocarle
-->
Underexcord y vamos a colocarle aquí Preparación. Ya tú el estándar,
-->
si colocas un sufijo o un prefijo, entonces ya tú decides. Preparación.
-->
A colocar así. Preparación. Lo llamé Dataset Curación. Todos separados por
-->
tipo Snake Case. Y le coloqué la fecha actual.
-->
Como la preparación tiene que estar ligada a un Dataset, entonces vamos a
-->
buscar el Dataset que se llama Dataset Limpieza Datos Clientes.
-->
Nota que te pueden aparecer en el caso mío deshabilitados. ¿Por qué
-->
deshabilitados? Porque el Data Inventory no lo progresó de forma correcta. Entonces,
-->
voy a escoger este señor que se llama Dataset Limpieza y le digo Submit.
-->
Perfecto. Aquí. Y entramos entonces a la pestaña y a la interfaz, perdón,
-->
a la interfaz del Talent Data Preparation. Listo, creo que todos estamos aquí.
-->
Bien, entonces, aquí tenemos primero el nombre. El nombre lo puedes cambiar
-->
exactamente como he cambiado el pipeline. Cada vez que colocas sobre el
-->
nombre, aquí le puedes cambiar en el lápizito. Permíteme y compruebo un
-->
pequeño bot que tenía esto. El bot que tenía hasta el año pasado era que
-->
cuando intentaba cambiar el lápizito, la primera vez no me funcionaba. Me
-->
tocaba hacerlo dos veces. Voy a intentar hacerlo aquí y probarlo para
-->
ver si se corrigió ese bot. Entonces, voy aquí. No lo hago usted acá, es
-->
simplemente para probar. Voy a cambiarlo aquí. Underscore 1, voy acá
-->
y fíjese que no lo cambió la primera vez. Hago la segunda vez.
-->
Listo, al parecer ese bot no ha sido corregido. Entonces, tenga en cuenta que
-->
hay un pequeño bot ahí cuando se cambia el nombre porque la primera vez tú lo
-->
cambia directamente aquí. Hay que hacerlo dos veces para cambiar el nombre. Listo,
-->
entonces de este lado izquierdo recordará que una preparación asocia
-->
un dataset con un conjunto de recetas. En este lado izquierdo va a colocar las
-->
recetas que hagamos sobre este dataset. Aparece vacío porque no hemos
-->
agregado ninguna. Del lado en la parte del medio te hace entonces, te
-->
toma lo siguiente, te toma un row con, perdón, un número de fila y te
-->
aparece las columnas que hayan sido especificadas dentro del dataset como
-->
tal. Recuerde que este dataset está copiado en el Talent Cloud. Significa que
-->
si tú tienes, por ejemplo, un S3, tienes un archivo un S3 o lo tienes,
-->
por ejemplo, en Azure y lo quieres preparar, primero tienes que pasarlo en
-->
realidad. Primero se pasa al Talent Cloud y el Talent Cloud se procesa.
-->
Ojo con la parte de seguridad que en ese paso de pasarlo del Azure o S3,
-->
pasarlo acá al Talent Cloud. Bien, pero esto está aquí a nivel del Talent Cloud,
-->
está en el, digamos, en el tenan, a nivel de almacenamiento que tengo aquí.
-->
Y aquí aparecen los nombres de columnas. Note entonces que cuando hablamos de
-->
catálogo de datos pasa lo siguiente. Aquello dataset que no tiene los tipos
-->
de datos, ya sea una de ese tipo, XML, un JSON, un CCV, pero te aclaro que el
-->
JSON y el XML no me han funcionado aquí en esta herramienta. O sea que en
-->
realidad no le he preguntado soporte, voy a preguntarle, ahora que no se me
-->
olvide. Pero el del CCV recordará que los nombres de columnas no está,
-->
los datos no están tipeados. Es decir, no tienen un tipo de datos. Entonces lo que
-->
hace la herramienta es lo siguiente. Toma un preview y ese preview puede
-->
ser inicial, es decir, por defecto toma un preview de 10.000 filas e intenta
-->
con los datos que están ahí definir a qué tipo de datos pertenece. Aclaro
-->
que ese preview tú lo puedes cambiar. Tú te preguntarás para qué
-->
cambiaría un preview. Lo que hace es que la herramienta se puede equivocar en
-->
definir el tipo de datos. Imagínese la siguiente forma. Imagínese que SID
-->
hasta la fila 10.000 son puros números, pero en la fila 10.001 aparecen letras y
-->
números. Por ende, como él solamente toma un preview hasta el 10.000, él
-->
catalogará el dato como integer. Pero en realidad tu dato debe ser textual. ¿Por qué?
-->
Porque tiene caracteres alfanuméricos. Entonces hay que tener en cuenta que
-->
aunque aquí se haga una clasificación, ten presente que esa
-->
clasificación puede haber un error, dependiendo de la cantidad de datos que
-->
tenga tu dataset. El caso si tú deseas cambiar como tal el tipo de datos,
-->
sencillo, tú te vas aquí, por ejemplo, aquí donde está el menú hamburguesa, de
-->
cada una de las columnas, le das click aquí y tú fácilmente, aquí está
-->
column, aquí te dice el tipo de datos, integer, le das click aquí y tú
-->
puedes cambiar el dato. Lo puedes cambiar ya sea a un tipo de datos,
-->
digamos que llama java básico que es boolean decimal o lo puedes cambiar a
-->
un tipo autosemántico. Nota ahora que nombre te aparece como texto, pero está
-->
clasificado como first name. Esto aplica exactamente como trabaja el
-->
data inventory, que es tomó esos datos que aparecen en esa columna y da
-->
la casualidad que tiene un tipo autosemántico en el cual, por lo
-->
menos, el 60% del preview coincide con esos datos que están en el
-->
dado semático llamado first name y entonces lo clasifica como first name. De
-->
igual forma tú puedes cambiar esa clasificación si tú quieres. Entonces
-->
da de cuenta lo siguiente, ahí tenemos cuatro columnas, la primera
-->
clasificada como integer, la segunda textual pero clasificada como
-->
first name, la tercera columna apellido textual pero clasificada
-->
como last name y la última clasificada como day y entonces eso es lo que
-->
llama la teoría al catálogo de datos. Perfecto, eso no hay nada de otro mundo,
-->
listo. Vamos a ver, vamos a analizar cómo funciona en realidad la
-->
herramienta y después nos vamos a este menú que es un poco extenso. Este
-->
menú de que estoy mostrando aquí que está del lado derecho, en
-->
realidad va a tener las mismas funciones de talent data stewards pero aquí se
-->
agregan unas nuevas. Vamos a hacer algo sencillo entonces, vamos a concatenar el
-->
nombre con el apellido porque quizás el analista o el señor el científico de
-->
datos necesita que esos datos estén concatenados. Entonces qué es lo que
-->
tú haces, primero vamos a aplicar una función, cuando aplicas una función
-->
tienes que decidir si la función vas a aplicarla a la columna, a la fila o al
-->
dataset. Nota que del lado derecho te aparece entonces columnas row y table
-->
indicando que funciones aplican a columna, a fila o a tabla.
-->
Listo, ahora cuando seleccionas una columna automáticamente la herramienta
-->
te dice, bueno mira ve, que fue lo que te mostré teóricamente, tú puedes
-->
hacer perfilado de datos. Entonces en ese perfilado de datos recuerden que lo
-->
que buscar son anomalías que pueden estar en los datos. Por defecto cada vez
-->
que yo selecciono una columna se habilita del lado derecho un menú con
-->
varias pestañas en que te va a mostrar ciertos datos que te pueden ayudar a
-->
ti a encontrar ciertos errores de calidad que pueda tener. Cuando el
-->
dato es numérico lo que hace es que te da un diagrama de barra de
-->
cuántas veces aparece ese datos. Por ejemplo te está diciendo aquí que el valor 1
-->
aparece una vez, entonces ahí te da un diagrama de frecuencia mostrándote para
-->
ver cuántas veces repite ese dato. Si vas en ese menú sobre la columna ID y
-->
vas aquí donde dice VALUE te va a sacar unos datos que son sumamente
-->
importantes para cualquier herramienta de calidad de datos, que es contarte
-->
cuántos registros hay, cuántos distintos hay, cuántos duplicados hay,
-->
cuántos válidos, cuántos vacíos, cuántos inválidos hay y si es numérico
-->
te da algunos elementos de mínimo, máximo, media y desviación estándar.
-->
Lastimosamente no alcanzamos a ver el talent data quality pero con cuando
-->
el dato es numérico tú puedes encontrar con la desviación estándar
-->
que puede haber un error en los datos. Eso se aplica más que todo a
-->
valores numéricos y eso para que sería viable. De pronto tú tienes una
-->
tabla de precios y con esos datos tú puedes encontrar algunos errores que
-->
puedan tener presente esos datos, que puede ser porque se calculó mal o
-->
porque simplemente un error de digitación.
-->
Si vamos aquí donde dice PATRONES, lo que te hace esto técnicamente es un
-->
análisis de patrones, entonces te está diciendo cómo se están presentando
-->
los datos en la columna. Aclaro que los que está presentando aquí son
-->
del preview, es decir si tú tienes un millón de datos y tu preview es de 10.000
-->
te está mostrando lo que está lo que consiguió en los primeros 10.000
-->
datos. Quizás se equivoque porque porque tienes más datos en el preview.
-->
Entonces aquí el patrón está mostrando, mira aquí tengo el 9 y 9
-->
indica dos números, estoy diciendo es para ver acá. En esa columna
-->
encontré los siguientes patrones, hay columna que tienen dos dígitos y
-->
hay columna que tiene un dígito. Y al final aquí donde dice ADVANCEDS
-->
aquí te va a mostrar una gráfica cuando es numérico que te va diciendo
-->
entonces algunos medios máxima de división estándar y que la pueda ver de
-->
manera gráfica. Si cambias de columna y te vas al mismo menú
-->
te va a cambiar un poco las estadísticas, las gráficas. Por ejemplo,
-->
esta sería un poco la misma gráfica, siendo que en la muestra diferente aquí
-->
me está diciendo ISABEL cuántas veces aparece.
-->
Si vas aquí a un devalue te aparece entonces las mismos datos, si vas a
-->
patrones está diciendo mira lo que ahí está son pura palabra, es decir no hay
-->
espacio en blanco. Entonces él mide las palabras por espacio en blanco. Cada
-->
espacio en blanco le indica una palabra. Entonces ahí notas entonces que
-->
ahí no hay valores numéricos, hay pura letra lo que está ahí. Y al final
-->
te muestra un poco el ADVANCED no se muestra cuando es texto. Eso es
-->
lo que se hace y de ahí viene ese concepto de perfilamiento porque te da
-->
algunas opciones que son características, algunas herramientas de
-->
calidad para encontrar algunos errores. Lástima no vimos ese curso para poder
-->
ver con estos datos cómo se pudieran encontrar errores.
-->
Bueno, pero entonces vayamos a lo siguiente. Vamos a ubicarnos entonces
-->
en la columna en la cual yo quiero hacer una función. Para este caso en
-->
particular por favor ubíquese en la columna nombre
-->
y yo deseo concatenar esa columna nombre con la columna que se llama
-->
apellido. Voy a hacer una tarea básica. Váyase por favor aquí al filtro que
-->
es este que está aquí, a este filtro de aquí y coloque la palabra concatenate
-->
concatenar en inglés concatenate y debería aparecerle conca conca
-->
concatenate aquí está en inglés y debería aparecer una función que dice
-->
concatenate with. Escojamos esa función por favor
-->
y esta función cómo trabaja. Bueno, en primer lugar vas a encontrar algunas
-->
funciones específicas que te van a permitir crear el resultado en una
-->
nueva columna. Entonces si tú habilitas aquí habilítelo por favor
-->
este chulito que está ahí para que sea nueva columna. Significa que lo que voy
-->
a hacer va a crear y no va a afectar la columna original.
-->
Ahora, la función cómo trabaja. En este caso si tú quieres le puedes
-->
colocar un prefijo antes de la concatenación. Si quieres lo dejas en
-->
blanco y vas a encontrar muchas funciones que hacen lo siguiente. Las
-->
funciones las puedes aplicar con otra columna o con un valor fijo. En
-->
este caso si coloco otra columna tendríamos que elegir las columnas que
-->
están en el traseque con el cual quiero hacer la operación de
-->
concatenación. En este caso deseo otra columna y voy a elegir que la deseo
-->
concatenar con la columna de tipo apellido. Te pregunta ahora si vas a
-->
colocar un separador. En este caso deje un espacio en blanco por favor
-->
para que no se unan los dos columnas
-->
y te pregunta si el separador cómo lo vas a colocar. Entonces aquí te
-->
pregunta el separador lo colocó si las dos columnas tienen datos o lo colocó
-->
siempre. ¿Qué pasaría aquí? Deberías escoger la primera opción. ¿Por qué?
-->
Porque si no tengo nombres e intento concatenar me va a quedar un espacio
-->
en blanco y creo que entendemos lo que nos pasa con el espacio en
-->
blanco cuando hacemos un word. Entonces buscamos por una
-->
columna y si la columna tiene un espacio en blanco al inicio o al final
-->
intentamos buscar por ese criterio de búsqueda no lo encuentran. Entonces
-->
dejamos que solamente, estoy diciendo aquí si dejo bot values solamente me
-->
va a colocar el espacio en blanco solo si las dos columnas están no son
-->
vacías. Y aquí por último te coloco un sufijo.
-->
La herramienta en la mayor parte de funciones te permite hacer un preview.
-->
Ese preview te va a mostrar cómo quedaría los datos después que termine
-->
de ejecutar pero sin hacer el cambio permanente. Dale por favor en preview
-->
y nota que te agregó una nueva columna llamada nombre onderscore
-->
apellido. Si tú das clic fuera en cualquier parte ese preview se pierde
-->
no te queda como receta porque simplemente estabas probando para ver
-->
cómo te quedaban esos datos. Entonces para hacer este cambio permanente
-->
dale aquí en Submit por favor
-->
y ya esto hace permanente, bueno permanente no tanto porque lo puedo
-->
cambiar el cambio como tal. Nota ahora que la receta
-->
te agrega una nueva función. Si te equivocas después del Submit,
-->
del lado de la receta vas a encontrar en la parte del nombre de la
-->
receta vas a encontrar un bote de basura. Si ese bote de basura le doy click ahí
-->
automáticamente borro como tal esa receta o esa función más
-->
específicamente perdón de la receta. Listo hagamos entonces lo siguiente
-->
ahora. Este primer ejemplo lo que busco es que entienda en su
-->
completitud cómo es la herramienta cuál es la función específica. Ya
-->
vamos ahora sí a los especializados que son las funciones pero la idea es
-->
que entienda. La herramienta maneja algo que se llaman las versiones.
-->
Se te recomienda en que uses versiones. ¿Por qué usar versiones? Primero porque
-->
puedes ver el estado de cambios que ha tenido tu preparación.
-->
Segundo porque quizás tus preparaciones tengas algunos jobs en
-->
estudio que dependan de esa preparación y al cambiarla te pueda
-->
dañar lo que te funcionaba anteriormente. Una lamentable preparación
-->
es que tú puedas ver qué tantos cambios tengo y que si yo deseo puedo
-->
ejecutar las preparaciones en la versión que yo desee.
-->
Sería recomendable entonces que usaras versiones. Esas versiones tú las
-->
vas a encontrar en la parte superior derecha al ladito del room vas a
-->
tener ahí con una especie de un botón que botón circular que tiene una
-->
especie de libros ahí. Dale clic ahí a ese señor que está ahí
-->
y al darle clic te da un menú para agregar una nueva versión
-->
en la parte superior derecha al ladito del room al lado izquierdo del
-->
le das clic ahí y te agrega entonces dale adversion y solamente estas
-->
versiones no puedes simplemente lo que te permite es agregar una descripción y
-->
lo ideal es que en la descripción especifica los cambios que tiene esa
-->
receta. Entonces aquí podemos colocar se concatenó
-->
el nombre y el apellido
-->
y le digo adversion. Se coloqué en la descripción se concatenó el nombre y
-->
el apellido.
-->
Si quieres volver al menú le da nuevamente clic en el en el botón de
-->
la versión y te vuelve al menú de las funciones.
-->
Haga lo siguiente entonces borre por favor la columna nombre cómo
-->
borramos una columna se va aquí al menú hamburguesa de la columna y dígale
-->
delete column
-->
note que automáticamente se agrega eso en la receta
-->
borre aquí apellido
-->
y por favor cambie el nombre de la columna de nombres apellido
-->
cámbielo rename column
-->
cámbelo a nombres espacio completo
-->
y le da subtin.
-->
Para probar este concepto de versiones que solamente lo voy a hacer en este
-->
primer ejemplo ya en los demás me voy a dedicar exclusivamente a la
-->
parte de funciones. Quiero que con este ejemplo entienda por completo la
-->
herramienta. Vamos a agregar una nueva versión aquí
-->
especificando los cambios que hicieron. Voy a agregar aquí una
-->
nueva versión y voy a decir se eliminaron
-->
las columnas nombres y apellidos y se cambió
-->
el nombre de la columna a nombres completos y le digo adverso.
-->
Es importante en que cuando vaya a crear ese tipo de recetas sea lo más
-->
eficiente posible trate de no repetir funciones. Por ejemplo hay personas
-->
que hacen lo siguiente toman por ejemplo una columna la convierten a
-->
tipo título primero después la convierten a tipo mayúscula y después
-->
otra vez la convierten a tipo título. Ahí está repitiendo muchos pasos.
-->
Entonces tiene que buscar que estas recetas sean lo más eficiente
-->
posible. Aclaro que la herramienta no tiene ningún, bueno a nivel de tutorial
-->
no tiene un máximo de filas con las cuales va a trabajar. El máximo de
-->
filas solamente es para el preview con lo que va a hacer la parte de definir
-->
los tipos de datos. Eso es nada más el preview pero la
-->
herramienta no tiene ningún tipo de, digamos de límite para el tamaño que
-->
tengan estos de hacer. Esto que hemos hecho es muy sencillo entonces he
-->
creado, he tomado un dataset, he creado una preparación. La preparación se basó
-->
en un dataset, después creé una receta con un conjunto de funciones, después
-->
creé un conjunto de versiones que sería interesante que las manejara. Ahora
-->
aclaro en este punto en que está aquí esta receta no ha cambiado el
-->
dataset original. Lo que me está mostrando es cómo quedaría después de
-->
ejecutar esta receta. Entonces vayamos a lo siguiente ahora. Si tú
-->
quieres hacer los cambios necesitas ejecutar la preparación. ¿Cómo la
-->
ejecutas? La ejecutas acá en el run. Vete acá a este run, por favor.
-->
En el run, por favor. Sí, efectivamente es superior derecho, exactamente, es
-->
superior derecho.
-->
Este run que está aquí. Entonces, ¿qué hace con este run de acá? Con este run de
-->
acá puedes entonces definir el destino que va a obtener después de ejecutar
-->
con el dataset original la receta. Una es que tú puedes mandarlo al mismo
-->
dataset que no es tan buena práctica. No es tan buena práctica perder el
-->
original, porque si hay un error en la receta se me puede dañar y cómo
-->
recupero nuevamente. Entonces para cualquier, digamos, trabajo que tú
-->
vayas a hacer o proyecto no es buena opción modificar original, quizás
-->
sacar una copia, pero mantener siempre el original por si nos
-->
equivocamos en algún paso. Si quisiese, por ejemplo, cambiar original
-->
aquí le diría que me lo mandará un dataset existente, pero deseo hacer lo
-->
siguiente o puedo hacer lo siguiente, mandarlo a un nuevo dataset
-->
o si quiero puedo mandarlo a una tabla.
-->
Pero en este caso vamos a hacer lo siguiente. Váyase a esta opción que
-->
se llama descarga directa, que es la última,
-->
que aquí no lo mandaría directamente al talent cloud, sino que
-->
va a permitir descargarlo en tu máquina. Dale por favor next.
-->
Aquí te piden el formato de salida, en lo cual tú lo quieres. Aquí sí lo
-->
he probado y se ha funcionado. Note que aquí hay dos formularios, que dos
-->
tipos de datos que quizás ya los ha visto, que es Abro y Parquet. Ese
-->
Abro y Parquet lo vamos a discutir en el Talent Big Data que coge
-->
relevancia para algunos tipos de motores, como el caso de Hi, Redshift, pero
-->
bueno, en este caso mandalo a un CSV. Ese Abro y Parquet lo explico mañana y
-->
aquí tú puedes colocar las características del CSV, cuál va a ser
-->
el carácter de separación, si vas a usar algún carácter para
-->
aquellas columnas que tenga el mismo carácter de separación. Bueno, en
-->
este caso vamos a verlo. Aquí next. No vamos a cambiar nada. Y aquí hay
-->
algo que tiene lo siguiente. Note que aquí está un keep row order,
-->
mantener el orden que está deshabilitado por defecto. Bueno,
-->
¿Qué es lo que hace? Ese keep row order lo que hace ese señor es que
-->
se mantenga el orden de los registros tal cual como vayan entrando.
-->
Dirás, ¿Pero y eso qué tiene que ver? Tiene que ver mucho.
-->
Si yo mantengo el orden de los registros,
-->
hay un problema en que le queda complicado a la herramienta hacer
-->
paralización. O sea, permíteme y hago acá lo siguiente.
-->
Voy a hacer acá un diagram, un diagram más que un diagramita aquí, para que me
-->
entienda la importancia de ese señor. Eso más que todo aplica cuando el
-->
data sec tiene una gran cantidad de datos. Entonces vamos a lo siguiente.
-->
Sí ve mi pantalla, ¿Verdad? Imagínese que este es el data sec original y
-->
este data sec tiene una gran cantidad de registro. La gran cantidad de
-->
registro es netamente subjetivo y depende netamente de la empresa. Mientras que para
-->
una empresa 10 millones de registros puede ser mucho, quizás para una
-->
empresa puede ser muy poco. Entonces esa gran cantidad termina siendo
-->
subjetivo. Pero véalo a este punto de vista. Voy a colocar aquí 10 millones
-->
de registros. Vamos a suponer entonces que tú lo que deseas hacer, la función
-->
que deseas hacer es sencilla para el caso en particular, que es tomar el
-->
nombre y ese nombre lo voy a concatenar con el apellido. Eso es algo netamente
-->
sencillo. Pero entonces pasa lo siguiente. Eso como es sencillo y si yo tengo
-->
una gran cantidad de datos yo podría pensar en lo siguiente. Dividir este
-->
registro por decirte algo en n partes. En este caso lo voy a dividir en tres
-->
partes, parte 1, parte 2 y me queda en tres partes. Ahora al dividirlo en
-->
tres partes puedo hacer lo siguiente, lo que uno llama programación
-->
concurrente, que lo hace internamente. ¿Qué haría? Tomo que un núcleo del
-->
procesador, un core, procese este señor que está aquí. Otro core a nivel de
-->
hardware procese este señor de acá y otro core a nivel de hardware
-->
procese esto acá. Partiendo del hecho entonces tú reducirías el tiempo de
-->
procesamiento a una tercera parte. ¿Por qué? Porque estás paralizando. Ahora,
-->
¿Qué tiene que ver esto que te expliqué con esa columna? Entonces pasa lo
-->
siguiente. Si la columna mantiene, si yo mantengo el orden de las filas
-->
como está establecido, queda muy complicado hacer esta paralización.
-->
Significa que los registros le toca manejarlo uno por uno, un solo core.
-->
Tú dirás, ¿En qué casos eso es conveniente? Imagínate que tú tengas
-->
tengas ventas por ciudad y entonces tú quieres ventas por ciudad de cada
-->
país. Entonces tú quieres rankear por cada país
-->
cuál es la ciudad que más vende. Entonces ahí tiene que estar ordenado
-->
y en ese orden puedo hacer un rankeo. Ahí no sería buena opción pues ahí tendría
-->
que mantener el mismo orden. ¿Por qué? Porque para poder clasificar y si están
-->
ordenados de mayor a menor sé que el primer registro correspondería al
-->
primer elemento del listado de lo que más venden. Entonces ahí cambiar
-->
ese orden de fila te puede dañar los datos. Pero en este caso en que los
-->
órdenes de fila no tienen nada que ver la fila anterior con la fila que
-->
y mantélo desordenado. ¿Para qué? Para que sea más eficiente. Aclaro que cuando
-->
hay casos en que la herramienta se da cuenta en que el orden tiene que
-->
prevalecer, te coloca automáticamente y te habilita esto de manera
-->
automática. Pero para eso es que sirve el key row order fuera lejan. Si en
-->
realidad que el orden no afecta la función que tú vayas a hacer,
-->
procesa los datos sin los filas ordenadas. ¿Por qué? Porque va a ser
-->
más eficiente porque lo que hace es que el código que se genera para
-->
procesarlo paraleliza la función y eso va a hacer que reduzca el tiempo de
-->
respuesta de procesamiento. Para eso es que sirve eso entonces.
-->
Aquí te piden seleccionar el room profile. Básicamente lo que hace este
-->
señor es que él elige la infraestructura donde va a ejecutar.
-->
Por defensa tengo este par aquí que este par es el que vamos a ver el día
-->
mañana y cómo se usa este par que tiene mucha relación con el
-->
talent big data, este par que está aquí. Pero bueno solamente tengo una
-->
infraestructura donde lo puedo ejecutar solamente a modo informativo con el
-->
TMC, los que vayan a ver, los que vayan a administrar talent, hay una
-->
herramienta que se llama el TMC y en el TMC puedes agregar más
-->
infraestructura. Es más puedes agregar infraestructura a nivel local. Puedes
-->
agregar entonces a nivel de máquina tuya. Defines allá una infraestructura
-->
y hace que se ejecute contra tu máquina.
-->
En este caso pues nada más tengo una en una versión real, nada más tengo esto.
-->
Listo aquí no hay más nada aquí simplemente debe un room por favor.
-->
Listo aquí se empieza el proceso de ejecución.
-->
El tiempo aunque sea muy pequeño recuerden que como esa infraestructura
-->
está compartida con millones de usuarios, por eso es que el tiempo de
-->
respuesta tarda mucho.
-->
Si quizás solamente modo informativo tengas problemas con los tiempos de
-->
respuesta a nivel del SAS, o sea software como servicio que tenemos el
-->
talent data preparation, puedes instalar esto a nivel local y ejecutarías
-->
directamente con la infraestructura tuya. No habría ningún problema. De aquí
-->
ya terminó, demoró un segundo bastante para la cantidad de elementos que
-->
hay y aquí tú puedes descargar el archivo.
-->
Aquí se descarga, voy a ver y debería estar el archivo aplicando la receta.
-->
Y aquí está el archivo. Con la receta preparada y aquí ya puedes tomar estos
-->
datos y llevarlo a un PowerBeam, llevarlo a un tablú o algo que tú
-->
quieras. No veo que hay alguno que lo descargaron y están revisando a ver cómo
-->
les quedó. A verlo con el Notepad si deseas para ver algún Notepad ahí y
-->
debería mostrar los datos que está ahí. Es un registro muy pequeño,
-->
solamente son 20 registros. Bien, continuamos entonces. Esto es lo que
-->
llamaba preparación, recetas. Esas recetas pueden ser cambiadas en el
-->
tiempo, bueno tú puedes eliminar, quitar y había una parte de
-->
automatización que decía. Bueno, vamos a ver cómo es ese cuento de
-->
automatización. Vayamos entonces a lo siguiente,
-->
veamos nuevamente la herramienta, devolvamos a donde estábamos
-->
en la preparación, no en el Room, en esta preparación de aquí.
-->
Ah, perdón, no. Vayamos, espera un momento a ver que se me escapa de aquí.
-->
Solamente de aquí me hace falta ver cómo integro el dataset, o sea como yo,
-->
nada más. Lo demás pues son las funciones que están acá, pero ya esa es
-->
la esencia de la herramienta. Vayamos a donde dice dataset, vayas al
-->
data preparation, por favor, data preparation.
-->
Sección de dataset.
-->
Y ahora escoja, seleccione el mismo dataset que tuvimos ahora que es
-->
datos limpieza a los clientes, coloque el mouse sobre el nombre y
-->
automáticamente, Brenda por favor, donde dice dataset, ahí lo puede decir
-->
exactamente, ahí. Coloca el mouse sobre el nombre del dataset llamado
-->
dataset limpieza y note que le aparece un pequeño menú, entonces ese menú le
-->
aparece como un tubo de ensayo, ese tubo de ensayo lo que hace es ver los
-->
datos, o sea es una tablita y puede consultar los datos, si quieres da
-->
clic ahí y eso lo que te va a hacer es que te va a consultar los datos que
-->
tiene el señor. Recuerde que los datos que te va a mostrarles es un
-->
preview, máximo de 10 mil filas. Puede haber más datos, sí, pero
-->
nada te muestra un preview. Y para el dato informativo, el preview máximo
-->
puede ser 100 mil, listo, de ahí no puedes cambiarlo. Me devuelvo nuevamente
-->
donde estaba. El otro elemento que está ahí como si fueran unas olas, lo
-->
que te permite que con ese dataset puedas crear un pipeline, el
-->
pipeline fue el que hicimos a nivel de data steward y que fue el último
-->
ejemplo que hicimos al principio. Y te aparece esa parte de química que se
-->
escapa, no me acuerdo cómo se llama eso en química, escapó como se llama y te
-->
permite crear una preparación. Dale clic ahí un momentito en esa
-->
preparación.
-->
Dale clic ahí. Y ahora pasa algo en particular,
-->
es que tú puedas con un mismo dataset escoger una preparación ya que hayas
-->
hecho. Para este caso no subimos todos los ejemplos que tenía, pero la idea es
-->
la misma, es decir, si yo intentaría subir un dataset con alguna
-->
característica, la herramienta va a buscar para ver cuáles preparaciones
-->
digamos son compatibles con eso que ya tú tienes. Entonces, si yo
-->
quisiera subir un dataset y usar una receta, déjame irme por este lado. Me voy por
-->
el dataset y abro las preparaciones y él me va a permitir entonces abrir
-->
el dataset con una preparación. Dele por favor aquí open
-->
aunque sea el mismo registro que va a ser, va a aplicar todas las funciones que
-->
tenga la receta ese dataset. Y eso es lo que él habla de automatización.
-->
Tendrás preguntas, muchas preguntas que dirás, pero esta automatización termina
-->
siendo semiautomática. ¿Por qué semiautomática? Porque me toca entrar en
-->
la herramienta, tomar el dataset, escoger la preparación que más se acomoda y
-->
volverlo a ejecutar. Sí señor, si tuviste esa visión es
-->
así, es decir, si lo hago de esta forma no es tan automatizado el
-->
proceso, es semiautomático porque hay unos elementos manuales que me toca
-->
hacer. Entonces, si deseamos automatizar el proceso resulta que
-->
la herramienta que se llama Talent Studio, que las voy a mostrar el día de mañana
-->
un poco ahí para que vea, pero esa herramienta te permite conectarte a
-->
las preparaciones que tú tengas definidas. Entonces allá puedes crear un
-->
job, ese job lo que hace es que tiene unas entradas, define la preparación
-->
con la versión que tú quieras y haces lo que tú deseas con esa
-->
preparación. Entonces en realidad la forma automática es utilizar el Talent
-->
Studio con la preparación que definí con el Talent Data Preparation, porque si
-->
la hago de esta forma termina siendo un poco semiautomático. Listo y en
-->
realidad esto es la herramienta, aquí no hay más nada, es decir, esto es el
-->
core de la herramienta en el cual yo tenga unos dataset en el cual me toca
-->
formatearlo para adaptarlo a alguna salida, sea un tablú, sea un PowerBee, lo
-->
que tú quieras o quizás adaptarlo para entenderlo mejor en un formato
-->
diferente como tú desees. Tú tomas ese elemento, aplicas una serie de
-->
funciones y ejecutas esa preparación que tú hiciste. Las
-->
preparaciones que están en las recetas, perdón, las recetas están
-->
compuestas por las funciones que te define la herramienta. Esto no es más
-->
nada, esto es el core de la herramienta. Vamos entonces a ver las diferentes
-->
funciones en cómo las puedes aplicar en tu diario Vivid. He cambiado el orden de
-->
este curso porque empezaba con algunas funciones que son mucho más básicas
-->
y después me iba a unas funciones que él llama avanzadas.
-->
Hablaremos que quizás para los que estamos metidos mucho en este medio
-->
de tecnología o de pronto los que hayan utilizado y Excel que es una de
-->
las mejores herramientas que tiene Office quizás no sea tan avanzado pero
-->
es lo que él llama avanzada. Entonces, cambié el curso para empezar con las
-->
avanzadas y las básicas pues si da tiempo la vemos, si no pues por lo
-->
menos dimos la avanzada y como es básica pues asumo que debería ser
-->
más fácil de entender.
-->
Sí o sí el curso termina el día de hoy hasta donde les cansemos a hablar
-->
porque no puedo darme el lujo de tomar unas horas para las big data que
-->
es el curso digamos que es el fundamental y además que con el big
-->
data me va a quedar unas horas faltantes.
-->
Bueno perfecto entonces vayamos a lo siguiente, vayamos nuevamente al
-->
menú y vamos aquí desde el menú vamos al dataset, vamos a crear una
-->
una preparación desde el dataset, vamos a escoger por favor busque el
-->
dataset que se llama ejercicio número uno, selecciona, coloca el mouse por
-->
encima del nombre y abre por favor para que le dé una preparación aquí.
-->
Aquí te piden si deseas usar una, bueno en caso de pronto no te aparezca y de
-->
pronto porque he usado aquí, si no te aparece él aquí en add
-->
y te va a llevar al menú que estábamos anteriormente.
-->
Listo, ubiquemos en el data preparation, perfecto, vayamos a
-->
en el menú izquierdo vertical.
-->
Seleccionamos y buscamos el dataset llamado ejercicio uno y colocamos el
-->
mouse por encima, nada más por encima de ejercicio uno, no le damos clic no
-->
colocamos el mouse y ahora nos aparece un menú del lado derecho,
-->
escogemos la tercera opción que es como no acuerdo cómo se llama la
-->
botellita esa en química, le da clic aquí y me le da aquí adicionar
-->
y le va a crear una nueva preparación aquí.
-->
Ah perdón, sería entonces el sí, espérate para ver si fue que me
-->
equivoqué, vamos el ejercicio, no está el dos verdad?
-->
Permíteme y confirmo el ejercicio dos para ver si da si no me toca
-->
subir ejercicio un, ah sí, sí, sí, sí, sí, sí, espérate para ver si no me
-->
equivoqué, perfecto, gracias por la observación,
-->
sí, efectivamente, ejercicio dos.
-->
Entonces busque ejercicio dos en su dataset y aplica lo mismo que
-->
intentaba explicar ahora,
-->
le dice aquí add,
-->
perfecto, listo, gracias por la observación, cambia el nombre, recuerde
-->
que hay un pequeño bot, cómo cambia, vamos a cambiar acá en el lápizito,
-->
creo que ya por experiencia no hago nada aquí, le doy nuevamente aquí clic
-->
porque sé que no me lo cambia, entonces le doy nuevamente clic y ahora sí lo
-->
voy a cambiar, lo voy a llamar ejercicio dos y he adoptado
-->
snake case, sería entonces underscore y le termino con el prefijo
-->
preparación, esto lo voy a hacer nada más una vez porque para aprovechar el
-->
tiempo al máximo listo y aquí ahora tampoco me lo cambió porque no me lo
-->
cambió, no sé si es que raro, vamos a ver nuevamente
-->
preparación
-->
bueno ahí sí lo lo corrigí
-->
bueno vamos entonces creo que sí todos estamos ubicados, ahora por favor
-->
hagamos lo siguiente, el primer ejercicio lo vamos a aplicar sobre la
-->
columna que se llama nombres, entonces ubique aquí en nombres por favor y
-->
vamos a aplicar en este caso funciones de columnas, aquí cuando
-->
usted selecciona una columna por defecto en el menú derecho de las
-->
funciones, le aparece una sugerencia que podías aplicar o que son comunes
-->
de aplicar al tipo de dato en que está, este nombre hace el text te
-->
quieren algunos tipos de funciones como por ejemplo magic fit que vamos a
-->
ver ahora, etcétera, pero para no perdernos y seguir un orden baje por
-->
favor y se ubica en el menú que se llama en el menú de stream
-->
este que está aquí, creería que hay algunas funciones ya que con
-->
solamente el nombre podíamos ya inferir qué es lo que hace por ejemplo calcula
-->
y lay pues lo que te va a hacer es que te va a calcular el número de
-->
caracteres que tiene ese stream, change to lower te va a cambiar a todo en
-->
minúscula, change to title va a colocar la primera letra de cada
-->
palabra en mayúscula y el change to uppercase lo que va a hacer es que te
-->
va a cambiar a mayúscula, solamente para probar vamos a cambiar el nombre
-->
a tipo title entonces vamos a darle click a la función change to title
-->
case por favor
-->
note que ya empieza un menú muy parecido en que hay algunas funciones
-->
que te van a permitir crear una nueva columna el resultado de la función no
-->
deseo hacer eso entonces lo que voy a hacer es que tengo el menú preview
-->
que es para ver, para testear y tengo el menú submit por favor entonces
-->
dale submit directamente para que automáticamente aplique el cambio
-->
recuerda que ahora cada función que voy agregando acá se va agregando en la
-->
receta de este lado note que automáticamente ya cambia
-->
perfecto listo, vayamos ahora y nos ubicamos en la columna que se llama
-->
url recuerde que estoy concentrado más que todo en las funciones ya la
-->
parte esta de cómo funciona el preparation ya más o menos lo explique
-->
inicialmente vayamos nuevamente al menú de stream
-->
y aquí hay algo que es stream perdón sería es stream
-->
listo y busque la función que se llama contain text pasa lo siguiente
-->
entonces tienes que tener en cuenta en que esto es algo que te va a pasar
-->
mucho con las herramientas de talent en forma general que al estar basada en
-->
java son sensibles a mayúsculas y minúsculas donde quiero llegar es lo
-->
siguiente vamos a buscar aquí me pide si deseo hacer la búsqueda basado en
-->
un valor fijo o en otra columna ya te había explicado un poquito cuando
-->
cuando hicieron la parte de concatenación que algunas opciones que
-->
ofrecen esto en este caso vamos a coger un valor fijo
-->
y vamos a buscar entonces si contiene la palabra con pero hagamos algo
-->
colóquela en c mayúscula y lo demás en minúscula dele por
-->
favor aquí en preview para ver que da y de igual forma aunque haya
-->
funciones que no te tenga el menú crear columna ellos
-->
automáticamente te crean una columna este es el caso particular de esta
-->
función en que al darle al ejecutarla me va a crear una nueva columna y me va
-->
a volver un booleano para especificar si lo que estás buscando fue correcto
-->
se encuentra o no se encuentra como sub cadena dentro la cadena textual note
-->
entonces ahora en caso particular este que tiene aquí no la encontró y
-->
partiendo del hecho en que la primera fila si la contiene por qué no
-->
la encontró porque por defecto aquí hace edición de la herramienta por
-->
defecto él busca en caso sensitivo significa que tendría que buscarla con
-->
esta función exactamente como está si le aquí damos le damos entonces con y
-->
le damos aquí un preview debería tener un true en la primera y ahí está
-->
entonces esto lo agregué para que tenga presente en que cuando buscas
-->
valores
-->
por funciones de manera estática él te va a buscar en caso insensitivo
-->
seguramente te preguntarás cómo haría para buscarla en caso insensitivo es
-->
decir que me da lo mismo si está con c mayúsculo o c minúsculo bueno lo
-->
que sí es claro es que esta función no te ayuda en esa parte listo
-->
bueno deja entonces cuando busco de manera fija me va a buscar un texto
-->
de manera insensitiva de la que un sumi para que nos quede ahí ya la función
-->
hecha realizada ahí
-->
ahora resolvamos entonces inmediatamente cómo haría para resolver
-->
entonces el problema de buscarlo en caso insensitivo entonces para
-->
buscar en caso insensitivo ya esto lo hayamos hecho en el tal en data
-->
stay wars vamos a usar una función que es un
-->
entonces vamos a buscar un ser aquí
-->
pero esta función se ha hecho un momento no me va a dar lo que quiero
-->
espera ese momento no que venga esta función creo que no no eso lo hago
-->
después esa función se hace porque me tocaría reemplazar entonces no deseo
-->
reemplazar ahora le digo la función porque haría que hacerlo con una
-->
expresión regular entonces voy siguiendo con el otro ejemplo mejor
-->
ahí qué pena y pensé que me iba a funcionar esta vez no bien vamos entonces
-->
a lo siguiente vayamos nuevamente nos ubicamos en la columna ure l y vayamos
-->
entonces a espring
-->
vayamos entonces aquí hay una función que dice extraer el valor por
-->
índice en este caso el índice de iría es decir posición desde qué
-->
posición tú quieres sacar elementos entonces vayamos a lo siguiente
-->
vamos aquí vamos a suponer que te piden extraer el dominio de la ure l ok
-->
este lo podía hacer de diferente forma una función que te puede ayudar es esta
-->
estamos en ure l y vamos a escoger la función de string que se llama extraer
-->
el valor por índice y dele clic por favor
-->
aquí en el tú hay diferentes
-->
formas de sacar los elementos por defecto tenemos aquí un 5 por ejemplo
-->
si yo ejecuto esta función con tu índice lo que haría sería que va a
-->
sacar desde la posición 0 hasta la posición 5 es la que está por defecto
-->
si utilizo otra función que es su en esta que está aquí
-->
aquí me permite buscar de dónde yo quiero hasta el final por ejemplo si
-->
yo digo si es como tu en él me va a decir oye dónde quieres empezar
-->
voy a decirle quiero empezar desde la posición 2 y quiero terminar en la
-->
posición 5 tú puedes ahí sacar esto pocas palabras
-->
una sub cadena ahora quiero aplicar lo siguiente como quiero sacar los
-->
primeros tres elementos en este caso tomando como referencia en que las los
-->
dominios tienen tres elementos yo podía hacer lo siguiente ahora podía
-->
hacer lo siguiente voy a cambiar aquí la función
-->
y voy a decir que quién me habló
-->
de atriz vamos a ver ya voy a ver listo de atriz notarás que en la
-->
parte derecha hay como una especie de una flechita que es la punta la
-->
flecha que está al final en la barra no sé no sé si en pantalla
-->
de mi pantalla esta flecha que está aquí
-->
las bandes aquí perfecto
-->
entonces aquí tú puedes sacar desde una posición de la posición 0 hasta el
-->
final o puede sacar de la posición que tú quieras hasta la posición final
-->
que tú quieras entonces vamos a sacar simplemente al revés quiero con la
-->
opción from n before entonces aquí voy a colocar 3 y
-->
explico cómo funciona ese n before entonces tengo el dominio que es
-->
example punto con permítame y te lo hago acá tengo aquí example punto con
-->
de ello oye me favor posiciones de tres posiciones antes del final o sea 1
-->
2 3 se coloca aquí y a partir de ahí saca de ahí hasta el final entonces lo
-->
que pasa es que hace el índice de derecha izquierda y después saca los
-->
elementos hasta el final entonces le voy a decir aquí 3 con la función from
-->
n before le digo toma tres elementos de derecha izquierda y de esa posición
-->
saca los elementos al final le voy a decir que cree una nueva columna y le
-->
voy a enviar aquí un submit y debería sacar el dominio
-->
bueno en este caso debió ser 4 al parecer entonces me parece bien voy a
-->
como es 4 podía hacer dos cosas una sería borrar acá la función o la otra
-->
cambiarla acá y decir que yo puse tres yo puse tres no en realidad fue que yo
-->
que me equivoqué de 13 tenía 2 le dio nuevamente sumi para que lo vuelva a
-->
ejecutar con el cambio y debería mostrarme
-->
ahora sí entonces cuando hay un error en alguna función o tú elimina la
-->
función o la puedes corregir en la receta y la vuelves a ejecutar nuevamente
-->
en caso de cualquier cambio lo cambia el lado de receta y le da nuevamente
-->
sumi para que tome el cambio que usted requiera si en realidad lo que
-->
desea es eliminar pues baja el bote basura y lo elimina vamos ahora a una
-->
función interesante esta sí es interesante porque puede hacer un
-->
formateo de los datos de una manera muy sencilla y esto es esta función le
-->
ayudaría a solucionar el problema de ayer cuando ayer teníamos unos
-->
teléfonos que tenían unos formatos y dije que era complicado quizá con
-->
esta función te sale para formatear esos teléfonos en la forma correcta
-->
vamos a escoger nuevamente nombres
-->
ok y vamos a buscar dentro de las funciones de string
-->
la que se llama magic fill o llenado mágico
-->
perfecto magic fill ahora mire lo que quiero hacer entonces colocó
-->
inicialmente lo que deseo hacer para que me entiendas el ejemplo nota que
-->
los nombres está primer nombre tengo a john john dole tengo a jane smith y
-->
deseo formatear los nombres de la siguiente forma quiero que los
-->
nombres ahora me aparezcan de esta manera primera letra del nombre punto
-->
espacio apellido por lo tanto así me quedaría john dole y j smith me
-->
quedaría de esta manera j es mi primera letra del nombre punto espacio
-->
apellido deseo formatear esto podía salir con un regex pero hay cosas que
-->
con el regex te pueden salir muy complicadas entonces el magic fill te
-->
ayuda a lo siguiente el magic fill te pide máximo tres
-->
entradas para entender qué es lo que tú vas a hacer pero en teoría con
-->
tres entradas mínimos que haga él debería entender qué es lo que va a
-->
hacer entonces primero en el input número uno
-->
qué va a hacer vas a colocar un registro que pertenezca a tus datos tal
-->
cual como está en este caso va a colocar john o tache dole que aparece
-->
en este listado de acá y voy a colocar en el output como
-->
quiero que salga eso quiero que salga ota punto dole me pide por lo menos
-->
tres entradas entonces escojo el siguiente que es jane es mi uno que
-->
esté ahí en el registro y acá aquí me equivoqué porque coloqué m j
-->
jota punto es mi listo y me pide bueno bueno en realidad me pide 2
-->
voy a voy a colocarle el 3 por si acaso sería el 3 sería robert
-->
johnson en realidad perdón me pide son tres como dos perdón como mínimo acá
-->
me coloco r punto johnson eso que me pide los mínimos es para poder
-->
entender que desea hacer
-->
aquí por defecto está crear nueva columna dale aquí un preview
-->
y debería cambiar aquí está a brown mike wilson e davis entonces él
-->
aprende en función a los input que tú le colocas si quizás no todos los
-->
datos salieron de forma correcta lo que debe ser es agregar más input para
-->
que él pueda aprender como esto es lo que quiero del aquí su
-->
y si quieres verifica por favor
-->
que estén los nombres tal cual como quería la salida entonces esto lo
-->
podía aplicar para eso los teléfonos en que estaba en un formato y lo
-->
podía convertir en el formato con esa función específica magic film bueno
-->
continuó entonces ya creo que todos lo hicieron perfecto vamos ahora sí a
-->
lo siguiente vamos
-->
si desea hagámoslo con este vayamos a url por favor
-->
y vayamos nuevamente a la extreme que está aquí es serín
-->
para funciones extreme
-->
y aquí me da un match pattern decir de la función que viene después del
-->
magic field que es match pattern dele clic acá
-->
bueno este nuevamente viene con funciones con expresiones regulares y
-->
entonces aquí donde dice pattern es un patrón
-->
de consulta mira lo siguiente en primer lugar aquí tengo este patrón que
-->
dice a zeta bueno va a colocar lo mejor de este lado para lo que creo
-->
que hay algunos que ya entienden esta parte de presiones regulares pero de
-->
un momento por favor momento que me abrió aquí la lupa esta de aquí
-->
la lupa qué pena
-->
no me está saliendo momento aquí sale tengo lo siguiente ahora
-->
tengo esta expresión regular que dice a zeta zeta entonces este la de los
-->
corchetes lo que están haciendo es que buscan un patrón a nivel de
-->
aquí buscaría todo lo que tenga este patrón de dar a la zeta entonces aquí
-->
buscaría en pocas palabras todas aquellas columnas que tengan letras ya
-->
sea en minúscula o en mayúscula si tiene un número significa en que no
-->
sé en que no no no no pertenece al patrón aquí hay unos patrones
-->
establecidos y lo que te va a buscar es para ver qué columnas coinciden
-->
digamos con qué patrón ahora vamos aquí donde dice odors
-->
y haga lo siguiente vamos a buscar porque yo puedo hacer búsquedas con
-->
expresiones regulares vamos a buscar ahora si los que empiezan por con en
-->
minúscula y le da un preview por favor
-->
un preview y aquí este patrón no coincide porque como no tengo ninguna
-->
expresión aquí entonces aquí estaría buscando todos los que tengan
-->
exactamente a perdón todos los que exactamente sean igual a con pero de ese
-->
cuenta que ahí no son iguales a con se da cuenta entonces aquí voy a
-->
colocar expresión regular debería permitirme aquí punto asterisco
-->
aquí sería el momento y hago la expresión regular aquí asterisco
-->
punto y algo aquí por favor un momento y la expresión a perdón es que aquí
-->
tengo el valor igual y tenía que ser reyes qué pena aquí se me escapó qué
-->
pena qué pena ya como que vamos qué pena ahí fue listo aquí cuando cogí
-->
odors aquí hay varios operadores y aquí en realidad he estado buscando por
-->
que sean iguales que coincidan exactamente y por eso fue que nos dio
-->
aquí me interesa bueno aquí está nuevamente los que contengan está lo
-->
que inicien lo que finalicen pero me interesa los reyes expresión regular
-->
aquí busqué por con que debería funcionarme aquí nuevamente como voy
-->
a colocar aquí preview no sé si me toco ahora sí qué pena listo qué pena
-->
retomo nuevamente retomo nuevamente este match panel se parece mucho al
-->
contén siendo que el contén que vimos el contén vida que la contenga en
-->
cualquier parte la versatilidad que tiene el match father es que tú puedes
-->
buscar una una sub cadena ya sea que añadir que sea igual que inicie que
-->
finalice o que use un reyes esa es la diferencia con el contén porque
-->
este tiene más versatilidad cambia por favor este con hace mayúscula por
-->
favor y dale nuevamente preview si es tan amable
-->
nota que pasa lo siguiente pasa lo mismo que con el contén está en caso
-->
sensitivo entonces pero como es una expresión regular la expresión regular
-->
tiene algunos elementos que te van a permitir buscarlo en casos
-->
insensitivos en pocas palabras vas a colocar la expresión de la siguiente
-->
forma en una expresión regular cuando vayas en caso de tipo colocas
-->
paréntesis colocas signo en signo de
-->
esta ocasión le colocas y de insensitivo y si es con la expresión en
-->
pocas palabras vas a colocar este con con seis mayúsculas así te
-->
quedaría la expresión de esta manera y le das preview y debería ahora
-->
independiente que la c esté en mayúscula o esté en minúscula
-->
debería traerte voy a probar para ver voy a darle entonces a este
-->
señor voy a decirle signo de interrogación y le doy un preview
-->
y ahí está el true moral en pocas palabras
-->
si vas a hacer una búsqueda de algún carácter y lo vas a evaluar en caso
-->
insensitivo te recomiendo que uses esta función que es match pattern en
-->
la configuración de regex y le colocas al principio estos carácteres que
-->
indican en que la va a buscar en modo insensitivo esa es la moraleja con
-->
respecto cuando vayas a buscar en caso insensitivo te voy a mandar esto
-->
aquí por el chat para que lo tengas ahí lo guardes en alguna parte no sé
-->
que sería la expresión regular para buscar en caso insensitivo de te
-->
encontrar en la herramienta me parece bueno no yo voy a decir que es poco
-->
ético pero bueno este contén que está aquí contén text sería exactamente la
-->
misma función en el patrón contén de acá esta función match pattern en el
-->
order acá en el operador el contén es la misma contén ahí va a aparecer el
-->
caso de que hay funciones que la vas a encontrar dos veces dentro de la
-->
herramienta bueno continuamos entonces si no sé si todos van conmigo o de
-->
pronto voy un poco más a listo no le hizo mi verdad vamos a sumir muchas
-->
gracias después no me queda ahí para que me quede ahí como ejemplo
-->
bueno vamos entonces
-->
escojamos ahora nombre nuevamente y vamos a suponer que le piden hacer lo
-->
siguiente quieren obtener solamente el nombre
-->
porque ahí en nombre tengo nombre y apellido se asumiría en este caso en
-->
particular que la segunda le la segunda palabra se refiere al apellido
-->
entonces quiero sacar el nombre aquí ya vimos una forma en el cual puedo
-->
hacer esto que es con magic field yo podía decirle john do y la salida
-->
sería john hago jane smith y la salida sería jane y me debería
-->
funcionar con el magic field pero hagamos una forma diferente hagámoslo
-->
con un ser harry place y volvemos nuevamente con expresiones
-->
regulares listo vamos entonces aquí a nombres y va a la string a la función
-->
string
-->
es string y vamos a la que dice
-->
espere un momento que
-->
no sé si es este match similar no está no es separado otro coche vamos
-->
a la función ser replace que está al final ya ese ejemplo tengo con otra
-->
parte ese fuchs ser el replace por favor el problema que tengo con un
-->
ser el replace es cómo hago para eliminar todo lo que está con el
-->
primer espacio en blanco o sea veamos aquí los operadores que me permite
-->
aquí me permite igual que inicie que finalice y que haga un rey entonces ahí
-->
no sé si nos sale con estar wich entonces hacemos la prueba le digo
-->
estar wich que empiece con espacio en blanco
-->
no no lo saldría porque porque él buscaría la el string que empiece por
-->
ir por espacio en blanco y el espacio blanco está en el medio no
-->
funcionaría entonces aquí que deberías hacer una expresión regular y
-->
expresiones regulares pues de pronto no es lo tuyo recuerda que el día de
-->
ayer hicimos un ejemplo con con con chat gpt en el cual le pedí que me
-->
diera una expresión regular para lo que yo quisiera si redactas bien lo que
-->
tú quieres en un 99% de los casos te va a dar la represión regular que
-->
tú quieras que sea eficiente creo que puede ser más eficiente que la que tú
-->
haces de forma manual puede ser más eficiente pero entonces eso que quiero
-->
hacer ya dicho que ya lo pudo hacer con el magic y pero lo quiero hacerlo de
-->
forma diferente con una expresión regular entonces voy a decirle la
-->
siguiente expresión regular voy a apuntarla aquí la expresión
-->
regular listo entonces en expresiones regulares hay unos caracteres y unos
-->
símbolos que indican unos elementos en particulares entonces este símbolo con
-->
el separador el con el carácter especial slash ese indica espacio en
-->
blanco entonces yo le voy a decir mira dame un favor búscame el espacio en
-->
blanco el punto indica cualquier cantidad de caracteres
-->
perdón el punto indica cualquier carácter asterisco indica cero o más
-->
caracteres y le voy a decir este símbolo que es el símbolo peso que
-->
llegue hasta el final de la línea porque quizás la línea
-->
no llega por los caracteres que de pronto no te dan lo que tú quieres
-->
entonces para asegurarme le estoy diciendo con este señor que está
-->
aquí que empiece en el primer espacio en blanco después que sigan
-->
todos los caracteres que él quiera y que finalice con una línea esa línea la
-->
coloco porque sería conveniente es cuando tú tengas por ejemplo lo
-->
siguiente imagínate que tienes este John Doe
-->
acá y Jay Smith tiene este dato si yo no le coloco este señor que es el
-->
señor que no está viendo aquí si yo no le coloco este fin de
-->
línea que pasa que él cuando intente buscar y eliminar me elimina
-->
todo esto porque estoy diciendo elimina todo lo que
-->
hay después en blanco para evitar eso entonces yo le coloco elimina desde el
-->
primer espacio en blanco hasta que encuentre un separador de filas
-->
entonces significa que esto nada más eliminaría hasta aquí al final va a
-->
depender de lo que tú quieras hacer pero esto lo voy a hacer simplemente
-->
lo hizo esta manera para agregar esa temática a nivel de presiones
-->
regulares entonces voy a hacer lo siguiente aquí voy a decirles valor
-->
qué valor va a buscar voy a decir entonces este señor ese punto asterisco
-->
y el símbolo de peso te mando esta expresión regular si tú desee por acá
-->
por el chat eso es lo que va a buscar y te la mandé por el chat eso es lo
-->
que va a buscar ahora reemplazar va a reemplazar por espacio en blanco ok
-->
voy a crear aquí una nueva columna para que para que me muestre voy a hacer
-->
aquí un preview a ver si no tengo error en la expresión regular
-->
y si tengo un error en la expresión regular porque no funcionó para ver
-->
por qué no funcionó aquí tengo reyes
-->
valve reemplazar which a ver por qué no funcionó
-->
bueno excelente a ver qué fue que coloque mal aquí
-->
y le coloque un
-->
no a mí no me está dando con el símbolo pesos porque voy a copiarle
-->
directamente no sé si de pronto estoy colocando un carácter especial que es
-->
las expresiones son sumamente sensibles para ver lo copio
-->
directamente de acá
-->
sí no sé hay un símbolo que hay como que cuando en el teclado no sé lo
-->
estamos tomando mal pero bueno esto es aclaro que esto mismo que estoy
-->
haciendo aquí pues lo puedo hacer directamente con el magic field lo que
-->
quería aquí con esta parte de mostrar es que las expresiones regulares son
-->
es una herramienta que es muy poderosa tanto para búsquedas o para
-->
emplazar cosas que puede ser compleja anteriormente era más compleja hoy en
-->
día son menos complejas partiendo del hecho de que lo puedes hacer
-->
directamente con con una yala que tú quieras para que te de la expresión
-->
regular bueno vamos a hacer el break de los 20 minutos si volvemos entonces a
-->
las 11 y 50 a 2 y 30 tomemos algo frío algo caliente entonces y
-->
volvemos entonces en 20 minutos ok eso
-->
bueno regresamos nuevamente espero que haya tomado y he descansado un poco
-->
entonces continuamos estamos conectados estamos conectados no
-->
estamos conectados estamos señor si listo bien continuemos entonces bien
-->
vamos a ver una función que es muy común en herramientas de calidad que
-->
la encuentras en el ecosistema de talent también la encuentran el talent data
-->
quality aunque el talent data quality tiene un par entonces cuando tú entras a
-->
esas herramientas de calidad te publicitan de que ellos pueden
-->
encontrar errores tipográficos y en realidad si hay algunas funciones que
-->
te puede te pueden ayudar a encontrar algún error tipográfico que
-->
un poco semiautomática porque porque en automatizar un proceso a través de
-->
las herramientas que ofrece puede llevar un error y más cuando de pronto tú
-->
quieres de pronto haya errores y nombres sabes que los nombres tienen
-->
ortografía y cada uno puede llamarse como le dé la gana entonces ahí hay
-->
casos en que de pronto podía automatizar y otros casos que en
-->
realidad pues hay que vigilar para ver antes de hacer cualquier cambio
-->
explico los dos modelos que se utilizan para encontrar errores tipográficos el
-->
cual la herramienta talent data preparation te ofrece uno y el talent data
-->
quality te ofrece los dos entonces supongamos entonces que es lo que
-->
hacen listo esto que es acá
-->
no voy a listo mejor espera un momento y lo abro mejor desde acá
-->
desde aquí listo entonces en primer lugar la primera forma que usan es
-->
lógica fuzy en lo que hace es sencillo el algoritmo el algoritmo de fuzy es
-->
el siguiente supongamos que tú tienes el nombre
-->
john de esta forma y yo particularmente me escribo john de esta
-->
forma entonces aquí puede haber un error
-->
tipográfico en el caso particular pues de los nombres no mucho pero sí
-->
puedes encontrarlo con quizás nombres de productos el inconveniente de los
-->
nombres de productos es que hay algunos para hacer su producto digamos
-->
nombrarlo de manera muy particular y llamativa no siguen las reglas de la
-->
real academia lengua entonces le colocan como ellos quieren el nombre
-->
para hacerlo atractivo pero veamos cómo funciona esta lógica de fuzy
-->
la lógica de fuzy que está aquí funciona de la siguiente manera es
-->
cuántos cambios debería hacer para que esta palabra sea igual a esta palabra
-->
básicamente aquí me tocaría hacer dos cambios porque porque aquí para que
-->
este john sea igual a este john tendría entonces que cambiar
-->
la j por la o y la h por la la o por la h para que me quedase por ejemplo si
-->
yo tengo el nombre kelly de esta forma y yo tengo kelly con y latina por
-->
ejemplo cuántos cambios hay que hacer para que esta palabra sea igual a
-->
esta solamente uno que es cambiar la y esa por eso que saca por esa y
-->
esa es la forma en que trabaja para encontrar duplicidad o para poder
-->
encontrar errores tipográficos que pueden existir en palabras ahora esa es
-->
la otra forma es utilizan una técnica que se llama
-->
son dex y entonces hacen lo siguiente por ejemplo colocan que él y aquí
-->
está muy buena para encontrar duplicados y que él y así agraemos
-->
tomando el idioma español ahí esas palabras las dos se dividen en dos en
-->
dos partes en dos fonemas que sería que lee de se cuenta que en el español
-->
es aqueli con y latina y ese aqueli con y griega se pronuncian igual kelly y
-->
kelly aquí lo que voy a encontrar son duplicados en la forma en que se
-->
pronuncia en el idioma inglés quizás eso se cambia por ejemplo en el
-->
español esto sería igual yo yo pero en el idioma inglés eso más lo llaman
-->
ese show yo lo sé una rara show no es un yo así un show ahí entonces la
-->
pronunciación puede ser diferente estas son las dos técnicas que utilizan
-->
tanto para encontrar duplicados o para poder encontrar palabras que son
-->
similares o parecidas o que estén mal escritas para este ejemplo
-->
entonces vamos a hacerlo de la siguiente forma vayamos al nombre
-->
y vayamos entonces a los perdón a nombres al nombre que reemplazamos el
-->
que sacamos el al que reemplazamos y vamos a buscar lo siguiente a ver
-->
vayamos al menú de string
-->
al menú de string que está por aquí abajo y vamos a la acción match similar
-->
text dele clic por favor
-->
perfecto aquí lo que te van a pedir es comparar con valor con columna en
-->
caso que sea columna pues se comparan las columnas que tengan la
-->
misma fila pero vamos a compararlo con un valor fijo para entender lo
-->
siguiente vea aquí tengo emily que está escrito con y latina entonces yo voy
-->
a decir mira hazme favor busca todos los nombres que se parezcan a emily
-->
pero con y latina está con un y griega perdón y la voy a buscar con
-->
y latina y aquí me pisen el número de cambios que voy a hacer entonces
-->
aquí tengo un emily que está con y griega para que este milis igual a
-->
nada más necesito un solo cambio del entonces en preview para ver qué sale
-->
aquí y debería parecerme en en emily aquí está un true diciendo de que
-->
esas palabras son similares son parecidas que ya sea que puede estar
-->
mal escritas o que simplemente se producen exactamente igual dependiendo
-->
y ahí podías encontrar errores tipográficos con ese tipo de función
-->
match similar text que está en stream match similar text está en el stream se
-->
hizo un preview ayúdeme a este para ver supongamos que yo quisiera no no lo
-->
mande a submit terminamos con el sumi con este quiero tengo kelly de esta
-->
y yo quisiera buscar este que él y así o una sola cuántos cambios debería
-->
hacer para que ésta sea parecida o igual a éste tocaría hacer dos cambios
-->
verdad eliminar una l y cambiar ésta y por y latina entonces vamos a ver si
-->
funciona si yo coloco uno así por ejemplo kelly a colocar aquí kelly
-->
así como estaba pero con un cambio está que él y que está acá debería
-->
salir en forz voy a mandar aquí un preview
-->
aquí está en forz porque el número de cambio para que sea igual sea 2 si yo
-->
cambio aquí a 2 le doy aquí un preview y debería salir en true
-->
aquí está en true entonces aquí por favor este sí ejemplo envíelo a
-->
sumi para que le quede ahí esa es la forma en que trabaja para
-->
encontrar o ya sea duplicados o ya sea para encontrar posibles errores
-->
tipográficos que pueden existir en los datos
-->
esta opción esta herramienta no tiene la de son de que es interesante es
-->
que sean similares pero por pronunciación y ahí sí de pronto te
-->
equivocaste en algún nombre o algo específico
-->
perfecto sigamos entonces terminemos ya casi a esa función
-->
vayamos aquí a lo que damos aquí en nombre replace aquí en ese que
-->
estamos acá en la misma columna que estamos vayamos aquí donde dice es
-->
stream nuevamente es stream
-->
es stream y voy por bueno remover caracteres consecutivos
-->
esta es muy buena cuando tienes no tienes analizado el número de
-->
espacios en blanco entonces por ejemplo tienes una separación de algunos tienen
-->
2 3 4 espacios en blanco y quisiera estandarizar para que todos tengan
-->
solamente un espacio en blanco ahí como todos tienen espacios en blanco
-->
entonces no sirve pero por ejemplo cambie aquí este por defecto el
-->
carácter de repetición que está espacio en blanco cambia sólo a odors
-->
esta función no lo veo mucho la la funcionalidad que le veo es más como
-->
tenga mucho espacio en blanco y quisiera de eliminar que queda uno es por ejemplo
-->
al colocar él ahí va a eliminar todas las ele que estén duplicadas me deja
-->
una sola es decir si yo tengo tres ele nada más me deja una al final
-->
independiente el número de ele que tenga repetidas consecutivamente él me
-->
deja una por ejemplo aquí vemos aquí kelly kelly está aquí con una
-->
sola con doble ele al decirle que elimine la ele aquí me dejaría kelly
-->
con una sola ele créalo una nueva columna por si acaso nueva columna
-->
y manda de aquí a sumir
-->
y aquí está aquí hay un error no sé qué pero aquí sí lo hizo aquí está
-->
eso no es nada del otro mundo vuelvo a repito esa función tendría mucho más
-->
sentido cuando vayas a eliminar de pronto los espacios en blanco pero
-->
quizás te toque bueno alguna vez algo por ahí no sé
-->
bueno vamos entonces lo siguiente ya que para finalizar ya este menú vayamos aquí
-->
al teléfono
-->
voy a darle aquí f5 aquí es como que hay algún error de algo no sé voy a darle
-->
aquí f5 para que desaparezca
-->
se ubica en número por favor
-->
en el teléfono nuevo teléfono y vayamos aquí a string a las funciones que son
-->
revuelve parte del texto
-->
aquí te aplica lo mismo exactamente la misma idea que tenía en el ser en el
-->
en el match pattern donde tienes que sean iguales que contengan que
-->
finalicen entonces voy a hacer lo siguiente voy a
-->
voy a eliminar voy a remover todos los elementos que empiezan a nivel de
-->
teléfono por paréntesis 555 cierro paréntesis enviarle aquí un preview
-->
para ver si no hay problemas si ahí está por favor así listo mandale un
-->
perfecto eso lo que hace es que remueve hace exactamente lo mismo que un ser
-->
en replay siendo que te crean una función simplemente para reemplazar
-->
algún elemento específico fernando así nada más dale f5 porque a veces te
-->
vas a ir saliendo ese error dale f5 ahí para que te recargue y
-->
terminamos ese menú con la última función note lo siguiente ahora note
-->
que aquí le quedó un espacio en blanco que se lo marque a la herramienta como
-->
si fuese una especie de cuadrado con líneas gris y blanca este que está
-->
aquí este blanquito que está acá en este blanquito que aparece acá
-->
cuando se arrumbe los espacios en blanco al inicio y al final
-->
el stream tiene una función que se llama trailing ahí está remover trailing
-->
and leading caracteres que inician y infidelizan te pregunta qué
-->
carácter quieres normalmente uno lo que elimina son espacios en blanco
-->
de pronto algún sufijo prefiero que tenga pero en este caso pues dejemos
-->
espacio en blanco para que pueda tener entonces una columna con esos
-->
caracteres que me forma muchos problemas cuando genera una consulta
-->
se puede y lo que hace eso es eliminar y ese es el menú completo para el señor
-->
spring no creo que reviso para ver si ahí vimos todas las funciones de lo
-->
que hace ese spring bueno vamos entonces al siguiente que sería el
-->
ejercicio 3 mientras voy subiendo el 4 y el 5 porque no lo es subir no sé
-->
pronto ya usted lo subió a listo aquí voy a decirle data set voy a subir el 4
-->
es acá en escritorio recursos talent data preparation
-->
caso de estudio y pero ejercicios y voy aquí a subir el 4
-->
en otras hubo el 5
-->
y en otras hubo el 6
-->
bueno continuamos pues
-->
me ubico nuevamente me tenía en preparation estaba trabajando voy a
-->
agregar una nueva preparación ya sabe que hay dos formas de hacerlo o se va
-->
al data sec o se va al menú de preparation entonces voy ahora por el
-->
menú de preparaciones va a decirle aquí a preparation aquí le voy a
-->
colocar ejercicio
-->
ejercicio 3 on record preparación
-->
y escojo el ejercicio 3 entonces
-->
le damos aquí su mi para enviar
-->
y me abre entonces la ventana del
-->
perfecto listo vamos a empezar nos ubicamos entonces aquí tengo
-->
identificador y se me escapaba mencionar algo también voy a aprovechar lo
-->
siguiente note que en las columnas aparecen
-->
un color una línea de colores que es muy parecida al talent data steward que
-->
aparece rojo significa en que hay unos datos de calidad que están
-->
errados por ejemplo ahí aparece errado 7a porque porque él identificó la
-->
columna como integer y ahora entonces tiene un 7a ahí
-->
entonces dice epa 7a no corresponde a un valor entero y tengo los líneas
-->
verdes que me van a indicar que los esos esos columnas tienen valores
-->
que han pasado los procesos de calidad aquí se agrega una nueva
-->
columna permítame hacerlo acá para que usted la vea nada más que es cuando está
-->
vacío cuando está vacío entonces te marca ahora un color negro
-->
aquí está este color negro que está aquí indicando que ahí vacío
-->
entonces esos colores que se van a reflear en todas las herramientas que
-->
denga talent verde todo correcto rojo error y negro significa que hay un
-->
error que está vacío hay algo que está vacío en esa columna voy a
-->
disminar eso que hice ahí entonces para que me quede tal cual
-->
ubiquemos perdón en la columna de análisis de animales perdón
-->
animales y vayamos al último menú que es string avanzado vayamos a la
-->
primera función que es adicionar a extra caracteres
-->
esa que está ahí listo eso lo que hace sencillamente es a partir de un
-->
tamaño máximo tú vas a agregar caracteres y la columna no contiene ese
-->
tamaño máximo me explico por defecto tengo un tamaño de 5 note que la
-->
primera fila de la columna animales dice ca si yo dejo ahí como 5 y ca
-->
tiene tres elementos le faltarían dos caracteres para llegar al máximo que
-->
yo quiero esos dos caracteres que hacen falta para llegar se rellena
-->
con el carácter que tú especifices por ejemplo coloquemos
-->
aquí x el carácter que deseo agregar y diga por favor que los va a agregar no
-->
a la izquierda sino a la derecha y le da un preview
-->
y mire lo que hace aquellos columnas que tengan menos de 5 caracteres se
-->
rellenan con x el caso por ejemplo de elefante que es la columna número
-->
7 no se agrega en x porque la número de caracteres es superior a la
-->
cantidad máxima que estemos eso para qué puede servir quizás te
-->
puede servir en algunos casos para buscar algunas claves por ejemplo me
-->
explico a usted le ha pasado entonces que de pronto tú digitas una clave
-->
común que tiene cinco caracteres pero te los muestra con a veces con
-->
asterisco te muestra más de 5 te muestra como 10 eso lo que hace es que
-->
la persona que vaya a leer no sepa cuántas cantidades de caracteres tú
-->
tengas entonces quizás para buscar un poco ese tipo de claves tú puedes
-->
agregarle más carácter para que la persona no sepa cuántos caracteres en
-->
realidad tiene la clave que tú vayas a colocar eso es lo que hace nada más
-->
no le de sumi por favor y si le va a sumi creerle una nueva columna porque
-->
necesita esa columna acá ahora para un ejercicio dele aquí bueno aquí le
-->
agregue una nueva columna y lo voy a enviar una nueva columna entonces
-->
bueno esto sigamos en la misma columna animales por favor no la convertida
-->
sino la original aclaro yo no soy experto en este tema y tampoco lo
-->
investigado en profundidad pero aquí viene algo que se llama vaya a ser
-->
chain
-->
ah no perdón no no es el que yo quería no en el último perdón que
-->
convertir charácteres a convertir bueno esto yo le voy a decir lo que
-->
dice la teoría pero yo todavía no no me cuadra mucho
-->
la teoría dice lo siguiente en que cuando tú tienes un texto las letras
-->
pueden tener diferentes tamaños esos diferentes tamaños de las letras como
-->
tal entre vayúscula y minúscula genera un espaciado en el cual
-->
abro comillas doble al cerebro y quizás no puedas entender o no te puedas
-->
concentrar de forma correcta entonces esto lo que hace es que independiente
-->
de los tipos de letra que tú tengas te adapta el texto a un tamaño digamos
-->
que estándar eso es lo que dice todavía yo en esta parte no no la
-->
entiendo muy bien yo nunca la he usado pero bueno aquí lo que sí es
-->
seguro es que para que pueda haber un cambio escoja la conversión full
-->
ahí te pregunta que deseas convertir a los tamaños fijos
-->
ahí está dígito letra bueno ahí dice catacana
-->
otro carácter no sé qué será catacana dele por favor preview no
-->
mande los dos nuevas columnas para que vea el cambio que se hay de luz
-->
aquí y lo que intenta hacer es que le da el mismo tamaño a letras para que
-->
cuando tú tengas un reporte esa es la teoría que dice no haya ningún
-->
problema en la lectura que yo no sé por qué debe haber problemas en
-->
lectura cuando los tamaños están diferentes eso es lo que dice esta
-->
teoría no no la entiendo muy bien para que funcione eso pero eso lo
-->
bueno sigamos entonces este con ver la segunda que es con ver
-->
charácter wich y escoge la segunda que es con ver full
-->
full week la segunda opción que es con ver full week y lo mandas a una
-->
columna nueva por favor para que no nos dañe la columna que tenemos ahí
-->
sigamos entonces vamos ahora en la opción fine and group similar text
-->
encontrar grupos de textos similares esto funciona exactamente igual a lo
-->
que expliqué con fuzy pero vamos a ver la diferencia que hay entonces dele
-->
clic aquí en fine sobre la columna animal esto aplica fuzy pero no le
-->
especificar caracteres creo que busca con una distancia máxima de tres
-->
caracteres entonces vea lo siguiente dice es va va va si la distancia de
-->
máxima de tres caracteres yo encontré tres palabras que son
-->
parecidas por ejemplo doc y doc se parecen porque porque para el llevar
-->
de doc a doc bueno doctor es que me toque quitar la u por o me toque
-->
eliminar la k y cambiarlas por la g entonces tú dices epa si son parecidas
-->
puedo cambiar en este caso sabemos que eso está raro ahí verdad entonces
-->
usted de chulea por qué porque pato y perro no hay la herramienta pues no
-->
digamos que se equivocó sino que el fuzy ahí no me sirve date cuenta
-->
ahora que aquí tengo aquí si cosas parecidas tengo un ct tengo un cac
-->
y tengo un coto lo que sí es seguro que este guard que está aquí no puede
-->
ser de ese mismo grupo que esto esté go at y aquí me dice oye esas tres
-->
palabras que son parecidas a nivel de fuzy la quiere reemplazar por cual la
-->
que va a reemplazar por cat entonces aquí le da sumi y a donde
-->
encuentren esta columna estos elementos te los cambia y de esa forma
-->
puede corregir algunos errores de manera muy sencilla cuando hay una
-->
similitud a nivel de fuzy
-->
repito nuevamente voy a devolverme para que hay algunos que todavía no lo han
-->
hecho entonces voy a lo siguiente estoy en animal y voy aquí y con la función
-->
fine and group similar me doy cuenta en que doc son palabras
-->
diferentes la de pato y perro la de chuleo
-->
y en el grupo de los cuatro de chuleo go at para reemplazar todas las
-->
que tiene ct go at y cot por cat aquí por defecto está cat entonces le doy
-->
sumi y eso lo que hace es que aplica el cambio entonces para reemplazar esas
-->
palabras que similarmente por distancia fuzy las encontré seguimos
-->
entonces listo la función que viene ahora permíteme y la veo bien
-->
toma ahora selecciona este identificador por favor
-->
y pasa lo siguiente a nivel de seguridad bueno perdón a nivel de base
-->
de datos quizás algunos que hayan desarrollado quizás cuando tú creas
-->
una tabla y en esa tabla quieres colocar un identificador que es
-->
generado como por ejemplo una secuencia tú en base de datos usaba
-->
seriales cierto sea una serie una secuencia entonces 1 2 3 4 5 y con eso
-->
elemento identificada cada uno de los registros como tal eso a nivel de
-->
seguridad que hoy en día no se puede hacer o no se debería hacer perdón
-->
porque porque los hackers saben en que tú puedes usar secuencias entonces
-->
empieza a buscar por esos datos por el 1 por el 2 por el 3 a ver cuál le
-->
da entonces hoy en día esos datos que son generados deberías que en
-->
vez de usar una secuencia generar un ID un número identificador único
-->
eso ahora va a permitir ahora que esos hackers pues no pueden hacer esa
-->
técnica de ir a ser un para que vaya recorriendo los diferentes números y
-->
ver para de qué encuentro entonces muchas veces quisieras agregar eso a
-->
nivel de campos dentro del tracé eso cómo lo haces te vas entonces al
-->
menú y aquí está una opción que dice generar un ID y lo que hace
-->
señores que en una nueva columna te va a crear un identificador único
-->
ahí está este identificador que está eso es lo que
-->
se está haciendo actualmente para prevenir ese tipo de ataques entonces
-->
bueno aquí me hizo un cambio aquí voy a borrar ese cambio
-->
se llama generar un ID voy a ver qué es que alvien ahora
-->
bien si tú ese por favor en identificador y ese identificador note que el identificador es
-->
numérico pero hay algunas filas en que tienen una letra entonces en algunos casos tú
-->
quisieses tener una columna en la cual pues vas a tener algunos datos que no tienen la
-->
mejor calidad y ahora quisiese remover dejar solamente los números y remover todo lo que
-->
no sea número para hacer eso entonces situate en identificador y aquí vas a encontrar una
-->
opción que dice remover a caracteres no numéricos no alfanuméricos entonces dale
-->
clic aquí sobre la misma columna y debería quitar todos los caracteres y dejarme solamente los
-->
números perdón aquí me equivoqué es la otra es remover en realidad es remover los no
-->
numéricos que pena si tú es en identificador ahí me equivoqué es remover los no numéricos
-->
remove no number
-->
no nombre no numeric charácter ese que está aquí listo sumi y debería remover los barací
-->
fíjese que ahora ya todos pasan toda la parte de calidad vamos al caso contrario entonces
-->
qué es quiero dejar solamente las letras váyase por favor de ese cuenta que en frutas en la
-->
línea número 5 la fruta que es melón watermelon ese que está aquí tiene unos caracteres
-->
especiales entonces ahora tiene también caracteres por ello no que tiene el número
-->
nada más que dejar las letras para este caso selecciona frutas y ahora sí remueve los no
-->
alfanuméricos listo remuevo aquí envío a la misma columna perfecto ahí se removió los
-->
caracteres terminamos con la última función que es simplificar texto vamos aquí donde
-->
dice nombres vayamos a la última función que es simplify text y esto lo que está haciendo
-->
es que remueve cualquier acento que tenga y remueve por ejemplo el case en este caso
-->
remover el case va a colocar a un case lower o sea lo va a colocar en minúscula y cualquier
-->
carácter especial que tenga ese cuenta que jose maría andrés y sofía tienen tilde vamos
-->
entonces a darle simplify test a nombres clientes
-->
y listo aquí ese cuenta que removió el case y los acentos como tal para qué sirve pues
-->
quizás alguna vez algo lo use y ese es el menú completo de string y string avanzado
-->
perfecto sigamos entonces vayamos ahora al ejemplo 4 vamos a ver si ya me subió el ejercicio 4
-->
tengo el 5 arriba 6 y creo que ni subir el 4 ya lo tengo arriba aquí bien desde aquí este
-->
ejercicio puedo hacer también una preparación váyase aquí en el menú derecho superior le
-->
va a aparecer el el tubo ensayo este que está aquí que se me escapa el nombre ahora en química
-->
y aquí puedo preparar directamente el tada inventor y aquí le puedo dar click aquí y
-->
me va a llevar al menú para adicionar un nuevo preparación
-->
le tomamos a ver está en ese momento está aquí en la parte superior derecha aquí está
-->
como el signo de aquí está como al ladito del descargar está un la pipetica esta
-->
quien me habló
-->
ah perdón ahora sí voy a su máquina
-->
si exactamente es la otra forma de agregarlo de leer hasta ahí y hacer lo mismo lo que es
-->
llegue por allá lo mismo eso
-->
bueno y por acá estaba aquí este son los datos como tal ya sabe los nombres no te
-->
encuentro lo siguiente ahora esto tiene cinco columnas y vea la que dice país código de ese
-->
cuenta que automáticamente lo que hace una categoría una catalogación de country
-->
por qué porque eso pertenecen a códigos de países vea que aquí no lo categorizó y aquí
-->
pues lo nombró vea que este que es numérico lo colocó como código postal de francia
-->
esto claro que lo puedes cambiar evidentemente no puedes cambiar cuando quieras
-->
bueno vamos entonces lo siguiente vamos al menú vamos a escoger país código y vamos al menú
-->
que bueno aquí un dato curioso yo en realidad no no le veo tanta funcionalidad pero cuando
-->
le uno el tutorial se nota uno que hacen énfasis en que muestra este mapa y no
-->
se muestra como si fuese alguna maravilla pues al final dicen ellos que la idea de
-->
esto es que tú puedas ubicar en caso de que sean unos clientes ubicación geográfica y
-->
una teoría sepa dónde están tus clientes a nivel mundial y puede hacer pero yo no
-->
le veo a otro mundo a esta gráfica que está aquí está que está acá bajito mire des cuenta
-->
que aquí aparece en un mapa mundo y le marca en función a estos códigos en que ubicación
-->
gráfica se encuentra eso es lo que hace y o si no cambias a al típico de barra que te
-->
puede decir cuántos registros está en cada uno de los códigos de países cuántos registros
-->
pertenecen o están agrupados digamos por el código que está en particular esto que está
-->
aquí pues no le veo en el otro mundo pero es lo que dicen ellos vayamos al menú que dice
-->
conversión por favor ubicado en país código conversión y aquí me quien me habló brenda no
-->
y eso no va a cargar haga lo siguiente por favor ábrese una nueva ventana por favor de
-->
en la última que tiene allá que se llama data preparation por ahora la pestaña es la última
-->
el click si dele ahí en la flechita en la parte izquierda ahí listo y mande ahí el 4 nuevamente
-->
mande lo para ver un momento no quedan iguales ahí la única diferencia es el time el tiempo
-->
en que subió quedarían con el mismo nombre pero la forma en que lo puedes diferenciar es el
-->
que subió intenté subir el 5 ya es un co subió que el ejercicio 5 ya lo subió
-->
de ese de ese ya la pestaña que está al lado vez subió el 4k de los hagamos ahora la
-->
preparación ahí inmediatamente al lado derecho el menú derecho antes ese que es ahí perfecto
-->
dele a si están amables perfecto ubíquese en la columna país código que es la que
-->
estamos actualmente listo bien entonces vamos a país código en el menú de conversión desacada
-->
del lado derecho vamos a escoger convertir country names a coach listo aquí dice from me dice en
-->
qué formato está el el nombre el código del país en este caso creo que es esa hizo que
-->
voy a tomar esa hizo que está acá y quiero que me lo convierta a nombre de países si el
-->
código corresponde a uno de hizo lo colocará el nombre del país dele por favor envíelo
-->
a una nueva columna a ver si lo hace de él es aquí
-->
y ahí está el problema que puede tener es que el nombre lo coloca en inglés es el único
-->
inconveniente será que lo convertimos acá en español lo puso en español si vamos a ver si
-->
y cómo se lo puso será que tiene la el el browser que le será que el browser le traduce
-->
inmediatamente porque este para ver quién me habló que de con la curiosidad alejandro un
-->
momento y a ver tu pantalla un momento para ver que de con la curiosidad ese
-->
no no pero que todavía no han enviado su mitad del único sumi para ver submit no lo que pasa
-->
es que eso que está en español son los que venían por defecto en la en la set
-->
en el no sé que estaban esos nombres estados unidos en español para intentar ahora convertirlos
-->
a códigos ahora era que faltaba ejecutarlo bueno ahora aclaro que él te traduce en el
-->
idioma en que tengas la herramienta nada más no la gusté para recordarle el día de ayer le
-->
dice cómo cambiar el idioma previamente no creo que tenga poco sentido es decir aquí
-->
cambió a inglés porque la herramienta no la gusta ya simplemente ver acá en el profile
-->
preference aquí me pide loguiarme nuevamente en este profile preference hay una opción que
-->
es el lenguaje es el lenguaje que está aquí entonces yo podía cambiar a diferentes idiomas
-->
aquí pero español no existe aquí está inglés francés japonés y alemán no sirve
-->
ahora vamos a hacer entonces con el siguiente que sería data preparation lo hago nuevamente
-->
sería la preparación número 4
-->
y nos situamos ahora en el nombre del país vamos a intentar entonces convertir estos nombres a un
-->
código voy a ser nuevamente al menú de conversión donde dice convert con trinen sanco
-->
dile fron dígale que está el country name y páselo por favor a hizo 02 con tricot vamos
-->
a ver qué pasa en una nueva columna
-->
ahí no creo que haga mucho de ese cuenta que lo único que hice que se me hace raro
-->
fue que convertió código japon gp no sé por qué porque normalmente lo buscaría en español
-->
es a tilde grinejapón no sé por qué voy a hacer algo en particular voy a convertir esta
-->
francia en france voy a cambiar aquí como hacía ya en el tal nata severs va a cambiar
-->
francia a france su mi
-->
el problema es ahora quedó con la siguiente duda si intentaría ejecutar esto el cambio
-->
está acá abajo por lo tanto me daría lo mismo voy a intentar a ver un momento a ver
-->
si intento mandar un su mi en teoría debería si me da lo mismo por qué porque el cambio
-->
lo hice acá en tercero aquí me tocaría nuevamente voy a cambiar aquí el orden que
-->
también no lo he mostrado y a cambiar aquí el orden voy a subir este señor para que lo haga
-->
de segundo primero me reemplazaría y después me intentaría convertir y ahí está bueno ahí
-->
me sirvió para dar eso que podía cambiarle acá el orden de la receta hacia arriba o
-->
hacia abajo cambia lo primero y después sube el cambio como segundo elemento en la en la
-->
receta y después qué va a pasar que primero hacer en plaza y después va a intentar convertir
-->
esos nombres a código morales a este señor y también nos pasa mucho con el tal nata
-->
catalog pues se está muy ligado al idioma inglés no es posible hacer una a cambiarlo
-->
inglés a español perdón y creo que no está entre la corto plazo no está ese
-->
de la herramienta en español
-->
recuerda cambie a france y después sube y cambia el orden como segundo y debería ya
-->
parecerte el código de francia que espere por lo demás no funcionó porque están en español
-->
y los espera en inglés
-->
que todo no funcionó, a ver que uno que no haya funcionado
-->
vayase
-->
ah ok
-->
esa que está ubicado está convirtiendo alison el problema que tiene ahí es que
-->
está convirtiendo de código a nombre y la conversión es al revés de nombre a código
-->
entonces en el front dele clic en el front donde está ubicada en ese front que está
-->
en la parte de arriba del front ahí y va a decir que es country name y ahora páselo dele
-->
en el to dígale que lo pase a iso 02 code ese country code iso 02 dele nuevamente
-->
y ahora sí está era que el problema era la la configuración de la conversión
-->
bueno seguimos entonces quién me habló es una buena pregunta que no le sé la
-->
respuesta en realidad no sé por qué no debió porque esa tilde no está en el idioma
-->
ese sí está raro que lo haya convertido en el código correcto
-->
ahora me puse a pensar que es verdad que en inglés es japan ni siquiera es japon
-->
sino japan sería listo hagamos lo siguiente vamos a probar lo que
-->
tú dices para ver vamos a colocar aquí germany pero con la y latina germany germany aquí
-->
no
-->
no no lo convierte estamos ahí sí tenemos la duda voy a convertir este en japan debe ser
-->
gp verdad que este en japan
-->
para colocar un no en realidad no sé por qué japón lo no le sé decir voy a investigar
-->
por qué porque japón lo convierte el código no sé es que ni siquiera porque
-->
que la tilde esa bueno y tampoco no funcionó lo del el fusil bueno así
-->
queda con la duda de por qué vamos aquí ahora vamos a distancia metros en
-->
la columna y vamos al menú de conversión
-->
en conversión que me pasé en el menú de conversión listo y aquí hice convertir distancias
-->
entonces te pregunta la unidad que en que está y es a millas voy a coger
-->
kilo me en la unidad que está está en metros metros y quiero convertirlos a kilómetros aquí
-->
la precisión va a ser cuántos decimales vas a querer colocar ahí en la conversión entonces
-->
en que está está en metros la coloque en metros a que lo quiero convertir a kilómetros
-->
y con una precisión de uno significa con solamente con un número decimal delez
-->
súbmica aquí debería cambiar el 10.000 debería cambiarlo a 10 y así suecidamente
-->
efectivamente con la precisión de uno sólo un solo carácter decimal seleccionó ahora la de
-->
pero que algunos terminen vamos con duración horas vamos al mismo menú de convert
-->
de convertir y aquí está convertir duración entonces te pregunta así como el de
-->
el de distancias te convierte pregunta en qué está la unidad entonces voy a decir que esto está
-->
en horas en horas y las quiero pasar a días a cinco horas las quiero pasar a días con una
-->
precisión de uno entonces voy aquí a súbmica hace la conversión y me convierte las horas a
-->
días de ya era una fracción del día 0.2 días sería equivale a cuatro horas 0.3 días 0.2
-->
día equivale a cuatro horas que pudiera convertir año a meses meses a días como tú quieras esa
-->
función si es interesante porque esas conversión de fechas y se ven mucho para tratar de
-->
estandarizar los diferentes de lo que tengas vamos ahora aquí ahora a temperatura para
-->
finalizar ya este menú de conversiones y aquí está convertir temperatura lo mismo te pregunten
-->
qué está y a dónde la quieres convertir dígale entonces que está en faren que y la quiere
-->
convertir a celsius esto viene porque no está centígrado porque este señor viene de europa
-->
normalmente el centígrado se usa más acá en américa asumo que por eso no está centígrado
-->
acá eso sí de temperatura nunca lo he usado pues algo comercial pero bueno te hace la
-->
conversión al a lo que tú quieras ahí bueno específicamente farenje y celsius y
-->
kelvin y ese es el menú completo a nivel de lo que es conversión
-->
bueno continuamos entonces con el siguiente menú que sería el menú de limpieza este
-->
menú de limpieza y unas cosas que las puede hacer con el ser replays o con el match
-->
match pattern que fue que hicimos ahora y muchas veces repite algunas cosas para esto
-->
entonces vamos a tomar ejercicio 5 que yo creo que si subió tengo el 6 y tengo el 5
-->
ejercicio 5 si subió voy a crear aquí una nueva preparación
-->
la voy a llamar cambiarle el nombre aquí underscore
-->
efectivamente la primera vez no funciona en la segunda
-->
es la que funciona no sé qué pasa ahí me ubico para ver en ese menú
-->
bien vamos entonces se ubicamos en nombre en nombre y vamos con la primera función
-->
que se va a dar cuenta que es exactamente igual o parecida ser replays o el match
-->
pattern la única diferencia es que aquí por defecto el limpia la
-->
limpia como tal la expresión entonces aquí por ejemplo nos ubicamos en nombre y podemos
-->
cliar un matching value me pregunta si deseo ya sea por valor y aquí lo mismo funciona
-->
que tenemos igual igual contiene inicia finaliza o regex asume que vamos vamos a eliminar todas
-->
las columnas que tengan el nombre carlos cuando digo eliminar las columnas es que
-->
la voy a colocar en blanco eso es lo que hace un clear limpia la columna es igual a un
-->
ser replay recuerden que si yo hago con contén igual estar o en qué va a pasar en que va a
-->
ser caso sensitivo si quieres caso insensitivo lo mejor es que hagas con un regex para repasar
-->
regex vamos a decirle aquí regex y entonces como es caso insensitivo tenemos que hacer
-->
lo siguiente tendríamos que hacerlo de esta forma sería empezamos con paréntesis signo
-->
de interrogación y yo digo carlos aquí él reemplazaría a todas las columnas que contienen
-->
carlos ya sea minúscula mayúscula o mixto lo mando por el chat por si las dudas coloco aquí
-->
en valor primero que sea regex y después colocó la expresión como la mandé en el chat voy a
-->
hacer aquí un preview y debería eliminar de la segunda con la segunda fía y está
-->
este casualmente no tiene no tiene para que el resultado me lo envíe en una columna nueva de
-->
él aquí su mick inmediatamente entonces su mick
-->
perfecto este es esa función si usted analiza es exactamente un ser replays y el replay lo
-->
mando en blanco para que reemplace toda la columna no hay nada del otro mundo
-->
bernanda brenda vamos a ver darle f5 nuevamente para ver y hay un f5 para
-->
recargar la página para ver parece que hay una función con la expresión de
-->
espera un momento y me conecto a tu listo espera un momento a ver este es un regex
-->
parece que hubiese un error en esta expresión regular ese es un ahí lo que
-->
está ahí sí es un ahí verdad vamos a eliminarlo un momento aquí y vamos a volverla a crear para
-->
ver sería entonces estoy ubicado donde debo voy a hacer aquí un pillars voy aquí entonces regex
-->
y voy a pegar la expresión perdón sería paréntesis y
-->
si no se hicieron no sé porque la expresión la única diferencia que tenía la c mayúscula y
-->
daría lo mismo si es con c mayúsculas y minúsculas decir déjame para ver y pruebo porque
-->
aunque no colóquese a eso voy a cambiar aquí a c carlos con c mayúsculas no para mí que
-->
hubo un error antes en la ejecución que no tiene nada que ver contigo fue de pronto algún
-->
error de de memoria algo para estirlo que indicó que estaba mal pero no creo que haya sido error
-->
tuyo le hizo seguimos entonces si digo quién me habló fernández y ya voy por ahí momento
-->
momento por favor y veo para ver qué hay
-->
vamos a ver este clear como lo tienes aquí raro no es pan de aquí la voy a eliminar a
-->
la señora que está acá un momento no sé voy a la función clear voy aquí donde dice regex y
-->
sería paréntesis aquí lo tiene ya este de aquí pero me parece que ésta no es una y si eso
-->
parece un signo de admiración verdad y si me parece que era el signo de admiración esa que
-->
perfecto listo ahora sí no sé qué va a pasar que era la signo de admiración vayamos a la
-->
columna género esta que está aquí y aquí hay una función que dice clear clear significa
-->
colocarla en vacío clear cerda con invalid values recuerde que hay tres colores que se
-->
identifican el negro el rojo y el verde el rojo indica valores inválidos el negro indica
-->
vacío y el verde valores correcto limpie las columnas que tienen valores en la columna género
-->
nada más darle a clear aquí y él automáticamente envía un submit y lo que hace que esas
-->
columnas las coloca vacías perfecto aquí hay una función de línea la que viene que se llama
-->
delete the row that much esto lo que va a hacer es que va a eliminar las filas que contenga
-->
alguna columna lo que está buscando tú por ejemplo aquí sí la voy a buscar por no usar
-->
regex porque la usar entonces que contengan por ejemplo una m entonces si da cuenta la línea
-->
número 1 no contiene m la fila la la fila o línea número 2 contiene m en género debería
-->
borrar la base de aquí un preview si ahí está la que debería eliminar no hagamos el
-->
porque necesito esa columna para los ejercicios que vienen pero lo que hace eso es que elimina
-->
las filas sobre una coincidencia por ejemplo vamos a eliminar la que contengan una y y preview
-->
no porque es que contengan y pero debió marcar isabel raro raro porque no marco isabel a no
-->
que contengan no es que sean iguales voy a colocar aquí mejor que inicien con y a ver para
-->
ver ops aquí no sé tenía anteriormente contain pero es que debería aplicar así claro si si
-->
seleccionó aquí salió un pequeño rol le voy a decir a borrar las filas
-->
de partiendo de esta columna aquí para ese momentito si si tiene razón verdad que si
-->
ops voy a hacer aquí un tal en punto login entonces voy a volver a loguiar
-->
bueno errores que pasan aquí si si claro tiene razón es decir borrar las filas
-->
sería estamos en el 4 o el 5 en el 5 o el 4 el 5
-->
si entonces voy aquí al delict delict row dat más de esta columna nombre borra las filas
-->
que contienen y vamos a ver si es sí sí efectivamente aquí no me pasa con la y en
-->
latina por qué porque recuerden que es sencilla si quisiera que fuera insensible
-->
meto quería hacerla con un reyes entonces es el delict row del match de las columnas en
-->
que esté si hace match lo que va a eliminar es la fila no hagamos el sumi porque necesitaría
-->
las siguientes columnas bueno aquí tendría el delict row de las anti cell de la columna en
-->
que esté ubicada por ejemplo en este caso como estoy ubicado por nombre si yo le digo delict row
-->
week anti cell debería mandar entonces a eliminar la fila número dos efectivamente elimina la
-->
fila número dos gracias por la observación ya cansancio ya que me corrigieron a un hombre
-->
y una mujer no sé quién pero muchas gracias listo sigamos entonces saber qué más hay en esa
-->
parte delict row bueno delict row con valor negativo entendemos aquí me aplicaría nada más
-->
para esta parte de la edad ok significa entonces que aquí si le digo delict row entre valores
-->
negativos eliminaría esta columna que sería la 5 nada más creo que el único tiene con
-->
valores negativos listo voy a ver qué más hay aquí a nivel de columnas
-->
estamos aquí a ver listo
-->
estamos aquí en el menú delict row listo bueno este sí llenar valores con
-->
celda con valor vayamos a género
-->
y escojamos fill cell with value esto lo que haría es que las filas que estén vacías
-->
espérate parece que existe aquí un no este lo que haría es que si le doy aquí por ejemplo
-->
m todas las celdas la reemplazaría por m confirmo sí efectivamente ese reemplaza
-->
todos los valores de la columna no lo hagamos porque me daña entonces el ejercicio que
-->
viene el fill cell with value lo que hace es que llena entonces todas las columnas por
-->
valor que yo quiera o que haya especificado en el text box pero vamos me interesa llenar
-->
mejor son las filas que están vacías vamos a bueno este que está aquí quizá
-->
aparte un momento que ahí lo lo le explico para qué funciona ese
-->
voy a eliminar esto que hice aquí para explicar algo
-->
resulta que esto es más para un científico de datos resulta lo siguiente en algunos casos
-->
tú puedes tener una columna por ejemplo esa columna puede ser precio digamos de esta forma
-->
esa columna precio puede tener digamos varias filas voy a colocar aquí bueno precio más o
-->
ver que esto hay más columnas acá pero me interesa esta precio para que pueda entender
-->
para qué sirve eso esta precio puede tener los siguientes valores puede tener 1 2 3 4 puede
-->
tener aquí un vacío 5 6 7 puede tener aquí un null a nivel de base de datos que es
-->
diferente vacío lo coloco aquí entre paréntesis para que me entienda aquí puede estar estos
-->
vacíos y puede seguir acá con 10 11 el problema que se tiene cuando tú haces algunas
-->
de minería de datos también te te aplica es que muchas veces cuando tienes valores vacíos
-->
te afecta la desviación estándar y eso te puede llegar a conclusiones que pueden ser
-->
erróneas entonces lo que hacen y la técnica que están aplicando a nivel estadístico es
-->
que tú haces lo siguiente tú los valores vacíos los rellenas con el valor más cercano ya
-->
del lado izquierdo del lado abajo el izquierdo derecho perdón aquí como lo tengo vertical es
-->
que tú lo escojas hacia arriba o hacia abajo la edición que escoja no cambia porque al fin y
-->
al cabo te lo que busca es lo siguiente si yo tomo este 4 aquí yo tomo que este lo
-->
va a rellenar con el más cercano hacia arriba significa que todo rellena con 4 este null lo
-->
relleno con 7 este señor lo relleno con el de más arriba que ya lo puse con 7 y así se
-->
seguía su suecidamente seguiría hasta aquí y te rellenaría los datos de esta forma que
-->
va a pasar ahí que esta técnica te ayuda a que la desviación estándar de esos datos no sea
-->
tan alta porque eso que están ahí vacíos te pueden afectar o te pueden afectar también
-->
el promedio entonces estos señores aplican esa técnica esta técnica está hecha en esta
-->
en esta función que está acá escoge por favor género si es tan amable escoge la columna género
-->
y ten en cuenta estos vacíos que están aquí si lo rellenate por favor quítalos
-->
y hay una función que dice lo siguiente
-->
film entice el front a vos a vos arriba verdad sí o arriba o arriba sí arriba entonces esta
-->
fila que está vacía o lo siguiente esta fila que está vacía rellenará de su valor vacío con
-->
el mismo que está arriba o sea con una f este seguiría con el de más arriba que ya
-->
reemplace con una f este con una f este con una f y este con una m eso más que todo es
-->
para la técnica se llama suavizar los datos vamos a ver entice listo hago ahí para ver
-->
efectivamente ahí los rellenó eso esa esa función está específicamente es para eso
-->
recuerden que esto va más para analistas y científicos de datos para que los formateen
-->
pues en el formato que yo te sé listo vamos a ver qué más función hay bueno aquí film
-->
en vale balwe y esta estandarización funció vamos a ver listo ok esta es la misma técnica
-->
del max similar que teníamos allá pero aquí con un porcentaje de desatitud vamos a lo
-->
siguiente vamos a tomar nombres este nombre que está aquí y vamos a la función esa que
-->
confirmo que me confirmo algo acá es por ese momento listo vamos a ver y encuentro un nombre
-->
aquí listo aquí tengo un nombre Elena y quiero estandarizarlo a Helen a ver cómo me va
-->
entonces para eso voy a tomar la columna nombre me voy al data clínica el que estamos y voy
-->
a estandar de valor aplica el mismo fusy entonces aquí que pena que se me escapó el
-->
lo confundí con otra función ya le ente ya ya ya ya recordé note que aquí tengo anteriormente
-->
el fusy que usaba lo comparaba contra un valor pero ahora voy a compararlo con todos los elementos
-->
que estén en la columna en la en la en la columna es decir mire darte cuenta que en la
-->
fila número 2 tengo elena y en la fila número 10 tengo elena con h en la fila número 11
-->
esta que está aquí tengo aquí yo y yo acá vamos entonces él va a intentar hacer un
-->
producto cartesiano de todo contra todo para ver qué elementos similares encuentran la misma
-->
columna los que habíamos hecho anteriormente lo que hacíamos es que colocamos un valor
-->
base y ese valor base se comparaba vamos a ver lo siguiente aquí dice entonces que busque
-->
por un porcentaje mayor 80 vamos a encontrar algo de él aquí preview para ver qué hace ahí no
-->
hace nada parece que no encuentra voy a darle el más cercano que sería el nom más cercano a ver
-->
pero no está funcionando a ver un momentico ahí ahí parece que me subiese a ese momento
-->
que este ejemplo no me acordé ahora pese para ver voy a esta analización fuchsia aquí
-->
aquí me está marcando estos elementos de género porque me está marcando pero no sé
-->
por qué me está marcando aquí pero de se cuenta que aquí me está marcando quisiera
-->
entender por qué me está marcando aquí solamente este valor acá pero lo que me está
-->
marcando son los parecidos por ejemplo este yon se parece este yon de acá y el yon de acá
-->
esta laura no se parece en nada este para el espectro mítico porque
-->
esta estandarción fu si me está dando es
-->
no este no sé por qué no me funcionó este momento de ahí reviso para ver la teoría que
-->
se me escapó este ejemplo momento por favor que no me está funcionando es aquí debió convertir
-->
este lena elana elena pero lo raro es que no está siendo bueno hagamos algo ese tenemos
-->
un brillo ahora el del almuerzo en el almuerzo reviso este ejemplo y les digo por qué fue
-->
que no funcionó por qué que raro que no haya funcionado en un momento intentó hacer la última vez
-->
enmarca estos elementos acá
-->
bueno ahí disculpo ahora en el break reviso para ver por qué no funcionó este ejemplo entonces
-->
quedamos en ese estándar fu si y le explico ahora por qué fue que no funcionó bueno vamos
-->
entonces al ejercicio número 6 que es el este data masking que funciona mucho más para
-->
la privacidad y confidencia de datos entonces vamos al ejercicio número 6
-->
voy a revisar para decir el 6 lo subí aquí lo tengo arriba
-->
voy a crear entonces una preparación con el 6 aquí listo le voy a cambiar el nombre
-->
perfecto entonces voy a cambiar aquí el nombre a ejercicio 6
-->
preparación
-->
la primera vez no funciona
-->
perfecto
-->
bien entonces aquí lo que hace es lo siguiente primero note que puede pasar aunque eso no creo
-->
que pasó hoy en día en la vida real esta parte pero quien quita que lo tenga note que
-->
aquí tengo un par de columnas que tengo id nombre correo y password ok entonces note
-->
que el password está aquí en texto plano y quisiese de pronto encriptar ese texto para
-->
que nadie lo vea entonces tú puedes hacer lo siguiente puedes convertir este señor que
-->
está aquí está texto plano en una clave hash tal forma en que cuando lo compartas no puedan
-->
entender qué es lo que está aquí entonces si te vas aquí donde dice password vete a donde
-->
dice el menú data masking de máscara de datos y escoge has data le envías un submit
-->
y te convierte esa columna en una clave hash esa clave pues ya ahora sí va a estar encriptada
-->
y va a ser difícil entonces que detecten entonces la clave que estaba en texto plano
-->
básicamente lo que hace es convertir una cadena a una clave hash teniendo como base
-->
la otra parte es el correo
-->
vayamos a la otra función si estuviese en la columna correo y tú puedes enmascarar
-->
ciertas letras que están aquí entonces vete o nata masking nos situamos en correo ahora
-->
estamos en correo le damos en max data ofuscación aquí hay muchas técnicas de ofuscación entre
-->
esa técnica de ofuscación la más sencilla es la que dice reemplazar los primeros n caracteres
-->
replace n first character reemplazar los primeros n caracteres aquí por defecto está 5
-->
aquí te dice si lo deseas repetir con caracteres aleatorios vamos a colocar un
-->
carácter repetible y voy a colocar x significa que ahora va a colocar en los
-->
primeros elementos una x este no es tan parecido al de al que se rellenaba con el con la máxima
-->
cantidad que este es un poco diferente ese para que no vean cierta parte esto puede suceder
-->
cuando puede ser esto cuando de pronto compartan datos que tengan datos sensibles como dirección
-->
le vamos a decirle como de pronto quizás el el el sueldo entonces aquí le damos aquí
-->
bueno al final me cogió fue un randon ahí voy a ver por qué me cogió el randon
-->
porque perdón yo le puse la x fue en la semilla ese es para cuando es randon debió
-->
colocarle la x en replacement voy a darle su mi nuevamente si porque le coloqué la
-->
semilla aquí fue la sec de la semilla esa semilla se coloca ahí para cuando los caracteres sean
-->
randon y ahora si le coloca los caracteres x para eso que es el data más que no es nada
-->
para otro mundo perfecto ahí terminamos entonces vamos al ejercicio 7 yo no sé si
-->
me pareció que no lo he subido voy a subir el 7 el 8
-->
si no lo había subido el 7
-->
voy a subir el 8
-->
el 8
-->
y voy a subir también el 9 para que sean los tres que vamos a continuar
-->
no sé si me regala un break de 10 minuticos para buscar agua que se ve que se me acabó
-->
entonces empezamos en 10 minuticos por favor a la 1 y 25 mientras busco algo de agua
-->
regresamos en 10 minutos ok
-->
bueno regresamos pues listo ya con la garganta un poco más aclarada bien continuamos entonces
-->
ya vamos el ejercicio 7 8 y 9 esperamos ya el 10 vamos a hacer conexiones entonces de
-->
pronto a una base de datos listo entonces vayamos a lo siguiente ejercicio 7 vamos a ver si subió
-->
perfectamente aquí ya subió listo voy aquí a las preparaciones esto perfecto dígame
-->
sí seguramente sí vamos a ver cuáles son si eso es para un formato de teléfono que tengo ahí
-->
pero creo que no sé si nos da tiempo porque quiero hacer otro ejercicio vamos a quedar
-->
hasta aquí hasta el 9 y si nos da tiempo subimos eso es 10 y 11 para ver porque la
-->
idea es comentar una base de datos ahora muchas gracias a ti bueno continuamos entonces
-->
listo voy a hacer una preparación aquí con el 7
-->
y esa viene con funciones de fechas
-->
entonces vamos a escoger fecha nacimiento esta que está aquí
-->
vamos a las funciones de fechas sería el 7 por favor mientras algunos oídos están
-->
subiendo vamos a esperar 7 7 nada más tiene tres columnas que es fecha nacimiento fecha registro
-->
la fecha nacimiento vamos a calcular entonces la edad que tiene cada uno de los registros que
-->
están establecidos que solamente son 5 apenas espero todavía que hay algunos que le está
-->
subiendo perfecto yo creo que ya brenda le subió entonces hacemos la preparación el 7 y
-->
vamos a calcular la edad que pueda tener cada uno de estos registros partiendo de la fecha
-->
nacimiento para hacer entonces funciones con fechas y calcular con fechas vamos aquí a la
-->
primera vamos al menú de dates y aquí hay una la primera función que dice calcular tiempo
-->
desde vamos clic ahí tomando desde la fecha nacimiento listo primero te pregunta en qué
-->
unidades deseas la salida en este caso deseo la salida en gears aquí está gears y contra
-->
qué quieres entonces hacer la operación de ese elemento en este caso sería now la actual de
-->
esa forma calcularía pues cuál sería la edad actual que tiene también hay otras opciones que
-->
puede especificar una fecha la que tú quieras o es su defecto usa su otra columna como base
-->
en este caso deseo calcular es la edad actual por lo tanto la configuración de esta columna
-->
sería desde tiempo unidad unidad de tiempo gears y hasta ahora no crea lo de una nueva
-->
columna por favor y la edad sumi y ahí te están marcando cuál sería la edad que se tiene
-->
actualmente partiendo esa fecha nacimiento más específicamente cuál es el tiempo que
-->
ha ocurrido desde esa edad hasta la que estamos tiene que tener en cuenta algo que ya había
-->
mencionado en el talent data steward y te lo menciono en esto también talent ha escogido
-->
como como formato de fecha formato año guión mes día si el formato no está lo más
-->
recomendable que puedas convertirlo a formato que él entienda o en su defecto que los
-->
formatos estén estandarizados para hacer algunas operaciones listo entonces eso sería aquí 34
-->
perfecto vamos a ver qué otra función viene ahora vamos a cambiar el formato de la fecha
-->
vamos a escoger la fecha de registro y vamos a escoger vamos a cambiar su formato como
-->
hacemos para cambiar el formato de la fecha quizás el formato no lo cambia para hacer
-->
operaciones dentro del talent pero sí le serviría para quizás lo vas a llevar a un power v a un
-->
tablú que quizás quien necesite un formato especial entonces es como fecha de registro y
-->
vamos a cambiar chains el data el formato de fecha ahí te preguntan que si en realidad te
-->
preguntan si sabes el formato de la fecha en cuál está ese el caso de que tú no sepas puede
-->
darte el caso en que quizás los registros no todos estén estandarizados entonces le pides al
-->
sistema que te adivine cuál es el formato en que está pero como el formato sé lo mejor
-->
es entonces es que cojas y vamos a definir nuestro propio formato el formato en que está
-->
sería el siguiente aclaro que estos formatos son establecidos por el formato de java entonces
-->
permítame y encuentro aquí format date java modifide si lo encuentro aquí
-->
aquí están estas serían las letras de los formatos de java tienes que tener en cuenta
-->
que tendría que usar estas letras para cambiar un formato específico por ejemplo
-->
que quisieses cambiar de numérico a nombre del mes el nombre del mes por ejemplo está en
-->
formato m m mayúscula en la m mayúscula es demo y la m minúscula es de minuto entonces
-->
hay que saber cómo conjugo cada uno de sus elementos ahora vamos entonces a lo siguiente
-->
vamos a cambiar este formato partiendo ese hecho el formato estaría en año guión mes
-->
día el original por lo tanto partiendo de java para java el año sería ye y como está
-->
en formato de cuatro dígitos sería ye ye ye ye guión perdón lo vi en minúscula mayúscula
-->
en minúscula que perdón gracias no sé por qué este día muchísimas gracias es en
-->
minúscula ye ye ye porque él de java hizo perfecto vendría m m dos dígitos del mes y
-->
sería en minúscula de de te pide si deseas el nuevo formato a uno estandarizado sobre hizo
-->
normalmente porque estos maestros se meten con esa parte de hizo y estos estándares lo que
-->
pasa es que en la unión europea hay que seguir unas regulaciones así como quizás tú adoptaste
-->
es como norma a nivel de privacidad de datos un gdpr que es el europeo estándar europeo
-->
entonces en europa hay unos estándares que tienen que conseguir que seguir las diferentes
-->
fechas entonces por eso es que quizás estos estándares están muy bien establecidos en esta
-->
herramienta aunque acá no es que se base en el caso de colombia no sé cómo estaría méxico
-->
pero no todas las empresas no hay un estándar a nivel de fechas cada empresa
-->
adota como él quiera pero lo que he visto es que la mayoría se casa por un año mes
-->
y raro en eeuu este software europeo el software en eeuu normalmente el formato que ellos
-->
siguen es un mes día año pero estos están muy regulados a nivel de europa como no quiero
-->
ninguno de estos estándares voy a decirle others y voy a decirle que me cambia el formato
-->
a lo siguiente mm 12 m mayúscula voy a cambiar el carácter de separación a slash
-->
voy a decirle dd y que me termine en yeyeye en minúscula gracias por la persona que me
-->
colaboró y no sé pero muchas gracias yeye en minúscula y voy a hacer aquí un preview para
-->
ver si ese formato en realidad lo está tomando si efectivamente ahí lo tomó voy a hacerlo en
-->
que me cree una nueva columna mejor y lo manda sumi para revisar si que todo esté bien
-->
si efectivamente ahí está 0 9 10 y es 20 al nuevo formato establecido
-->
en la única moraleja que hay que tener en cuenta es que las letras que vayas a escoger para
-->
definir el formato son las que están establecidas por java no son las que están establecidas por
-->
talen porque como tan basado en el lenguaje java quien establece esas letras es java y no
-->
talen perfecto listo ya terminamos con ese date vamos a comparar las fechas vamos a ver
-->
si la fecha de registro la fecha de registro de en este caso para sacar el documento de
-->
identificación no sé en méxico pero en colombia todavía estamos en que aquí hay que sacar dos
-->
documentos un documento que llama antes de 18 años y el documento que está después de 18 años
-->
eso se vuelve un complique porque los números se varían y es independiente todavía no se han
-->
actualizado en esa parte el caso de eeuu no sé el caso médico que está un solo número
-->
nace con un número y ese número lo acompaña toda la vida el caso de colombia y dos números y
-->
eso trae algunos inconvenientes a nivel de universidades porque el pelado entra el muchacho
-->
entra adolescente y después cuando entra etapa adulta entonces ya tiene cédulas entonces bueno
-->
eso hay que adaptar los sistemas de información para eso vamos a hacer lo siguiente vamos a
-->
registro y vamos a escoger la función de que hice comparar fechas
-->
comparar fechas y en este caso entonces la deseo comparar es si la fecha de registro es mayor
-->
aquí están todos los operadores igual no igual mayor igual mayor menor igual y menor
-->
entonces voy a coger mayor greater than puedo compararla con un valor fijo en este
-->
caso lo voy a comprar con otra columna y la columna que la quiero comparar sería fecha de registro
-->
verifique que esté una nueva columna aquí al parecer vamos a darle aquí submit
-->
debería estar todas en true si fecha de nacimiento y con que la comparé vamos a ver
-->
a la misma con la misma si si si fecha de nacimiento muchísimas gracias submita aquí
-->
y efectivamente es como usted sí dígame quién me habló disculpe
-->
brenda voy para allá listo
-->
bueno ah listo ahí dele clic por favor y vamos a darlo operador greater dan es el tercero ese
-->
que es ahí perfecto ese de ahí use envalue dele clic ahí porque malo es para un valor
-->
fijo y estático dele clic a ese valor y escoja other column no escoja other column porque
-->
la vamos a comprar el con fecha de nacimiento other column y ahora en el column que le
-->
apareció escoja la fecha de nacimiento fecha de nacimiento dele submi si es tan amable envíe
-->
dele submi para que le cree la perfecto comparemos aquí entonces voy a cambiar aquí la fecha
-->
listo me voy a cambiar aquí a 1981 debería 1981
-->
y aquí hay algo de la herramienta que
-->
bueno yo lo hubiese hecho como desarrollador que automáticamente cuando
-->
se hizo un registro ejecutar a esto creo que de pronto lo pensó porque le consumía mucho
-->
tiempo me tocaría volver nuevamente a hacer la evaluación con submi para que este cambio
-->
que hice aquí a no porque perdón en realidad no lo hizo fue porque en realidad estoy
-->
reemplazando después de comparar entonces me tocaría subir este valor aquí a la
-->
tercera posición para que reemplace y después vuelva a comparar entonces y aquí está entonces
-->
el por sí ahí fue un error de apreciación y eso cual viene ahora con ver a listo
-->
listo el otro vamos a tomar la fecha de registro nuevamente y ya habíamos visto el cambio de
-->
formato el cambio de formato es que tú pues quisieses pasar como hicimos el caso particular
-->
de que estaba año mes día y tú quisiera pasar la mes día por ejemplo pero aquí está una
-->
de conversión vayamos entonces y escojamos fecha de registro y vamos a convertir en
-->
este convertir te preguntan entonces en qué formato está el formato que debería estar
-->
debería ser calendario gregoñano este que está aquí pero ahora si tú quieres lo puedes
-->
convertir a otros tipos de calendarios aquí lo que de pronto te puede o que pronto es conocido
-->
ese formato juliano y ese push day es el formato que se usa para time están al final es muy
-->
parecido pero no es igual la diferencia fundamental es el año con el cual tú vas a sacar el
-->
cálculo entonces mientras si mis cálculos no me fallan el push day lo calculas con la
-->
fecha del mil novecientos setenta y el full and they lo comparan con una fecha que no recuerdo
-->
es decir para poder darte el valor en que está al final como lo que te convierte es un
-->
número para poder saber qué fecha es ese número entonces lo que hace es que lo resta
-->
con la fecha base que tiene el calendario conviértelo por favor a push day este push
-->
day que está aquí y dale un sube mit debería darte un número aquí lo cree sobre la nueva
-->
sobre aquí está este número que está aquí representa entonces la fecha pero se me hace
-->
porque normalmente es más grande para evitar voy a darle aquí voy a eliminar este señor
-->
para que no crea no no debía ser eso debí darle un creen y un colón y mandarlo a ejecutar
-->
nuevamente voy a correr nuevamente fecha de registro y voy a hacer estas conversiones
-->
que se tienen aquí entonces era en el formato de is
-->
con ver de
-->
y aquí está el push day perdón está en grego en gregoña calendario y lo puedes pasar a
-->
push day permíteme y hago una consulta aquí porque se me escapó la diferencia de push y
-->
creo que está en están es diferente a juliano se basan en lo mismo pero es diferente es
-->
un momentico aquí y hago una consulta rápida es un momento
-->
es poch está en están
-->
y julio
-->
es poch empieza en el año primer o sea para calcular lo calculas con el 1 de enero del
-->
año 1970 el tan están bueno pero no me dice aquí la el juliano lo calculas con el 1 de
-->
enero del 47 13 antes de cristo o sea ese sí listo de cristo o sea juliano viene de cristo
-->
para acá el push empieza el año 70 para acá y el tan están bueno es un formato específico
-->
que se calcula como no me dice aquí pero bueno esa es la diferencia que hay en realidad son
-->
diferentes los tres cuál es mejor dependiendo del caso esto sí se usa bastante porque lo
-->
he usado mucho lo uso más que todo el tan están porque para evitar el problema de los
-->
porque es que hay algunos que usan el formato mes día año día mes año entonces mejor puedes
-->
usar un formato de esto intermedio en que al final tú puedes convertir un époche julian o
-->
el tan están lo puedes convertir a la fecha que es y en el formato que tú quieras entonces te
-->
da mucha versabilidad utilizada en alguno de estos formatos pero bueno ahí está la función
-->
que no es nada del otro mundo lo que hace es que te convierte a un en este caso convertimos
-->
creo que el que viene te convierte julian vamos a ver aquí nuevamente aprende que
-->
aquí hizo fue lo mismo es un momento que ya como que me está dando hambre el almuerzo
-->
pero es un momento a ver aquí listo vamos aquí a hacer lo mismo que hice ahora que
-->
se me perdió deis aquí está y había hecho un convert crear nueva columna y le voy a decir
-->
que sea époche de ahí entonces su mic aquí ahora sí y creo que ahora viene
-->
el de convertir a ahora bueno convertamos un lado porque aquí vamos a convertir a
-->
tallestán en la función que viene este señor que está aquí y el nuevo formato
-->
hay varios formatos como dice de julian vamos a usar el de la iso y debería también darme
-->
un número se te insana debería darme un número también si no lo calculó es porque la fecha de
-->
registro no entiende el formato pero ahí aparece en blanco al parecer bueno ese ejemplo no me
-->
salió también ahí ahí lo que debe tener en cuenta es que hay algunas funciones al parecer
-->
el formato no sé no como que debió entenderlo pero como que no lo entendió y él no pudo
-->
convertir termino ya esta parte de day ya casi para irnos al break del almuerzo que más nos
-->
falta extraer parte de la fecha entonces estamos en fecha de registro extraer parte
-->
de la fecha aquí tengo un error no sé si sale aquí un error voy a volverme a loguiar
-->
no me espera un momento por favor sería tdp
-->
para que me cerró la sesión un momento
-->
y es
-->
qué pasa aquí no sé si ésta me funciona no
-->
espero un momento que está cargando