Talend Big Data Integration y Ecosistema de Talend Videos

                WEBVTT

00:00:00.000 --> 00:00:09.160
si pudiste acceder, si, bueno los restantes por favor vean accediendo al

00:00:09.160 --> 00:00:14.000
a la interfaz del Talent Data Fabric y se ubican en el Talent Data Stewards

00:00:14.660 --> 00:00:20.280
para terminar el ejercicio del día de ayer, simplemente es una algo que una

00:00:20.280 --> 00:00:25.160
temática que deseo adicionar nada más, es más del Talent File Line que del

00:00:25.160 --> 00:00:31.400
Talent Data Stewards, listo algunos ya están accediendo, Fernan en el caso tuyo

00:00:31.400 --> 00:00:35.460
accedes y efectivamente será el browser de preferencia, el de Chrome o el de Edge

00:00:35.460 --> 00:00:41.460
el que tú quieras, listo perfecto, ahí entra a la página talent.com, toca

00:00:41.460 --> 00:00:48.880
talent.com, esa que está ahí perfecto, en la parte superior derecha está un

00:00:49.040 --> 00:00:57.240
que dice Free Tial, entra ahí por favor, dale click listo, perfecto

00:00:58.780 --> 00:01:03.900
y ahora te vas a registrar en el formulario que va a aparecer ahora

00:01:05.200 --> 00:01:09.600
dale entonces, lo importante de ahí de toda la información es que coloques el

00:01:09.600 --> 00:01:12.720
nombre, el correo empresarial, en este caso te registra con el correo DAXA

00:01:12.720 --> 00:01:20.000
por favor, si le están amable, si copiaste de tu máquina a la máquina virtual

00:01:20.000 --> 00:01:24.060
quizás fue que no habilitaste, eso depende directamente del browser, si

00:01:24.060 --> 00:01:28.080
habilitaste es el portapapeles, entonces bueno, registra ahí con tu

00:01:28.080 --> 00:01:33.960
correo, entonces el browser entonces, listo, lo demás si puede ser cualquier

00:01:33.960 --> 00:01:37.400
información, lo importante que sea el correo empresarial

00:01:39.100 --> 00:01:41.680
listo, cuando actives el trial te va a llegar un correo y

00:01:41.680 --> 00:01:46.800
ese correo te va a habilitar para que escojas un tenan, escoja el que tú

00:01:46.800 --> 00:01:52.140
quieras, ya sea de Azure o de AWS, no sé si lo hace directamente y no sé si

00:01:52.140 --> 00:01:55.020
puedes acceder directamente aquí a tu correo en la máquina virtual o si

00:01:55.020 --> 00:02:02.740
quieres accedes allá desde tu máquina, como tú desees, los restantes por favor

00:02:03.460 --> 00:02:08.720
verifiquen en el Data Inventory que tenga los dos dataset que tomamos el

00:02:08.720 --> 00:02:14.220
día de ayer, que fue el de pasajeros y el de vuelos, ese dataset estaba

00:02:14.220 --> 00:02:21.020
inicialmente en un S3 y lo que hicimos fue entonces traernos ese dataset al

00:02:21.020 --> 00:02:25.120
Talent Cloud, esos son los que vamos a trabajar, es un ejemplo muy pequeño

00:02:25.120 --> 00:02:29.220
ya para terminar el tema del Data Stagworth y seguir con el tema del

00:02:29.220 --> 00:02:32.520
Talent Data Preparation

00:02:37.200 --> 00:02:50.140
Sí, te llegó el correo, Fernanda, perdón, perdón, no te escuché, qué pena, sí,

00:02:50.940 --> 00:02:59.260
te tuvo que llegar y algo así como iniciar un Lex y te va a pedir

00:02:59.260 --> 00:03:02.500
escoger el tenan, más que todo la ubicación donde van a quedar los

00:03:02.500 --> 00:03:10.500
datos, ahí puedes escoger AWS o Azure, el que tú prefieras y al final no te

00:03:10.500 --> 00:03:11.060
llega todavía

00:03:33.020 --> 00:03:37.420
No sé si me muestras, por favor, comparte ahora tu pantalla donde estás

00:03:37.420 --> 00:03:42.120
abriendo directamente de tu máquina, no sé si tú compartes la pantalla, a ver

00:03:43.220 --> 00:03:45.900
sí, muéstrame el correo que llegó

00:03:47.160 --> 00:03:53.360
el correo que te llegó a AXA, a la cuenta de AXA, sí, dale click ahí en

00:03:55.300 --> 00:03:55.820
Lex

00:03:58.800 --> 00:04:00.140
dale click ahí

00:04:07.860 --> 00:04:11.900
ahora intenta lo guiarte para ver, tú tenías, tú habías creado alguna cuenta

00:04:11.900 --> 00:04:13.540
anteriormente con Talent

00:04:16.100 --> 00:04:21.900
porque si la creaste ya los 14 días de trial se nos acabaron

00:04:21.900 --> 00:04:24.160
tú lo habías creado, sí

00:04:31.280 --> 00:04:39.820
Ah, el Data Catalog, pero no recuerdo, a ver, el problema es que los 14 días esos

00:04:42.340 --> 00:04:47.060
deja decirle a Jimena para ver si nos colabora con algún correo de la

00:04:47.060 --> 00:04:51.300
empresa de ella y podamos crear para que funcione, un momento, por favor

00:05:19.020 --> 00:05:21.820
a ver

00:05:21.820 --> 00:05:29.500
¿Verdad? Por favor Listo, ¿Eh?

00:05:29.500 --> 00:05:31.020
Hagamos algo, Fernanda, eh,

00:05:31.100 --> 00:05:32.180
vamos a terminar un ejemplito

00:05:32.180 --> 00:05:33.500
del día de ayer mientras

00:05:33.500 --> 00:05:35.260
conseguimos una cuenta y ya

00:05:35.260 --> 00:05:37.240
con esa cuenta eh que me va a

00:05:37.240 --> 00:05:39.140
conseguir ahora Jimena, podamos

00:05:39.140 --> 00:05:40.260
iniciar entonces el curso del

00:05:40.260 --> 00:05:41.940
que es el que vamos a iniciar

00:05:41.940 --> 00:05:45.440
el día de hoy, ¿OK? Entonces

00:05:45.440 --> 00:05:48.120
terminemos el el lo del día

00:05:51.820 --> 00:05:52.620
de ayer. Entonces, vamos a lo

00:05:52.620 --> 00:05:55.100
siguiente. Bueno, el día de

00:05:55.100 --> 00:05:57.880
ayer eh iniciamos con el talent

00:05:57.880 --> 00:06:00.580
data keywords. Básicamente

00:06:00.580 --> 00:06:02.100
analizamos los tres perfiles.

00:06:02.140 --> 00:06:03.400
El primer perfil era el del

00:06:03.400 --> 00:06:04.560
creador de la campaña, ese

00:06:04.560 --> 00:06:05.800
creador de la campaña tiene

00:06:05.800 --> 00:06:07.640
como función, crear el modelo

00:06:07.640 --> 00:06:10.260
de datos, crear la campaña,

00:06:10.460 --> 00:06:11.520
en la campaña tiene que

00:06:11.520 --> 00:06:13.520
definir roles, los roles que

00:06:13.520 --> 00:06:15.540
tiene la campaña, y el

00:06:15.540 --> 00:06:17.020
workflow que va a manejar y

00:06:17.020 --> 00:06:18.120
los diferentes pasos de ese

00:06:18.120 --> 00:06:19.780
workflow. Ese workflow tiene

00:06:19.780 --> 00:06:21.380
que ser asignado a unos roles

00:06:22.220 --> 00:06:23.940
específicos. Después vimos el

00:06:23.940 --> 00:06:26.420
operador de campaña que el

00:06:26.420 --> 00:06:27.840
perfil de él es principalmente

00:06:27.840 --> 00:06:29.100
listar las campañas que le

00:06:29.100 --> 00:06:30.920
fueron asignadas y más que

00:06:30.920 --> 00:06:33.340
todo poblar la campaña de

00:06:33.340 --> 00:06:34.660
tareas. Recordemos que las

00:06:34.660 --> 00:06:35.800
tareas corresponden a

00:06:35.800 --> 00:06:37.220
registros que deben ser

00:06:37.220 --> 00:06:38.320
revisados para algún proceso

00:06:38.320 --> 00:06:40.060
de calidad. Entonces, las

00:06:40.060 --> 00:06:41.040
tareas del día de ayer la

00:06:41.040 --> 00:06:42.060
hicimos tanto de forma

00:06:42.060 --> 00:06:43.520
manual como de forma

00:06:43.520 --> 00:06:44.660
automática. De forma manual

00:06:44.660 --> 00:06:46.900
creamos una tarea y de

00:06:46.900 --> 00:06:48.620
forma automática tomamos un

00:06:48.620 --> 00:06:51.200
data set y subimos y poblamo

00:06:51.200 --> 00:06:52.760
los datos de ese data set con

00:06:52.760 --> 00:06:54.680
la campaña. Y por último

00:06:54.680 --> 00:06:56.400
vimos el perfil que es el de

00:06:56.400 --> 00:06:58.360
Data Stewards, que es la

00:06:58.360 --> 00:06:59.780
persona encargada de

00:06:59.780 --> 00:07:01.200
corregir los diferentes

00:07:01.200 --> 00:07:02.180
tareas que le fueron

00:07:02.180 --> 00:07:04.020
asignadas. Esos son los

00:07:04.020 --> 00:07:05.220
perfiles básicos que tiene

00:07:05.220 --> 00:07:06.520
y es el core de la

00:07:06.520 --> 00:07:07.840
herramienta. La herramienta

00:07:07.840 --> 00:07:09.020
está más pensada, como

00:07:09.020 --> 00:07:10.480
dije el día de ayer, para

00:07:10.480 --> 00:07:12.120
la parte de curación y

00:07:12.120 --> 00:07:15.040
arbitraje de datos. Si tú

00:07:15.040 --> 00:07:16.260
la quieres adaptar para

00:07:16.260 --> 00:07:17.240
algunos elementos muy

00:07:17.240 --> 00:07:18.360
específico de tu empresa,

00:07:18.460 --> 00:07:20.380
pues hay que ver la forma en

00:07:20.380 --> 00:07:22.000
que eso se podía adaptar.

00:07:22.280 --> 00:07:24.220
Vamos entonces a terminar

00:07:24.220 --> 00:07:27.300
un ejemplo del día de ayer.

00:07:27.540 --> 00:07:28.660
Sí, dígame.

00:07:32.420 --> 00:07:33.460
Perdió, sí, sí, sí, claro,

00:07:33.680 --> 00:07:35.200
porque sí, sí, sí, claro que

00:07:35.200 --> 00:07:39.340
sí, claro que sí. Ahora sí.

00:07:40.060 --> 00:07:41.300
Perfecto. Por darme

00:07:41.300 --> 00:07:43.840
entonces. Listo, para ahora

00:07:43.840 --> 00:07:45.320
entonces, para lo siguiente,

00:07:46.020 --> 00:07:48.300
vamos al Talent Pile Line,

00:07:48.300 --> 00:07:53.160
Pile Line Designer, vamos al

00:07:53.160 --> 00:07:56.100
Pile Line Designer y vamos a

00:07:56.100 --> 00:08:00.000
agregar un Pile Line.

00:08:00.540 --> 00:08:02.220
Listo, este Pile Line,

00:08:02.720 --> 00:08:03.660
vamos a cambiar el nombre,

00:08:03.820 --> 00:08:04.700
recuerde que para cambiar

00:08:04.700 --> 00:08:06.540
el nombre, nos colocamos

00:08:06.540 --> 00:08:08.060
justamente en el nombre,

00:08:08.860 --> 00:08:10.140
el mouse, automáticamente

00:08:10.140 --> 00:08:11.600
nos aparece un lapicito,

00:08:11.600 --> 00:08:13.200
damos clic en el lápiz y

00:08:13.200 --> 00:08:14.160
cambiamos el nombre.

00:08:14.660 --> 00:08:15.840
Entonces, voy a colocar aquí

00:08:15.840 --> 00:08:18.800
como nombre, Poblar, Datos,

00:08:21.920 --> 00:08:24.200
Campaña, Aerolínea. Listo,

00:08:24.440 --> 00:08:25.920
perfecto, hacemos esto aquí.

00:08:29.660 --> 00:08:30.960
Listo, algunos todavía están

00:08:30.960 --> 00:08:33.320
accediendo al Pile Line,

00:08:33.540 --> 00:08:34.740
está cargando en algunos

00:08:34.740 --> 00:08:37.680
casos. El caso de Brenda

00:08:37.680 --> 00:08:38.760
todavía está cargando,

00:08:38.940 --> 00:08:40.100
perfecto, espero un momento.

00:08:40.780 --> 00:08:42.420
Voy un momento a tu pantalla,

00:08:42.740 --> 00:08:43.660
Brenda, que se me hace extraño

00:08:43.660 --> 00:08:44.700
que haya demorado tanto para

00:08:45.360 --> 00:08:46.880
cargar. Espera un momento.

00:08:47.320 --> 00:08:49.440
No, no quería eso.

00:08:49.460 --> 00:08:50.620
Espérate un momento, por

00:08:50.620 --> 00:08:52.320
favor. Sí, termino a veces.

00:08:54.080 --> 00:08:54.520
Listo.

00:08:57.100 --> 00:08:58.300
Bueno, listo, Brenda.

00:08:58.840 --> 00:09:00.940
Acceda para ver si le puede

00:09:00.940 --> 00:09:02.120
adicionar el Pile Line.

00:09:02.340 --> 00:09:03.060
Sí, ahí, perfecto.

00:09:03.260 --> 00:09:04.260
Cambie el nombre, por favor,

00:09:04.380 --> 00:09:06.680
a Poblar, Datos,

00:09:07.060 --> 00:09:08.020
Campaña, Aerolínea.

00:09:08.120 --> 00:09:09.760
Y vamos por ese punto que

00:09:09.760 --> 00:09:12.520
está ahí.

00:09:13.040 --> 00:09:14.520
Perfecto, continuamos entonces.

00:09:16.460 --> 00:09:17.880
Listo, perfecto. Listo,

00:09:18.000 --> 00:09:19.400
sigamos entonces. Ahora,

00:09:19.700 --> 00:09:20.880
vamos a hacer un porque

00:09:20.880 --> 00:09:22.360
resulta que los datos están

00:09:22.360 --> 00:09:24.020
repartidos en dos data sets.

00:09:24.900 --> 00:09:26.540
Entonces, para eso, para

00:09:26.540 --> 00:09:27.880
agregar los datos de entrada,

00:09:28.540 --> 00:09:29.660
vamos a darle clic aquí en

00:09:30.760 --> 00:09:31.320
add source.

00:09:34.980 --> 00:09:36.440
Y vamos a escoger en este

00:09:36.440 --> 00:09:38.520
caso, pues, el data set

00:09:38.520 --> 00:09:40.260
que le hemos llamado pasajeros.

00:09:41.480 --> 00:09:43.120
Y le damos aquí select.

00:09:47.900 --> 00:09:49.920
Y para hacer un join, vamos a

00:09:49.920 --> 00:09:51.500
darle clic aquí en el más que

00:09:51.500 --> 00:09:53.540
aparece después del de la

00:09:53.540 --> 00:09:55.800
entrada del S3 de pasajeros.

00:09:57.200 --> 00:09:59.540
Y vamos a escoger como

00:10:00.840 --> 00:10:02.280
procesamiento eh la condición

00:10:02.280 --> 00:10:04.840
que dice join. Dele aquí

00:10:04.840 --> 00:10:08.180
clic en join. Y le debería

00:10:08.180 --> 00:10:11.060
aparecer un recuadro para

00:10:11.060 --> 00:10:12.780
definir otra fuente de entrada.

00:10:13.940 --> 00:10:15.660
Entonces, dele nuevamente clic

00:10:15.660 --> 00:10:17.960
en add source y va a escoger

00:10:17.960 --> 00:10:19.780
la el otro data set con el

00:10:19.780 --> 00:10:20.700
cual vamos a hacer el join,

00:10:20.760 --> 00:10:21.700
que en este caso sería

00:10:23.680 --> 00:10:24.100
vuelos.

00:10:27.360 --> 00:10:28.400
Eh, Luis, dale clic en el

00:10:28.400 --> 00:10:29.460
más, por favor, el que está

00:10:29.460 --> 00:10:30.740
al ladito del ese ahí.

00:10:30.800 --> 00:10:31.900
Perfecto, dale clic en ese.

00:10:32.000 --> 00:10:34.180
Y coge join, la funcionalidad

00:10:34.180 --> 00:10:37.380
que se llama join. Y listo, te

00:10:37.380 --> 00:10:38.260
tuvo que haber agregado.

00:10:38.340 --> 00:10:39.700
Entonces, en la nueva fuente de

00:10:39.700 --> 00:10:42.020
entrada, escoge vuelos.

00:10:42.160 --> 00:10:43.360
Perfecto, listo, select.

00:10:43.500 --> 00:10:44.780
Perfecto, ahora vamos a hacer

00:10:44.780 --> 00:10:45.720
el proceso de join.

00:10:46.260 --> 00:10:47.560
Dele clic aquí donde dice

00:10:47.560 --> 00:10:48.540
join, por favor.

00:10:50.700 --> 00:10:52.940
Y definimos las claves de

00:10:52.940 --> 00:10:54.800
enlace para los dos data set.

00:10:55.940 --> 00:10:57.720
En este caso, entonces, me

00:10:57.720 --> 00:11:01.240
pide la left sería lo el

00:11:01.240 --> 00:11:01.900
data set que está en la

00:11:01.900 --> 00:11:03.540
parte de arriba y el ray

00:11:03.540 --> 00:11:04.540
sería el data set que está en

00:11:04.540 --> 00:11:05.140
la parte de abajo.

00:11:06.180 --> 00:11:07.060
Entonces, los data set se

00:11:07.060 --> 00:11:08.520
unen a través de una llave

00:11:08.520 --> 00:11:11.180
llamada número de vuelo.

00:11:11.880 --> 00:11:13.400
Entonces, aquí aparece el

00:11:13.400 --> 00:11:15.500
número de vuelo.

00:11:16.840 --> 00:11:18.580
Y aquí está, entonces,

00:11:19.100 --> 00:11:20.340
número de vuelo.

00:11:20.740 --> 00:11:22.580
En caso que los data set

00:11:22.580 --> 00:11:23.960
se unan a través de

00:11:23.960 --> 00:11:24.960
diferentes llaves o

00:11:24.960 --> 00:11:26.240
diferentes columnas,

00:11:26.400 --> 00:11:28.040
simplemente se agrega aquí

00:11:28.040 --> 00:11:29.320
cada una de las columnas

00:11:29.320 --> 00:11:30.260
aquí en el más que está

00:11:30.260 --> 00:11:31.580
aquí que toman la

00:11:31.580 --> 00:11:32.020
condición.

00:11:33.420 --> 00:11:36.620
Recuerde algo, esa herramienta

00:11:36.620 --> 00:11:38.740
no guarda automáticamente los

00:11:38.740 --> 00:11:40.060
cambios, sino cada vez que

00:11:40.060 --> 00:11:41.040
haya un cambio, hay que

00:11:41.040 --> 00:11:41.920
darle safe.

00:11:42.640 --> 00:11:43.640
Aquí hay una opción que

00:11:43.640 --> 00:11:45.000
dice que mantenga las dos

00:11:45.000 --> 00:11:47.180
columnas, pues, si usted

00:11:47.180 --> 00:11:48.920
desea, si no está habilitada,

00:11:49.200 --> 00:11:50.480
significa que aunque haya

00:11:50.480 --> 00:11:51.720
número de vuelo aparecido

00:11:51.720 --> 00:11:53.820
dos veces, uno en pasajeros

00:11:53.820 --> 00:11:54.820
y uno en vuelo, nada más

00:11:54.820 --> 00:11:56.200
va a salir, va a salir, va

00:11:56.200 --> 00:11:57.320
a tener como salida,

00:11:57.500 --> 00:11:58.580
solamente un número de

00:11:58.580 --> 00:11:59.220
vuelo.

00:11:59.220 --> 00:12:02.540
Y le por aquí safe.

00:12:03.000 --> 00:12:03.820
Y listo.

00:12:09.060 --> 00:12:10.340
Perfecto, listo.

00:12:13.700 --> 00:12:14.540
Perfecto, démonos para

00:12:14.540 --> 00:12:15.500
guardar ahí, ¿qué raro?

00:12:15.860 --> 00:12:16.500
Listo.

00:12:17.560 --> 00:12:19.440
Ahora vamos a escoger como

00:12:19.440 --> 00:12:21.960
destino la campaña a la

00:12:21.960 --> 00:12:23.120
cual yo quiero poblar.

00:12:23.240 --> 00:12:24.640
Entonces, para este caso en

00:12:24.640 --> 00:12:26.480
particular, dele click acá

00:12:26.480 --> 00:12:28.740
en el destino y le va a

00:12:28.740 --> 00:12:37.540
entonces unas pestañas en la parte de arriba que dice dataset y campañas, escoja campañas y

00:12:37.540 --> 00:12:43.540
selecciona la campaña. Recuerde que esta herramienta solamente permite popular campañas de tipo

00:12:43.540 --> 00:12:52.180
resolución y de tipo merging. Ahora, si desea popular los otros tipos de campañas, lo hace

00:12:52.180 --> 00:12:56.700
con una herramienta que se llama el talent studio, que ya está instalada en su empresa.

00:12:56.700 --> 00:13:01.820
Entonces vamos a escoger aquí que sería campaña, variación, aerolíneas, selecciona.

00:13:05.680 --> 00:13:11.360
Aquí tengo un problema por la forma en que trabaja. Recuerde que para poder polar los datos

00:13:11.360 --> 00:13:18.400
hacia una campaña, lo que hace la herramienta es que hace un match por nombre de columna y

00:13:18.400 --> 00:13:27.320
en este caso me parece un poco tedioso esta parte y además de eso es caso sensitivo, es decir,

00:13:27.340 --> 00:13:32.320
si la columna en alguno de los casos está mixto y en la otra está en minúscula,

00:13:32.360 --> 00:13:37.100
no va a cargar los datos. Tengo un problema que se me va a formar aquí que va a ser muy

00:13:37.100 --> 00:13:42.180
común con este tipo de herramienta, es que los nombres de columna que están en el modelo

00:13:42.180 --> 00:13:48.240
de datos quizás no coinciden con los nombres de columna del dataset. Eso es común ¿Por qué?

00:13:48.240 --> 00:13:54.280
Porque el que crea la campaña, que asimismo crea el modelo, no sabe exactamente cómo están

00:13:54.280 --> 00:14:01.200
guardadas las columnas dentro de los dataset, que pueden ser tablas o cualquier elemento que

00:14:01.200 --> 00:14:06.060
tenga. Entonces, si tú eres operador de campaña, tienes que tener la capacidad de

00:14:06.240 --> 00:14:11.600
poder mapear a los nombres correctos. Más específicamente el problema que tengo es

00:14:11.600 --> 00:14:18.760
que el nombre del cliente que está en pasajeros aparece solamente como nombre y en el modelo

00:14:18.760 --> 00:14:25.480
de datos aparece como nombre cliente. Si intentamos ejecutar actualmente el JOK así

00:14:25.480 --> 00:14:30.660
como está, vamos a tener un problema en que en el caso particular del nombre cliente que

00:14:30.660 --> 00:14:36.160
aparece en campaña y nombre dataset, ese columna no va a tener datos, se va a llenar de forma

00:14:36.160 --> 00:14:41.300
vacía, o sea va a tener datos vacíos, perdón. Para esto entonces la herramienta plantea

00:14:41.300 --> 00:14:47.420
lo siguiente, agregue aquí un nuevo elemento, un nuevo componente, dele click aquí en

00:14:47.420 --> 00:14:55.740
el más. Y ahora en este más escoja una opción que se llama field selector, este

00:14:55.740 --> 00:15:02.360
el de campo, sector de campo, esta que está aquí. Sí, dígame. Y quién me

00:15:02.360 --> 00:15:09.420
lo que pena. Alejandro, un momento, listo, vamos a ver. Listo, ¿qué no te despliega?

00:15:10.260 --> 00:15:16.320
El fiel, ah no, no te despliega ahí porque él intenta buscar datos en esa campaña

00:15:16.320 --> 00:15:20.720
y todavía no ha ejecutado, entonces está vacía y ahí se queda bloqueado. Entonces

00:15:20.720 --> 00:15:24.060
como todavía no hemos ejecutado, primero dale click ahí en el más, perfecto, field

00:15:25.240 --> 00:15:32.600
selector, el de abajo, ese, listo. Bueno, aquí tengo el field selector, este que

00:15:32.600 --> 00:15:38.040
está aquí, este componente lo que va a hacer es que va a permitirle mapear,

00:15:38.240 --> 00:15:43.960
primero, filtrar las columnas que deseas de salida y segundo, en algunos casos si

00:15:43.960 --> 00:15:49.420
tú lo deseas, cambiar los nombres de las columnas. Listo, aquí tiene dos

00:15:49.420 --> 00:15:56.420
modos, un modo simple y un modo avanzado. Vamos entonces a esta parte simple que es

00:15:56.420 --> 00:16:01.220
más sencilla. Listo, entonces dele click aquí en el modo simple que es el que

00:16:01.220 --> 00:16:06.840
está por defecto, dele click aquí en el, como para abrir una ventana y

00:16:06.840 --> 00:16:12.900
editar. Y aquí usted puede mapear los datos que desea de salida, esto es

00:16:12.900 --> 00:16:18.020
como un filter column, pero para el caso particular que va hacia una

00:16:18.500 --> 00:16:22.900
campaña, aunque la campaña tenga menos columnas que los datos de entrada, pues

00:16:22.900 --> 00:16:26.640
él solamente va a tomar los datos que mapea a nivel de nombre. Quiere decir que

00:16:26.640 --> 00:16:31.240
si entran 15 columnas y la campaña tiene cuatro, él solamente va a

00:16:31.240 --> 00:16:35.620
intentar mapear esas cuatro columnas y cómo las mapea por nombre. Entonces

00:16:35.620 --> 00:16:38.820
aquí tengo un problema que es con esta columna que se llama nombre,

00:16:39.040 --> 00:16:43.580
¿por qué? Porque esta columna nombre se llama nombre cliente en el modelo

00:16:43.580 --> 00:16:51.220
datos que definimos. Para cambiarle el nombre, seleccione, se ubica el mouse, le

00:16:51.220 --> 00:16:58.540
da click sobre, un momentito que voy a cogerle el truco aquí, aquí le aparece cuando

00:16:58.540 --> 00:17:08.560
selecciona. Aquí, ah, listo. Coloque el mouse un poquito a la

00:17:08.560 --> 00:17:11.940
derecha al final del nombre de la columna y le va a aparecer un

00:17:12.120 --> 00:17:18.220
lápizito ahí. Dele click en ese lápiz y va a especificar cómo desea mapear el

00:17:18.220 --> 00:17:22.020
nombre de la columna. En este caso la hemos llamado por estándar nombre

00:17:22.020 --> 00:17:28.860
underscore cliente y dele click por favor en el chulito para que acepte.

00:17:29.100 --> 00:17:33.900
Dele editar por favor en el click y debería parecerle que hay un campo

00:17:33.900 --> 00:17:40.700
que está renombrado. Perfecto, listo. Ahora se nos olvidó configurar la

00:17:40.700 --> 00:17:44.380
salida de la campaña, dele click por favor en la salida de la campaña que se nos

00:17:44.380 --> 00:17:48.020
olvidó configurar. Y recordará que esta herramienta permite hacer dos

00:17:50.720 --> 00:17:54.800
funciones sobre las tareas que tiene una campaña que son o insertar más

00:17:54.800 --> 00:17:59.660
tareas o borrar tareas existentes. Para este caso en particular vamos a

00:18:00.280 --> 00:18:05.180
insertar, vamos a coger el primer estado que se llama en revisión, se la

00:18:05.420 --> 00:18:10.740
vamos a asignar al dueño de la tarea que es Luis Martínez.

00:18:11.180 --> 00:18:16.740
De pronto se preguntará por qué sale por defecto no asignada, por qué quizás en el

00:18:16.740 --> 00:18:21.360
momento de poblar todavía no sabe a quién le puede asignar, porque la

00:18:21.360 --> 00:18:25.420
herramienta le permite tener un paso en el workflow asignado a varias

00:18:25.420 --> 00:18:30.040
personas, pero tú podías dividir las tareas entre esas personas que

00:18:31.180 --> 00:18:36.740
digamos están para ese paso. Esta prioridad aquí tú puedes manejarla,

00:18:36.960 --> 00:18:42.220
pues ya es algo más interno de cómo la vas a manejar, si es alta, media, baja

00:18:42.220 --> 00:18:45.580
y cómo internamente se maneja cada una de esas prioridades.

00:18:47.240 --> 00:18:51.320
Listo y aquí recuerde darle aquí safe.

00:18:55.260 --> 00:19:00.040
Y listo, ahora lo que deberíamos hacer es ejecutar entonces el job.

00:19:04.180 --> 00:19:07.120
Listo, aquí escoge la infraestructura.

00:19:15.260 --> 00:19:21.100
Bien, el tiempo de ejecución demora porque los recursos están compartidos

00:19:21.100 --> 00:19:25.060
con millones de usuarios que han creado alguna cuenta teal.

00:19:25.380 --> 00:19:31.360
Asumo que cuando usted pues adquiere una licencia de talent cloud, pues el

00:19:31.360 --> 00:19:36.400
tena en el cual reserva los recursos es privado para usted, entonces los

00:19:36.400 --> 00:19:39.800
tiempos de respuesta pues tendrían que bajar dramáticamente.

00:19:43.580 --> 00:19:44.900
Sí, dígame.

00:19:47.700 --> 00:19:50.660
Ok, vamos a ver.

00:19:52.420 --> 00:19:58.860
Sí, eso es porque, bueno, ese warning que está ahí es porque intenta

00:19:58.860 --> 00:20:03.800
buscar datos en la campaña y no hay. Dele a F5, por favor, a su

00:20:03.800 --> 00:20:08.460
ventana, de F5 recargar un momento. Váyase nuevamente a la campaña cuando

00:20:08.460 --> 00:20:13.400
termine de recargar, dele clic en la campaña y sí, sí tomo los campos.

00:20:13.400 --> 00:20:19.460
Listo, dele run ahora. Escoja, por favor, el engine tipo Spark

00:20:19.460 --> 00:20:28.340
Local y dele run, por favor. Si ya terminó, revise en su data

00:20:28.340 --> 00:20:33.840
staywars, si las tareas, por favor, si son tan amables, las

00:20:33.840 --> 00:20:37.680
tareas de la campaña de la aerolínea y deberían estar ahí.

00:20:39.940 --> 00:20:48.200
Aquí está, TAS, aerolínea. Y aquí está. Y el caso del nombre cliente,

00:20:48.300 --> 00:20:53.740
aquí me salió un error. Vea, dese cuenta que este nombre cliente no me lo tomó.

00:20:53.800 --> 00:20:59.580
Voy a revisar el modelo para ver qué pasó, cómo lo llamé. En el modelo lo llamé.

00:21:01.560 --> 00:21:02.820
El campo lo llamé.

00:21:05.780 --> 00:21:11.780
Perdón, es el modelo de la aerolínea. El nombre cliente lo llamé. Nombre

00:21:11.780 --> 00:21:14.920
underscore cliente. Voy a ver cómo salió de este lado. Qué raro.

00:21:20.780 --> 00:21:24.280
Reviso para ver el pipeline. No sé si ha salido el mismo error.

00:21:30.670 --> 00:21:34.550
Algo particular, no me tomó la configuración. No sé por qué.

00:21:34.770 --> 00:21:38.030
Dese cuenta que esta configuración no sé si fue que no la salvé.

00:21:38.470 --> 00:21:44.290
Nombre underscore cliente. Editar.

00:21:45.990 --> 00:21:52.150
Un momento, un momento. Aquí nuevamente, nombre underscore cliente.

00:21:53.050 --> 00:21:58.010
Doy el chulito. Doy editar. Y creo que no le di safe.

00:21:59.970 --> 00:22:03.630
Ahora sí. Confirmo para ver. Listo. Intento ejecutar nuevamente.

00:22:04.990 --> 00:22:08.110
El caso suyo, Brenda, seleccione todo. Listo. Ahí cambia el nombre.

00:22:09.910 --> 00:22:15.130
Y a mí fue que no le di safe. Dele ahí clic, por favor. Nombre cliente.

00:22:15.230 --> 00:22:18.150
Y tiene que darle el chulito al final porque si no, no tiene el cambio.

00:22:39.190 --> 00:22:47.570
Dele safe ahí si está mal Brenda para que tenga el cambio porque si no, no lo, no lo mantiene.

00:22:50.950 --> 00:22:55.310
Listo. Reviso ahora sí. Nuevamente, debería tener el doble de tareas,

00:22:55.430 --> 00:23:01.850
pero las tareas que agregué ahora deberían tener ahora sí el nombre cliente.

00:23:08.130 --> 00:23:11.210
Efectivamente, aquí están las tareas nuevas que agregué,

00:23:11.850 --> 00:23:13.450
pero ahora con el nombre de cliente.

00:23:15.190 --> 00:23:17.450
Mientras alguno termina para que hiciste ejemplo,

00:23:18.030 --> 00:23:22.490
porque es muy común que los nombres de los modelos no cuadren exactamente con

00:23:22.490 --> 00:23:28.170
los nombres de columna del darsteco original y eso entonces va a impedir que se complete.

00:23:29.010 --> 00:23:31.530
Jimena, ibas a comentar algo. Coloca en AWS, no hay problema.

00:23:31.690 --> 00:23:35.030
Manda, por favor, el correo y la contraseña.

00:23:37.770 --> 00:23:38.810
Ok, perfecto.

00:23:38.810 --> 00:23:39.950
Bien, ese es el ejemplo.

00:23:40.410 --> 00:23:44.870
Entonces, el caso Brenda, revisemos para ver el caso suyo.

00:23:44.990 --> 00:23:48.730
Tiene los datos, tiene todas las tareas vacías.

00:23:48.950 --> 00:23:51.370
Muestren si es tan amable el pail line.

00:23:51.650 --> 00:23:55.630
Listo, revisemos que tampoco Brenda le aquí estoy compartido su pantalla y

00:23:55.630 --> 00:23:58.650
revise para ver si quizás tiene el mismo problema.

00:23:59.090 --> 00:24:00.830
Vaya al fiel selector si es tan amable.

00:24:02.130 --> 00:24:05.630
Muestren por favor la configuración de ese fiel selector a nivel de nombres de

00:24:05.630 --> 00:24:07.370
por favor.

00:24:07.670 --> 00:24:08.350
Dele clic ahí.

00:24:08.650 --> 00:24:13.010
Ok, nombre del cliente listo del editar a editar al del cáncer ahí por favor.

00:24:13.090 --> 00:24:17.250
Si no hicimos ningún cambio, cáncel y dele clic nuevamente en campaña.

00:24:17.370 --> 00:24:23.110
Ejecute por favor nuevamente ese ese yo para ver si fue que cuando se

00:24:23.110 --> 00:24:29.370
ejecutó quizás el había un problema de configuración de la ruta nuevamente para ver.

00:24:32.090 --> 00:24:33.210
Ok, perfecto.

00:24:34.230 --> 00:24:40.510
Brenda, voy a compartir por aquí por el chat las credenciales de acceso a la cuenta.

00:24:41.690 --> 00:24:44.970
Ese sería el correo.

00:24:47.150 --> 00:24:53.570
Y este sería la clave un poquito complicada, pero no la fácil.

00:24:54.810 --> 00:24:57.390
Perfecto, me decía alguien más.

00:24:59.110 --> 00:25:02.430
Beatriz, vamos un momento a ver qué pasó.

00:25:03.190 --> 00:25:05.350
Mientras esperamos a ver.

00:25:06.590 --> 00:25:08.830
Muéstreme listo el fiel selector.

00:25:08.930 --> 00:25:13.510
Muéstreme la campaña, la campaña de clic en la campaña, por favor.

00:25:13.790 --> 00:25:15.130
Eso perfecto ahí.

00:25:16.370 --> 00:25:17.330
Ah, ok.

00:25:17.690 --> 00:25:23.650
Creo que el estado a donde usted lo envió es revisado, no en revisión.

00:25:23.750 --> 00:25:24.690
Entonces hagamos lo siguiente.

00:25:25.070 --> 00:25:27.390
Váyase al Data Stewards.

00:25:28.050 --> 00:25:30.470
Listo, momento listo, Data Stewards.

00:25:30.470 --> 00:25:36.190
Entre a las tareas de la campaña de la Euro línea, que sería la segunda, perfecto.

00:25:36.510 --> 00:25:41.270
Y en el estado, cámbielo a revisado.

00:25:42.890 --> 00:25:43.610
Y ahí está.

00:25:44.430 --> 00:25:50.010
Aclaro que este error no es tan común hacerlo porque normalmente los pasos están

00:25:50.010 --> 00:25:51.970
especificados para un grupo de usuarios.

00:25:52.390 --> 00:25:55.950
Lo que pasa es que como nada más tenemos un solo usuario, ese usuario tiene derecho

00:25:55.950 --> 00:25:57.750
a mandar los datos a cualquier estado.

00:25:57.890 --> 00:25:59.110
Entonces, pero sí, ahí están.

00:25:59.310 --> 00:25:59.790
Perfecto.

00:25:59.790 --> 00:26:00.650
Perfecto, están ahí.

00:26:01.310 --> 00:26:02.430
El caso suyo.

00:26:02.690 --> 00:26:04.530
Vamos a ver, Brenda, si están a Maldes.

00:26:04.570 --> 00:26:08.290
Vamos al Data Stewards, vamos a las campañas para ver a las tareas de la campaña.

00:26:08.430 --> 00:26:09.590
Baje para ver, por favor.

00:26:09.790 --> 00:26:14.510
Sí, ¿qué creo yo que cuando la ejecutó la primera vez me pareció que seleccionó

00:26:14.510 --> 00:26:18.230
todas las columnas del fiel selector, o sea, no salía nada para la salida?

00:26:18.770 --> 00:26:20.730
Y ahora que las habilitamos y tienen los datos.

00:26:23.150 --> 00:26:23.570
Perfecto.

00:26:23.630 --> 00:26:29.770
El ejemplo lo que buscaba era solucionar el inconveniente cuando que es demasiado

00:26:29.770 --> 00:26:35.110
común, cuando el modelo de datos no coincide con los nombres de columna y por defecto,

00:26:35.210 --> 00:26:38.370
la herramienta lo que hace es un match por nombre de columna.

00:26:38.450 --> 00:26:42.950
Entonces, con el fiel selector es posible que usted pueda solucionar ese tipo de

00:26:42.950 --> 00:26:43.330
problemas.

00:26:44.690 --> 00:26:45.510
Eso es lo que busca.

00:26:47.370 --> 00:26:47.790
Listo.

00:26:50.170 --> 00:26:57.910
Ahora terminamos, por ejemplo, de ver algunas tipo de otras campañas que están

00:26:57.910 --> 00:26:58.890
aquí, por ejemplo.

00:26:58.890 --> 00:27:08.450
Digamos, esta campaña de merging o de fusión, lo que busca este merging o fusión es tratar de

00:27:08.450 --> 00:27:11.030
encontrar registros que tengan duplicados.

00:27:11.630 --> 00:27:16.630
Y la idea es que usted pueda encontrar cuál de esos registros se encuentran duplicados.

00:27:16.810 --> 00:27:17.530
¿Este sí es merging?

00:27:17.730 --> 00:27:18.150
Sí.

00:27:18.530 --> 00:27:27.410
Entonces, por ejemplo, aquí encontró una posible, digamos,

00:27:27.410 --> 00:27:31.750
duplicidad tanto a nivel de nombre, last name y muchos elementos.

00:27:32.210 --> 00:27:34.310
Entonces, lo veo desde este punto de vista.

00:27:34.450 --> 00:27:39.110
Usted tiene varias sucursales, tiene un dataset que va a unirlos.

00:27:39.230 --> 00:27:44.170
Entonces, la herramienta lo que hace es que usted hace una campaña de tipo merging y

00:27:44.170 --> 00:27:50.050
podía encontrar qué columnas tienen datos similares o iguales y usted decidir cuál de

00:27:50.050 --> 00:27:51.370
esos datos es el que va a quedar.

00:27:51.950 --> 00:27:53.850
Entonces, eso es lo que hace un merging.

00:27:54.830 --> 00:27:57.350
Este ejemplo, no lo voy a hacer, ya no me da tiempo.

00:27:58.410 --> 00:28:01.450
Vamos con una de arbitraje, esta que está aquí.

00:28:03.170 --> 00:28:06.270
Esta de arbitraje, note que aquí hay una pregunta.

00:28:07.010 --> 00:28:10.150
El arbitraje le había colocado el ejemplo de la siguiente forma.

00:28:10.310 --> 00:28:16.250
Usted va a acoger un candidato de unos candidatos y quiere tomar unos candidatos

00:28:16.250 --> 00:28:18.330
potenciales para que hagan una entrevista.

00:28:18.330 --> 00:28:24.510
Usted lee de manera que es visual nuevamente la característica si cumple o no

00:28:24.510 --> 00:28:27.430
cumple ese candidato y aquí resuelve la pregunta.

00:28:27.610 --> 00:28:29.690
En este caso, la pregunta es sí o no.

00:28:29.710 --> 00:28:35.110
Pero usted puede hacer cualquier tipo de preguntas con opciones múltiples de

00:28:35.110 --> 00:28:38.810
respuestas. Sí, no, quizás. Bueno, ahí lo podía hacer.

00:28:38.870 --> 00:28:43.810
Entonces, cada uno usted lee y puede decir yes, este sí, este no, este yes.

00:28:44.230 --> 00:28:48.270
Y usted entonces, cuando pase la siguiente etapa, pasarán las preguntas a la

00:28:48.270 --> 00:28:49.290
cual es usted decida.

00:28:49.590 --> 00:28:53.610
En este caso se configura para lo que sean sí, pasen a la siguiente etapa.

00:28:53.650 --> 00:28:56.150
Los no se quedan entonces en la etapa inicial.

00:28:57.030 --> 00:29:01.710
Esto es lo que haría una de tipo de arbitraje.

00:29:01.910 --> 00:29:05.650
Y la otra que es de agrupamiento.

00:29:06.070 --> 00:29:07.150
Esta que está aquí.

00:29:07.570 --> 00:29:12.290
Note entonces que lo que hace este señor es que a partir de un data sec

00:29:12.290 --> 00:29:15.710
toma características similares de los registros.

00:29:15.710 --> 00:29:17.410
Eso para qué es bueno?

00:29:17.530 --> 00:29:22.570
Es bueno cuando usted quiere segmentar, por ejemplo, los datos que puede

00:29:22.570 --> 00:29:27.770
segmentar los datos a nivel de ubicación, de estrato social y tomar

00:29:27.770 --> 00:29:29.730
decisiones con respecto a esos datos.

00:29:30.670 --> 00:29:35.430
Eso es. Al final, la herramienta no es más nada.

00:29:35.910 --> 00:29:41.310
Quizás se me escapó algo por ahí, pero eso es el total de la herramienta.

00:29:41.310 --> 00:29:43.210
No es más nada.

00:29:43.770 --> 00:29:45.170
Hay que se me haya pasado.

00:29:45.850 --> 00:29:49.090
Ya es. Eso es toda la herramienta completamente perfecto.

00:29:49.290 --> 00:29:53.210
Entonces aquí dejamos el tema del talent data staywars.

00:29:53.610 --> 00:29:56.190
Vamos a seguir con el tema del talent data preparation.

00:29:57.770 --> 00:29:59.450
Y eso terminamos el día de hoy.

00:29:59.450 --> 00:30:02.170
Debería terminar hasta donde terminemos el día de hoy y mañana sí

00:30:02.170 --> 00:30:04.350
seguimos con el tema del talent big data.

00:30:05.430 --> 00:30:09.030
Con ese talent big data me va a quedar un poco corto porque anteriormente

00:30:09.030 --> 00:30:10.190
eran cuatro días.

00:30:10.970 --> 00:30:12.370
Esto solamente son tres días.

00:30:12.370 --> 00:30:18.150
Entonces voy a tratar de colapsar la mayor cantidad de conocimiento de los

00:30:18.150 --> 00:30:23.750
ejemplos que vaya a ser, porque cuando empezamos este tema ya se había dado

00:30:23.750 --> 00:30:26.810
un curso que se llama el talent data integration que ya tenía una idea de

00:30:26.810 --> 00:30:27.810
cómo funcionaba el talent.

00:30:28.310 --> 00:30:31.670
Pero bueno, ahí vemos cómo hacemos para poder transmitir la mayor

00:30:31.670 --> 00:30:32.930
cantidad de conocimiento.

00:30:34.150 --> 00:30:36.230
Vamos a pasar de al talent data preparation.

00:30:37.590 --> 00:30:40.950
Fernanda, no sé si ya pudiste acceder.

00:30:40.950 --> 00:30:42.750
Te mandé las claves por ahí.

00:30:43.030 --> 00:30:45.430
No sé si se ve al cuerpo de listo.

00:30:45.510 --> 00:30:47.750
Voy para la pantalla un momento listo.

00:30:48.850 --> 00:30:51.950
Entonces voy aquí a lo siguiente que me cargue.

00:30:55.510 --> 00:30:57.170
No sé, salió aquí un error extraño.

00:30:57.170 --> 00:31:01.950
Espérate para ver si se fue directamente listo momento.

00:31:03.390 --> 00:31:05.590
Vamos a intentar lo guiarnos nuevamente a ver.

00:31:10.840 --> 00:31:13.760
Listo, está un poco lento al parecer.

00:31:14.480 --> 00:31:17.120
Dejé intento al F5 aquí porque ya está cargando.

00:31:18.620 --> 00:31:26.480
Listo, esperemos 30 segundos para que habilite este botón y podamos acceder

00:31:26.480 --> 00:31:29.120
a toda la herramienta de talent data fabric.

00:31:29.180 --> 00:31:30.740
Me esperan por favor los demás.

00:31:30.920 --> 00:31:34.800
Bien, si desea, vamos accediendo a la herramienta que se llama talent data

00:31:34.800 --> 00:31:38.200
preparation para poder subir algunos data sets.

00:31:38.420 --> 00:31:43.720
Ya sabemos que tenemos algunos problemas a nivel de tiempo de respuesta cuando

00:31:43.720 --> 00:31:45.400
intentamos subir a la cuna de la set.

00:31:46.840 --> 00:31:50.140
Por el problemita que tengo es que estoy compartiendo el tenen con muchos

00:31:51.600 --> 00:31:52.180
usuarios.

00:31:52.680 --> 00:31:53.340
Bueno, aquí está.

00:31:53.580 --> 00:31:56.340
Continuar listo, self explorer.

00:31:57.740 --> 00:32:02.240
No, por favor, Fernanda, no vamos a ubicar aquí en el talent data

00:32:02.240 --> 00:32:02.740
preparation.

00:32:03.700 --> 00:32:07.560
Por favor, este de aquí, listo.

00:32:07.720 --> 00:32:11.720
Listo, ya tomo el control con respecto a tu máquina virtual.

00:32:13.860 --> 00:32:14.760
Bueno, vamos a continuar.

00:32:14.900 --> 00:32:19.020
Antes de ver esta parte teórica, vamos a adelantarnos un poquito con este

00:32:19.020 --> 00:32:20.360
talent data preparation.

00:32:21.320 --> 00:32:23.300
Para esto vamos a hacer lo siguiente.

00:32:24.200 --> 00:32:26.220
Todos nos ubicamos en el talent data preparation.

00:32:29.100 --> 00:32:35.520
Y note que aquí tengo, en el menú vertical, tengo entonces un par de

00:32:35.520 --> 00:32:38.700
cosas que voy a explicar, pero aquí tengo nuevamente data set.

00:32:39.560 --> 00:32:49.720
Tome este data set y abra varias páginas en pestañas diferentes para

00:32:49.720 --> 00:32:53.600
poder ir cargando los diferentes ejemplos que vayamos a hacer.

00:32:54.360 --> 00:32:59.800
Entonces, en este caso he abierto tres pestañas sobre el data set.

00:33:00.360 --> 00:33:01.600
Abra tres, por favor.

00:33:01.720 --> 00:33:07.040
Y ahora se ubica en la primera pestaña y vamos a ir subiendo un

00:33:07.040 --> 00:33:09.600
par de data set que vamos a tomar como ejemplo.

00:33:10.420 --> 00:33:12.580
Primero que vamos a hacer entonces es lo siguiente.

00:33:12.860 --> 00:33:14.680
Váyase al escritorio de su máquina.

00:33:19.340 --> 00:33:23.080
Tengo el escritorio, escritorio.

00:33:24.760 --> 00:33:26.960
Váyase a la carpeta que se llama recursos.

00:33:28.540 --> 00:33:32.720
Accede a la carpeta que se llama TDP de talent data preparation.

00:33:33.540 --> 00:33:39.000
Accede a casos de estudios y va a donde dice ejercicios.

00:33:39.700 --> 00:33:43.360
Va al ejercicio número uno que es una carpeta y por cuestión de

00:33:43.360 --> 00:33:49.720
tiempo nada más suba el primer archivo que se llama data set limpieza

00:33:49.720 --> 00:33:52.520
datos clientes versión uno punto c s v.

00:33:53.060 --> 00:33:58.680
Tome este señor y lo suelta en la pestaña que dejó abierta del data set.

00:34:04.060 --> 00:34:12.540
Abre la siguiente pestaña y va a subir ahora el archivo que

00:34:12.540 --> 00:34:14.060
se llama ejercicio dos.

00:34:14.180 --> 00:34:18.220
Los demás no lo suba porque tiene que subir de nivel la pestaña en que

00:34:18.220 --> 00:34:21.620
estábamos, estábamos en ejercicio uno en la carpeta, suba de nivel la

00:34:21.620 --> 00:34:25.140
carpeta y ahora vamos a subir ejercicio dos.

00:34:30.280 --> 00:34:33.540
Y en la siguiente pestaña sube ejercicio tres.

00:34:34.740 --> 00:34:38.980
Le voy a pedir el favor que mientras de pronto haya algún tipo de

00:34:38.980 --> 00:34:42.720
sororidad muy particular de pronto con un problema con alguien que no

00:34:42.720 --> 00:34:46.540
le funcione algo, vaya subiendo usted estos archivos, el cuatro,

00:34:46.560 --> 00:34:50.580
el cinco y el seis de tal forma en que no perdamos mucho tiempo en

00:34:50.580 --> 00:34:52.540
esperar a que no suba para hacer el ejemplo.

00:34:55.300 --> 00:34:58.880
Deje esas ventanas ahí mientras va subiendo.

00:35:21.420 --> 00:35:25.880
Y mientras usted hace eso, no sé si alguno me voy a comentar algo.

00:35:36.120 --> 00:35:43.520
Ok, ¿Quién va a lo Fernando así? Sí, ah Brenda, perdón, que peta. Brenda, listo,

00:35:43.620 --> 00:35:44.920
entonces hagamos lo siguiente.

00:35:47.540 --> 00:35:53.720
Data set, listo, sí, ya creo que abrió ya la siguiente pestaña que tiene,

00:35:53.720 --> 00:35:55.480
la siguiente pestaña del browser.

00:35:56.760 --> 00:36:01.240
Dele click ahí, ah no, pero cierra, cierra esas pestañas que están hacia

00:36:01.240 --> 00:36:03.720
adelante, entonces es mejor para evitar que tenga tantas.

00:36:04.400 --> 00:36:09.960
Dele nada más abierta una, listo, listo, cierre también esa.

00:36:12.940 --> 00:36:16.560
Váyase al menú vertical que está al lado izquierdo y se ubica en

00:36:16.560 --> 00:36:18.100
data set y le da clic derecho.

00:36:19.360 --> 00:36:21.840
Dele open new tab, ese que está ahí.

00:36:22.400 --> 00:36:25.540
Haga eso dos veces más y listo, perfecto.

00:36:25.640 --> 00:36:28.680
Váyase a la segunda pestaña, la primera pestaña que abrió, nueva.

00:36:30.580 --> 00:36:35.260
Y ahora sí se va al explorador de archivos de Windows, a las carpetas,

00:36:35.420 --> 00:36:40.900
perfecto, y ahí entra la carpeta ejercicio uno y sube el primer

00:36:40.900 --> 00:36:44.320
archivo, el que es .csv, suéltelo acá, listo.

00:36:44.320 --> 00:36:49.240
Deja eso ahí, quietecito, váyase a la siguiente pestaña y sube ahora

00:36:49.240 --> 00:36:55.000
ejercicio dos, suba de nivel, la suba de nivel si es tan amable en

00:36:55.000 --> 00:37:00.140
el programa de archivo, se ubica en la carpeta ejercicios, dele atrás,

00:37:00.340 --> 00:37:03.420
no, ese no, dele atrás un momento, exactamente.

00:37:03.740 --> 00:37:06.440
Ahí coge ejercicio dos y lo suelta de este lado.

00:37:06.740 --> 00:37:10.340
Abre ahora por favor la última pestaña y ahí va subiendo

00:37:10.340 --> 00:37:13.740
ejercicio tres, a medida que vayamos, haya un break o algo

00:37:13.740 --> 00:37:17.640
particular, tenga presente en que vaya subiendo los temas.

00:37:17.640 --> 00:37:22.820
Si hay alguno que está demorando mucho tiempo, entonces por favor lo vuelve a

00:37:22.820 --> 00:37:26.840
subir nuevamente porque los errores que presentan es específicamente porque no

00:37:26.840 --> 00:37:29.900
te veo poco recursos, porque esto es compartido y limitado la cantidad de

00:37:29.900 --> 00:37:32.220
procesamiento que tenemos.

00:37:33.040 --> 00:37:37.600
Listo, perfecto, entonces ahora, perfecto, gracias a usted, listo.

00:37:37.660 --> 00:37:43.100
Sigamos entonces, vayamos ahora a la parte teórica de cuál es la función

00:37:43.100 --> 00:37:46.400
principal de este Talent Data Preparation, mientras usted va

00:37:46.400 --> 00:37:50.340
subiendo esos archivitos y después nos vamos a la parte práctica.

00:37:50.840 --> 00:37:54.720
Lo hice de esta manera porque ya tengo experiencia en que perdemos mucho tiempo

00:37:54.720 --> 00:37:58.400
subiendo y en realidad no se aprovecha el tiempo en su totalidad.

00:37:59.360 --> 00:38:01.940
Entonces, voy a, listo, ya estoy compartiendo la pantalla,

00:38:02.120 --> 00:38:04.360
confirmo, sí, perfecto, estoy compartiendo aquí la pantalla.

00:38:05.880 --> 00:38:10.380
Y vamos a iniciar entonces con este Talent Data Preparation, listo.

00:38:10.540 --> 00:38:13.380
¿Cuál es el objetivo principal de esta herramienta?

00:38:13.380 --> 00:38:17.820
Bueno, resulta en que usted puede tener los datos estructurados.

00:38:18.640 --> 00:38:22.680
Y aclaro que el día de mañana voy a hacer una introducción y para hacer una

00:38:22.680 --> 00:38:26.380
discusión interesante sobre las diferencias de datos estructurados,

00:38:26.540 --> 00:38:28.380
no estructurados y semiestructurados.

00:38:28.460 --> 00:38:30.000
Eso lo hacemos mañana con el Big Data.

00:38:30.540 --> 00:38:35.060
Es una característica fundamental en que para mí no lo veo tan fundamental,

00:38:35.120 --> 00:38:38.680
pero, bueno, es una característica que se especifica en el Big Data y

00:38:38.680 --> 00:38:40.840
que mañana la vamos a ver en su totalidad.

00:38:40.840 --> 00:38:44.520
Entonces, como le decía, sus datos ya se encuentran estructurados,

00:38:45.180 --> 00:38:50.900
pero quizás esos datos te necesitan ser formateados o quizás los datos que

00:38:50.900 --> 00:38:53.980
tienes necesitas hacer unos cálculos específicos.

00:38:54.120 --> 00:38:57.040
¿Para qué debes hacer esos cálculos o para qué hacer ese formateo?

00:38:57.400 --> 00:39:00.440
Para adaptar los datos a cierto tipo de herramientas,

00:39:00.600 --> 00:39:02.960
herramientas que pueden ser Power BI,

00:39:03.240 --> 00:39:05.180
herramientas que pueden ser de Tableau,

00:39:05.540 --> 00:39:08.760
herramientas que pueden ser para la parte de Machine Learning o

00:39:08.760 --> 00:39:14.060
herramientas que pueden ser para la parte de elementos de visualización que tiene Quilk.

00:39:14.280 --> 00:39:19.260
Entonces, al final hay que formatear los datos o hay que hacer algunos

00:39:19.260 --> 00:39:23.080
procesos de fórmulas matemáticas para llegar y tener,

00:39:23.080 --> 00:39:26.120
digamos, ese formato específico a donde lo quiero llevar.

00:39:27.460 --> 00:39:31.500
Listo, esto es muy común para los analistas de datos y para los

00:39:31.500 --> 00:39:34.600
científicos de datos, que normalmente, aunque tú le das los

00:39:34.600 --> 00:39:38.640
datos para que ellos trabajen, quizás hay que hacer un formateo a esos

00:39:38.640 --> 00:39:42.920
datos. Ahora, ¿cuál es la idea fundamental de la herramienta?

00:39:43.160 --> 00:39:48.660
Partiendo del hecho en que quizás ese analista o ese señor o ese

00:39:48.660 --> 00:39:53.420
científico de datos no tiene el tiempo para esperar a que un

00:39:53.420 --> 00:39:56.620
profesional del área y cuando hablo profesional puede ser un desarrollador

00:39:56.620 --> 00:40:00.640
de T.L. o un developer de database que te pueda formatear los datos

00:40:00.640 --> 00:40:04.560
así como tú quieres. Como no se puede dar lujo de esperar y perder el tiempo

00:40:04.560 --> 00:40:08.060
a que este señor le haga eso porque puede estar seguramente muy ocupado.

00:40:08.580 --> 00:40:12.740
Entonces, se crea esta herramienta de preparación de datos que cualquier

00:40:12.740 --> 00:40:16.300
persona, abro comillas doble, con conocimientos básicos en

00:40:16.300 --> 00:40:21.660
tecnología, podía preparar los datos según a él más le convence.

00:40:21.840 --> 00:40:24.880
Entonces, en esta nueva ola que mencioné el día de ayer, que son

00:40:24.880 --> 00:40:30.320
los ciudadanos de datos y que se habla mucho del autoservicio que tú

00:40:30.320 --> 00:40:34.660
mismo puedas configurar los datos o que tú me ayudes a corregir los datos por

00:40:34.660 --> 00:40:38.360
un problema de calidad que tengo, se crea en ese tipo de herramienta.

00:40:38.620 --> 00:40:42.840
Aclaro que estas herramientas, pues las vas a poder encontrar en otras

00:40:42.840 --> 00:40:48.380
plataformas, sea WS o Azure. El caso de Talent la llama

00:40:48.380 --> 00:40:52.100
Talent Data Preparation, que es una herramienta netamente de autoservicio.

00:40:52.340 --> 00:40:55.540
Dentro de las ventajas que plantea la herramienta, porque estoy tomando

00:40:55.540 --> 00:41:00.560
directamente toda esta teoría del tutorial que tienen ellos, te ayuda

00:41:00.560 --> 00:41:05.440
a agilizar esos flujos de trabajo. ¿Por qué? Porque ya no hay dependencia sobre

00:41:05.440 --> 00:41:08.820
algunos elementos que tú puedes hacer. Entonces, ya no dependes del developer,

00:41:08.880 --> 00:41:12.580
ya no dependes, por ejemplo, de estar de tele para que te los formatee como

00:41:12.580 --> 00:41:17.900
tú desees. Ahora tú mismo lo puedes formatear y eso te agiliza, te quita

00:41:17.900 --> 00:41:20.300
algunos cuellos de botella para esos tipos profesionales que se pueden

00:41:20.300 --> 00:41:24.340
dedicar a hacer otras cosas. Como su nombre lo dice, habilita el

00:41:25.280 --> 00:41:29.560
autoservicio, porque evidentemente tú lo puedes hacer. Y aquí hay algo un

00:41:29.560 --> 00:41:35.480
poco más de publicidad. Dice que da conectividad a cualquier fuente de datos.

00:41:36.280 --> 00:41:40.100
En realidad, pues eso es más de publicidad. La teoría, o sea, el

00:41:40.100 --> 00:41:45.720
tutorial dice que tiene conexión a 600 fuentes. Yo en realidad no he

00:41:45.720 --> 00:41:49.840
contado si en realidad son 600 fuentes, pero si te permite conectar a

00:41:50.440 --> 00:41:58.480
Azure, a Bigtable, a Databricks, a muchos tipos de plataformas que son muy

00:41:58.480 --> 00:42:03.380
comunes, en realidad lo que he hecho sí me permite la conexión. No he hecho,

00:42:03.380 --> 00:42:06.320
digamos, conexiones sobre algunos sistemas que no son muy conocidos,

00:42:06.340 --> 00:42:10.660
porque no trabajo con ellos. Pero bueno, la teoría dice que te ofrece 600

00:42:10.660 --> 00:42:15.840
conectores a diferentes fuentes de datos como tal. Ahora, esto es lo que

00:42:16.060 --> 00:42:22.180
plantea, digamos, el tutorial de los beneficios principales, lo estoy tomando

00:42:22.180 --> 00:42:26.520
literal, esta parte del tutorial. Una es que te ofrece la integración y

00:42:26.520 --> 00:42:32.800
catálogo de datos. Hay que entender ese catálogo, porque quizás ya hemos

00:42:32.800 --> 00:42:36.080
visto que hay unas herramientas que te permiten catalogar. La primera en

00:42:36.080 --> 00:42:39.840
el ecosistema de talent se llama Talent Data Catalog, pero yo puedo hacer

00:42:39.840 --> 00:42:43.860
catálogo de datos con Talent Data Inventory. Y esta herramienta lo dice,

00:42:43.860 --> 00:42:46.340
bueno, pero yo entonces esta herramienta también me permite catalogar. Bueno,

00:42:46.440 --> 00:42:52.100
en realidad ese catálogo de datos que llama él es que ahora cuando tú subas un

00:42:52.100 --> 00:42:57.340
data sec al Talent Data Preparation, él te va a catalogar las columnas según

00:42:57.340 --> 00:43:01.760
unos datos semánticos que tenga. ¿Qué son datos semánticos? Son datos que

00:43:01.760 --> 00:43:05.440
puede ser una expresión regular o quizás un diccionario, que eso fue lo

00:43:05.440 --> 00:43:09.580
que vimos ayer. Entonces, ya por defecto, ayer les mostré, por ejemplo,

00:43:09.580 --> 00:43:14.060
que él tiene una cantidad de datos semánticos y buscamos, por ejemplo,

00:43:14.280 --> 00:43:19.000
animales. ¿Qué era un diccionario? Un diccionario que es para talent,

00:43:19.180 --> 00:43:23.900
simplemente un listado de nombre de animales. Entonces, hace lo mismo que el

00:43:23.900 --> 00:43:27.540
Talent Data Inventory, que en pocas palabras, cuando tú subes el data sec, él

00:43:27.540 --> 00:43:32.240
intenta verificar a qué grupo pertenecen las columnas que están

00:43:32.240 --> 00:43:36.540
ahí en cada uno de los elementos. Entonces, te la puedes clasificar como email, como

00:43:36.720 --> 00:43:41.620
código postal, como animal, dependiendo de los datos que estén ahí. A eso es lo

00:43:41.620 --> 00:43:46.280
que él llama el catálogo de datos, en realidad, o la catalogación que se hace.

00:43:46.780 --> 00:43:50.660
No es nada el otro mundo, simplemente es eso que se cataloga en

00:43:50.660 --> 00:43:54.780
las columnas según los datos semánticos que estén establecidos.

00:43:55.660 --> 00:44:00.240
Aquí se hace, sí, un descubrimiento y perfilamiento de datos. Si recordarás

00:44:00.240 --> 00:44:05.180
el día de ayer cuando hablé de curación y le dije que cuando se hace

00:44:05.180 --> 00:44:11.420
análisis de datos a nivel de calidad, hay dos procesos fundamentales. Uno que se

00:44:11.420 --> 00:44:19.160
llama limpieza, que es sinónimo de curación, y el otro que es la parte de

00:44:19.980 --> 00:44:24.560
perfilamiento. El perfilamiento es encontrar anomalías. Entonces, la

00:44:24.560 --> 00:44:29.040
herramienta te va a permitir hacer tanto la parte de perfilamiento de

00:44:29.040 --> 00:44:33.240
encontrar anomalías en los datos, así mismo te va a permitir hacer

00:44:33.240 --> 00:44:40.760
limpieza de esos datos según lo que tú requieras. Te da, entonces, enriquecimiento de conexión

00:44:40.760 --> 00:44:44.660
porque ahora también te va a permitir hacer joins las herramientas. Entonces,

00:44:44.700 --> 00:44:48.880
tú puedes tener diferentes cuentas de datos y hacer los joins y te hace,

00:44:48.880 --> 00:44:54.340
entonces, que tú puedas automatizar las tareas. Ya les voy a decir cómo es

00:44:54.340 --> 00:45:03.060
ese cuento de automatización como tal. Eso es lo que plantea, en realidad, y lo que

00:45:03.060 --> 00:45:07.520
tiene el Training Data Preparation. Y aquí simplemente unos conceptos clave que

00:45:07.520 --> 00:45:12.400
vamos a ver y que vamos a trabajar durante el día de hoy. En primer

00:45:12.400 --> 00:45:17.660
concepto, el concepto pues de data sec, que básicamente data sec que son datos

00:45:17.660 --> 00:45:21.680
en crudos, que puede ser tabla o puede ser un archivo en formato

00:45:21.680 --> 00:45:28.140
estructurado. Hay una parte conceptualización que hay algunos

00:45:28.140 --> 00:45:32.500
autores que no definen un data sec para datos no estructurados. Por

00:45:32.500 --> 00:45:36.980
ejemplo, una imagen. Hay algunos autores que sí, pero eso es netamente a nivel

00:45:36.980 --> 00:45:42.180
conceptual. Pero normalmente los data sec que tú manejas tienen una estructura y

00:45:42.180 --> 00:45:46.860
al final todos estos data lay, data lay house, que lo voy a discutir el día de

00:45:46.860 --> 00:45:50.660
mañana. Al final, aunque los datos estén no estructurados o semi

00:45:50.660 --> 00:45:55.280
estructurados, siempre, siempre se busca estructurar los datos. Entonces,

00:45:55.300 --> 00:45:58.400
un data sec puede estar en diferentes formatos. Aquí te voy a aclarar algo,

00:45:58.400 --> 00:46:04.480
hay algo en el tutorial que no cuadra, en el sentido de que el tutorial

00:46:04.480 --> 00:46:08.020
plantea en que los data sec pueden estar en formatos estructurados de tipo

00:46:08.020 --> 00:46:14.660
CSV, pueden ser tablas, pueden ser archivos XML y pueden ser archivos

00:46:14.660 --> 00:46:19.720
JSON. Las pruebas que he hecho con archivos JSON no me ha funcionado. Es

00:46:19.720 --> 00:46:23.660
decir, no está leyendo de forma correcta los archivos en formato

00:46:23.660 --> 00:46:30.740
JSON. Entonces, ahí hay algo que no está, digamos, que no es tan real con

00:46:30.740 --> 00:46:35.800
respecto a lo que dice el tutorial. Por otro lado, entonces, ese es el concepto

00:46:35.800 --> 00:46:40.620
data sec, que seguramente tengo el concepto data sec y data source. Data

00:46:40.620 --> 00:46:44.320
sec es el dato, como tal, el conjunto de datos. Y data source sería la

00:46:44.320 --> 00:46:49.460
fuente donde obtengo ese datos. Ahora viene un concepto que se llama

00:46:50.560 --> 00:46:56.620
preparación. La preparación lo que hace es que vincula una receta con un

00:46:56.620 --> 00:47:02.360
data sec con el objetivo de hacer algún cambio en el formato o calcular

00:47:02.360 --> 00:47:06.680
algún algo matemático que quieras, algún tipo de operación matemática

00:47:06.680 --> 00:47:10.040
que tú requieras. Entonces, cuando hablamos del concepto de

00:47:10.040 --> 00:47:15.500
preparación es que yo incluyo una receta para un conjunto de datos o un

00:47:16.260 --> 00:47:19.840
conjunto de funciones que tú haces. Digo conjunto porque yo puedo tener data sec y ya puedo hacer

00:47:19.840 --> 00:47:24.520
join sobre data sec en la herramienta como tal. Ahora preguntarán ¿qué es una

00:47:24.520 --> 00:47:30.400
receta? Bueno, una receta son un conjunto de funciones que tú haces. ¿Qué

00:47:30.400 --> 00:47:33.900
tipo de funciones? Funciones que ya están preestablecidas en la

00:47:33.900 --> 00:47:38.960
herramienta. Esas funciones te vas a dar cuenta que son prácticamente las

00:47:38.960 --> 00:47:44.240
mismas que te mostré ayer en el data stack worksheet, que no entramos en

00:47:44.240 --> 00:47:47.800
detalles porque te dije, no tiene sentido que te explique dos veces lo mismo.

00:47:48.440 --> 00:47:51.000
Entonces, las funciones que están establecidas allá en el data stack

00:47:51.000 --> 00:47:54.600
work son las mismas que vas a encontrar en el data preparation con una

00:47:54.600 --> 00:47:58.200
pequeña diferencia que el data preparation tiene más, mientras que

00:47:58.200 --> 00:48:00.520
el data stack work tiene una pequeña parte que tiene el data

00:48:00.520 --> 00:48:05.660
preparation. Listo. Entonces, esa receta define un conjunto de pasos de esas

00:48:05.660 --> 00:48:09.180
funciones que están establecidas y al final ¿qué es una función? Pues

00:48:09.180 --> 00:48:14.340
una función es una acción que vas a aplicar sobre una fila, sobre una

00:48:14.340 --> 00:48:18.940
columna o si tú quieres sobre el data sec completo. Ahí te coloco un ejemplo

00:48:18.940 --> 00:48:24.560
que es remover filas vacías, cambiar tipos de datos, etcétera.

00:48:24.800 --> 00:48:30.640
Listo. Entonces, eso es simplemente el talent data preparation. No sé de

00:48:30.640 --> 00:48:35.080
forma cómo lo vas a incluir dentro de tu diario de vivir, si es que te

00:48:35.080 --> 00:48:39.580
gusta hacer esta parte, pero es una herramienta que pues está dirigida más

00:48:39.580 --> 00:48:45.380
para un usuario final en el cual no tiene unos conceptos tan técnicos, no

00:48:45.380 --> 00:48:49.340
tiene conceptos a nivel pues que son requeridos para otras herramientas

00:48:49.340 --> 00:48:53.540
más especializadas, conceptos a nivel de programación y conceptos a nivel por

00:48:53.540 --> 00:48:59.260
ejemplo de SQL. Entonces, es más para un usuario final con ese tipo de

00:48:59.260 --> 00:49:02.140
características. Te voy a mostrar la herramienta y tú

00:49:02.580 --> 00:49:07.240
analizarás en qué caso pues tú la podrías usar en tu diario de vivir.

00:49:08.340 --> 00:49:12.400
Listo, aquí no hay más nada. Ah, bueno, aquí se me escapaba, aquí agrego el

00:49:12.400 --> 00:49:16.560
concepto de tipo semántico que es el mismo que vimos en el talent data

00:49:16.560 --> 00:49:21.660
stewards. Son exactamente lo mismo y lo que tú hagas, los tipos semánticos

00:49:21.660 --> 00:49:25.460
que tú hagas en el data stewards se comparten con lo del data preparation

00:49:25.460 --> 00:49:28.700
y al revés, los que hagan el data preparation también se comparten con el

00:49:28.700 --> 00:49:36.860
data stewards. Listo, entonces ahora sí vamos, voy a acceder aquí a la

00:49:36.860 --> 00:49:43.160
herramienta, por favor. Verifiquemos antes de empezar si el primer

00:49:43.160 --> 00:49:51.280
data sec se subió de forma correcta. En el caso mío no se subió. Todavía

00:49:51.280 --> 00:49:56.020
está procesando. Por experiencia he visto que cuando ya demora más de

00:49:56.020 --> 00:50:01.580
minutos creo que el data inventory va a fallar y no lo va a procesar. Entonces

00:50:01.580 --> 00:50:06.380
voy a hacer lo siguiente, voy a abrir otra pestaña aquí y lo voy a intentar

00:50:06.380 --> 00:50:10.660
abrir nuevamente. Voy por acá

00:50:12.080 --> 00:50:16.420
y voy a intentar entonces, perdón, era en el dataset.

00:50:19.080 --> 00:50:22.980
Voy a intentar subirlo nuevamente porque tuve un error.

00:50:23.780 --> 00:50:31.060
El tipo de errores no salen a nivel ya de una licencia que adquieras y que

00:50:31.060 --> 00:50:37.240
hayas cancelado, esto no suele. Esta herramienta al igual que la

00:50:37.240 --> 00:50:41.620
data stewardship te permite utilizarla en formato híbrido. Híbrido quiere

00:50:41.620 --> 00:50:46.380
decir que puedes instalar a nivel on-premise esta herramienta

00:50:47.200 --> 00:50:48.760
como tal.

00:50:49.920 --> 00:50:55.740
Bueno, a ver a quién le subió. Alejandro veo que le subió. Fernanda parece que le

00:50:55.740 --> 00:51:02.880
subió y veo que Beatriz tiene un error, no sé, salieron como 50 errores.

00:51:05.440 --> 00:51:09.800
Revisa Beatriz por favor si te subió el primero que se llama data

00:51:09.800 --> 00:51:16.400
del limpieza. No sé si se te subió ese señor.

00:51:27.980 --> 00:51:28.800
Ok.

00:51:31.080 --> 00:51:35.320
Permíteme e intento acceder para ver.

00:51:37.180 --> 00:51:41.640
No te reacciono, permíteme e intento acceder a tu máquina un momento.

00:51:42.120 --> 00:51:43.920
Reviso para ver.

00:51:46.320 --> 00:51:50.420
Listo, entonces. Bueno, vamos a ver.

00:51:52.680 --> 00:51:55.420
Listo, hay que volverse a lo guiar entonces.

00:52:05.500 --> 00:52:11.080
Bueno, subió. Si sube correctamente, normalmente como máximo dos minutos. Si

00:52:11.080 --> 00:52:15.600
pasa de dos minutos por experiencia en esta versión estrial, creería que no

00:52:15.600 --> 00:52:18.400
va a subir de forma correcta en el talent data inventory.

00:52:20.260 --> 00:52:25.280
Listo, esperemos que está demorando para cargar. Creo que sí, está demorando

00:52:25.280 --> 00:52:29.760
para cargar. Un momentito por favor que, Listo, no sé por qué está

00:52:29.760 --> 00:52:32.280
demorando tanto para cargar.

00:52:36.540 --> 00:52:42.920
Listo, voy aquí al preparation data set. Sí, te subió Beatriz, lo que es que

00:52:42.920 --> 00:52:48.840
como que si te subió, subiste todo. Excelente. Estaba bien como que había un

00:52:48.840 --> 00:52:54.480
error ahí, no sé, extraño. Bueno, vamos entonces. Vamos entonces y

00:52:54.480 --> 00:53:01.240
continuemos por favor. Bien, entonces aquí tenemos el concepto de preparación

00:53:01.240 --> 00:53:04.900
que fue el que te mostré a nivel teórico. Una preparación

00:53:04.900 --> 00:53:10.200
relaciona un data set con una receta. Vamos aquí a la parte de

00:53:10.200 --> 00:53:16.820
preparaciones y te aconsejaría, por buena práctica, que crees un folder y

00:53:16.820 --> 00:53:21.660
ese folder puedas organizar las diferentes preparaciones. En este caso,

00:53:21.660 --> 00:53:24.920
por cuestión de tiempo, vamos directamente a crear las preparaciones aquí,

00:53:24.940 --> 00:53:30.960
directamente. ¿Por qué el folder? Porque quizás puedas compartir tu tenant,

00:53:31.080 --> 00:53:34.860
esté compartido con diferentes usuarios y puedas ver las preparaciones de los

00:53:34.860 --> 00:53:38.220
demás. Entonces, sería muy interesante que puedas crear un folder

00:53:38.220 --> 00:53:42.220
que analice tus preparaciones o de los proyectos que tengas formados para

00:53:42.220 --> 00:53:49.040
que de pronto no haya, digamos, algún error ahí o que te

00:53:49.040 --> 00:53:53.320
puedas confundir en un par de cosas. Sería, en este caso, como cada,

00:53:54.220 --> 00:53:58.860
digamos, estamos en todos o que estamos en el mismo tenant físicamente,

00:54:00.020 --> 00:54:05.100
estamos en espacios separados a nivel de almacenamiento de lo que

00:54:05.100 --> 00:54:08.920
vayamos a hacer. Listo. Entonces, vamos a agregar aquí una preparación.

00:54:14.300 --> 00:54:19.420
Y, como te decía, primero vamos a colocar entonces el nombre de la

00:54:19.420 --> 00:54:29.220
preparación. Entonces, vamos a llamarla Dataset Curación.

00:54:31.800 --> 00:54:38.440
Sería, como buena práctica, que le agregues al Dataset la fecha en el

00:54:38.440 --> 00:54:42.140
cual hiciste la preparación, perdón, la fecha en la cual hiciste. Entonces,

00:54:42.340 --> 00:54:52.460
voy a colocar aquí 2025. Sería 0128. Y, si deseas, vamos a colocarle

00:54:52.460 --> 00:54:58.200
Underexcord y vamos a colocarle aquí Preparación. Ya tú el estándar,

00:54:58.200 --> 00:55:04.680
si colocas un sufijo o un prefijo, entonces ya tú decides. Preparación.

00:55:04.680 --> 00:55:09.640
A colocar así. Preparación. Lo llamé Dataset Curación. Todos separados por

00:55:10.380 --> 00:55:16.460
tipo Snake Case. Y le coloqué la fecha actual.

00:55:17.920 --> 00:55:22.980
Como la preparación tiene que estar ligada a un Dataset, entonces vamos a

00:55:22.980 --> 00:55:27.820
buscar el Dataset que se llama Dataset Limpieza Datos Clientes.

00:55:28.940 --> 00:55:32.660
Nota que te pueden aparecer en el caso mío deshabilitados. ¿Por qué

00:55:32.660 --> 00:55:37.100
deshabilitados? Porque el Data Inventory no lo progresó de forma correcta. Entonces,

00:55:37.100 --> 00:55:42.300
voy a escoger este señor que se llama Dataset Limpieza y le digo Submit.

00:55:50.760 --> 00:55:57.840
Perfecto. Aquí. Y entramos entonces a la pestaña y a la interfaz, perdón,

00:55:57.920 --> 00:56:02.360
a la interfaz del Talent Data Preparation. Listo, creo que todos estamos aquí.

00:56:03.340 --> 00:56:08.340
Bien, entonces, aquí tenemos primero el nombre. El nombre lo puedes cambiar

00:56:08.340 --> 00:56:12.040
exactamente como he cambiado el pipeline. Cada vez que colocas sobre el

00:56:12.040 --> 00:56:17.280
nombre, aquí le puedes cambiar en el lápizito. Permíteme y compruebo un

00:56:17.280 --> 00:56:22.140
pequeño bot que tenía esto. El bot que tenía hasta el año pasado era que

00:56:22.140 --> 00:56:25.920
cuando intentaba cambiar el lápizito, la primera vez no me funcionaba. Me

00:56:25.920 --> 00:56:29.780
tocaba hacerlo dos veces. Voy a intentar hacerlo aquí y probarlo para

00:56:29.780 --> 00:56:32.840
ver si se corrigió ese bot. Entonces, voy aquí. No lo hago usted acá, es

00:56:32.840 --> 00:56:36.900
simplemente para probar. Voy a cambiarlo aquí. Underscore 1, voy acá

00:56:38.560 --> 00:56:42.260
y fíjese que no lo cambió la primera vez. Hago la segunda vez.

00:56:45.500 --> 00:56:49.440
Listo, al parecer ese bot no ha sido corregido. Entonces, tenga en cuenta que

00:56:49.440 --> 00:56:52.600
hay un pequeño bot ahí cuando se cambia el nombre porque la primera vez tú lo

00:56:52.600 --> 00:56:57.460
cambia directamente aquí. Hay que hacerlo dos veces para cambiar el nombre. Listo,

00:56:57.460 --> 00:57:03.260
entonces de este lado izquierdo recordará que una preparación asocia

00:57:03.260 --> 00:57:08.840
un dataset con un conjunto de recetas. En este lado izquierdo va a colocar las

00:57:08.840 --> 00:57:14.060
recetas que hagamos sobre este dataset. Aparece vacío porque no hemos

00:57:14.060 --> 00:57:21.060
agregado ninguna. Del lado en la parte del medio te hace entonces, te

00:57:21.060 --> 00:57:26.620
toma lo siguiente, te toma un row con, perdón, un número de fila y te

00:57:26.620 --> 00:57:30.880
aparece las columnas que hayan sido especificadas dentro del dataset como

00:57:30.880 --> 00:57:36.900
tal. Recuerde que este dataset está copiado en el Talent Cloud. Significa que

00:57:36.900 --> 00:57:41.660
si tú tienes, por ejemplo, un S3, tienes un archivo un S3 o lo tienes,

00:57:41.740 --> 00:57:47.400
por ejemplo, en Azure y lo quieres preparar, primero tienes que pasarlo en

00:57:47.400 --> 00:57:51.640
realidad. Primero se pasa al Talent Cloud y el Talent Cloud se procesa.

00:57:51.640 --> 00:57:58.320
Ojo con la parte de seguridad que en ese paso de pasarlo del Azure o S3,

00:57:58.700 --> 00:58:04.440
pasarlo acá al Talent Cloud. Bien, pero esto está aquí a nivel del Talent Cloud,

00:58:04.740 --> 00:58:10.220
está en el, digamos, en el tenan, a nivel de almacenamiento que tengo aquí.

00:58:11.340 --> 00:58:14.880
Y aquí aparecen los nombres de columnas. Note entonces que cuando hablamos de

00:58:14.880 --> 00:58:20.220
catálogo de datos pasa lo siguiente. Aquello dataset que no tiene los tipos

00:58:20.220 --> 00:58:24.980
de datos, ya sea una de ese tipo, XML, un JSON, un CCV, pero te aclaro que el

00:58:24.980 --> 00:58:29.260
JSON y el XML no me han funcionado aquí en esta herramienta. O sea que en

00:58:29.260 --> 00:58:31.800
realidad no le he preguntado soporte, voy a preguntarle, ahora que no se me

00:58:32.660 --> 00:58:36.800
olvide. Pero el del CCV recordará que los nombres de columnas no está,

00:58:36.860 --> 00:58:40.780
los datos no están tipeados. Es decir, no tienen un tipo de datos. Entonces lo que

00:58:40.780 --> 00:58:46.120
hace la herramienta es lo siguiente. Toma un preview y ese preview puede

00:58:46.120 --> 00:58:53.500
ser inicial, es decir, por defecto toma un preview de 10.000 filas e intenta

00:58:53.500 --> 00:58:58.340
con los datos que están ahí definir a qué tipo de datos pertenece. Aclaro

00:58:58.340 --> 00:59:01.380
que ese preview tú lo puedes cambiar. Tú te preguntarás para qué

00:59:01.380 --> 00:59:05.000
cambiaría un preview. Lo que hace es que la herramienta se puede equivocar en

00:59:05.560 --> 00:59:10.460
definir el tipo de datos. Imagínese la siguiente forma. Imagínese que SID

00:59:10.460 --> 00:59:19.640
hasta la fila 10.000 son puros números, pero en la fila 10.001 aparecen letras y

00:59:19.640 --> 00:59:24.180
números. Por ende, como él solamente toma un preview hasta el 10.000, él

00:59:24.180 --> 00:59:28.240
catalogará el dato como integer. Pero en realidad tu dato debe ser textual. ¿Por qué?

00:59:28.440 --> 00:59:33.480
Porque tiene caracteres alfanuméricos. Entonces hay que tener en cuenta que

00:59:33.480 --> 00:59:36.520
aunque aquí se haga una clasificación, ten presente que esa

00:59:36.520 --> 00:59:39.620
clasificación puede haber un error, dependiendo de la cantidad de datos que

00:59:39.700 --> 00:59:45.680
tenga tu dataset. El caso si tú deseas cambiar como tal el tipo de datos,

00:59:45.720 --> 00:59:50.760
sencillo, tú te vas aquí, por ejemplo, aquí donde está el menú hamburguesa, de

00:59:50.760 --> 00:59:55.620
cada una de las columnas, le das click aquí y tú fácilmente, aquí está

00:59:55.620 --> 01:00:00.420
column, aquí te dice el tipo de datos, integer, le das click aquí y tú

01:00:00.420 --> 01:00:04.960
puedes cambiar el dato. Lo puedes cambiar ya sea a un tipo de datos,

01:00:04.960 --> 01:00:14.120
digamos que llama java básico que es boolean decimal o lo puedes cambiar a

01:00:14.120 --> 01:00:20.440
un tipo autosemántico. Nota ahora que nombre te aparece como texto, pero está

01:00:20.440 --> 01:00:25.060
clasificado como first name. Esto aplica exactamente como trabaja el

01:00:25.060 --> 01:00:29.960
data inventory, que es tomó esos datos que aparecen en esa columna y da

01:00:29.960 --> 01:00:33.960
la casualidad que tiene un tipo autosemántico en el cual, por lo

01:00:33.960 --> 01:00:39.520
menos, el 60% del preview coincide con esos datos que están en el

01:00:39.520 --> 01:00:44.260
dado semático llamado first name y entonces lo clasifica como first name. De

01:00:44.260 --> 01:00:48.180
igual forma tú puedes cambiar esa clasificación si tú quieres. Entonces

01:00:48.180 --> 01:00:51.320
da de cuenta lo siguiente, ahí tenemos cuatro columnas, la primera

01:00:51.320 --> 01:00:55.440
clasificada como integer, la segunda textual pero clasificada como

01:00:55.440 --> 01:01:01.360
first name, la tercera columna apellido textual pero clasificada

01:01:01.360 --> 01:01:05.960
como last name y la última clasificada como day y entonces eso es lo que

01:01:05.960 --> 01:01:12.180
llama la teoría al catálogo de datos. Perfecto, eso no hay nada de otro mundo,

01:01:12.380 --> 01:01:18.780
listo. Vamos a ver, vamos a analizar cómo funciona en realidad la

01:01:18.780 --> 01:01:24.500
herramienta y después nos vamos a este menú que es un poco extenso. Este

01:01:24.500 --> 01:01:28.960
menú de que estoy mostrando aquí que está del lado derecho, en

01:01:28.960 --> 01:01:32.820
realidad va a tener las mismas funciones de talent data stewards pero aquí se

01:01:32.820 --> 01:01:40.280
agregan unas nuevas. Vamos a hacer algo sencillo entonces, vamos a concatenar el

01:01:40.280 --> 01:01:46.360
nombre con el apellido porque quizás el analista o el señor el científico de

01:01:46.360 --> 01:01:50.820
datos necesita que esos datos estén concatenados. Entonces qué es lo que

01:01:50.820 --> 01:01:55.440
tú haces, primero vamos a aplicar una función, cuando aplicas una función

01:01:55.440 --> 01:02:01.020
tienes que decidir si la función vas a aplicarla a la columna, a la fila o al

01:02:01.020 --> 01:02:07.100
dataset. Nota que del lado derecho te aparece entonces columnas row y table

01:02:07.100 --> 01:02:12.980
indicando que funciones aplican a columna, a fila o a tabla.

01:02:13.340 --> 01:02:18.700
Listo, ahora cuando seleccionas una columna automáticamente la herramienta

01:02:18.700 --> 01:02:22.680
te dice, bueno mira ve, que fue lo que te mostré teóricamente, tú puedes

01:02:22.680 --> 01:02:27.100
hacer perfilado de datos. Entonces en ese perfilado de datos recuerden que lo

01:02:27.100 --> 01:02:31.880
que buscar son anomalías que pueden estar en los datos. Por defecto cada vez

01:02:31.880 --> 01:02:36.700
que yo selecciono una columna se habilita del lado derecho un menú con

01:02:36.700 --> 01:02:41.180
varias pestañas en que te va a mostrar ciertos datos que te pueden ayudar a

01:02:41.180 --> 01:02:45.480
ti a encontrar ciertos errores de calidad que pueda tener. Cuando el

01:02:45.480 --> 01:02:49.440
dato es numérico lo que hace es que te da un diagrama de barra de

01:02:49.620 --> 01:02:54.800
cuántas veces aparece ese datos. Por ejemplo te está diciendo aquí que el valor 1

01:02:54.800 --> 01:03:00.420
aparece una vez, entonces ahí te da un diagrama de frecuencia mostrándote para

01:03:00.420 --> 01:03:06.260
ver cuántas veces repite ese dato. Si vas en ese menú sobre la columna ID y

01:03:06.260 --> 01:03:10.760
vas aquí donde dice VALUE te va a sacar unos datos que son sumamente

01:03:10.760 --> 01:03:14.920
importantes para cualquier herramienta de calidad de datos, que es contarte

01:03:14.920 --> 01:03:18.700
cuántos registros hay, cuántos distintos hay, cuántos duplicados hay,

01:03:18.700 --> 01:03:23.360
cuántos válidos, cuántos vacíos, cuántos inválidos hay y si es numérico

01:03:23.360 --> 01:03:28.940
te da algunos elementos de mínimo, máximo, media y desviación estándar.

01:03:29.160 --> 01:03:32.980
Lastimosamente no alcanzamos a ver el talent data quality pero con cuando

01:03:32.980 --> 01:03:36.680
el dato es numérico tú puedes encontrar con la desviación estándar

01:03:36.680 --> 01:03:41.020
que puede haber un error en los datos. Eso se aplica más que todo a

01:03:41.020 --> 01:03:46.580
valores numéricos y eso para que sería viable. De pronto tú tienes una

01:03:46.580 --> 01:03:52.240
tabla de precios y con esos datos tú puedes encontrar algunos errores que

01:03:52.240 --> 01:03:56.460
puedan tener presente esos datos, que puede ser porque se calculó mal o

01:03:56.460 --> 01:03:58.620
porque simplemente un error de digitación.

01:03:59.820 --> 01:04:05.240
Si vamos aquí donde dice PATRONES, lo que te hace esto técnicamente es un

01:04:05.240 --> 01:04:09.660
análisis de patrones, entonces te está diciendo cómo se están presentando

01:04:09.660 --> 01:04:13.220
los datos en la columna. Aclaro que los que está presentando aquí son

01:04:13.220 --> 01:04:17.620
del preview, es decir si tú tienes un millón de datos y tu preview es de 10.000

01:04:18.160 --> 01:04:21.380
te está mostrando lo que está lo que consiguió en los primeros 10.000

01:04:21.380 --> 01:04:24.800
datos. Quizás se equivoque porque porque tienes más datos en el preview.

01:04:25.680 --> 01:04:29.100
Entonces aquí el patrón está mostrando, mira aquí tengo el 9 y 9

01:04:29.100 --> 01:04:33.220
indica dos números, estoy diciendo es para ver acá. En esa columna

01:04:33.220 --> 01:04:36.940
encontré los siguientes patrones, hay columna que tienen dos dígitos y

01:04:36.940 --> 01:04:42.500
hay columna que tiene un dígito. Y al final aquí donde dice ADVANCEDS

01:04:42.500 --> 01:04:46.560
aquí te va a mostrar una gráfica cuando es numérico que te va diciendo

01:04:46.560 --> 01:04:50.160
entonces algunos medios máxima de división estándar y que la pueda ver de

01:04:50.160 --> 01:04:56.440
manera gráfica. Si cambias de columna y te vas al mismo menú

01:04:56.440 --> 01:05:00.420
te va a cambiar un poco las estadísticas, las gráficas. Por ejemplo,

01:05:01.020 --> 01:05:03.600
esta sería un poco la misma gráfica, siendo que en la muestra diferente aquí

01:05:03.600 --> 01:05:06.020
me está diciendo ISABEL cuántas veces aparece.

01:05:07.000 --> 01:05:12.680
Si vas aquí a un devalue te aparece entonces las mismos datos, si vas a

01:05:12.680 --> 01:05:17.820
patrones está diciendo mira lo que ahí está son pura palabra, es decir no hay

01:05:17.820 --> 01:05:22.620
espacio en blanco. Entonces él mide las palabras por espacio en blanco. Cada

01:05:22.620 --> 01:05:26.080
espacio en blanco le indica una palabra. Entonces ahí notas entonces que

01:05:26.080 --> 01:05:29.860
ahí no hay valores numéricos, hay pura letra lo que está ahí. Y al final

01:05:29.860 --> 01:05:34.700
te muestra un poco el ADVANCED no se muestra cuando es texto. Eso es

01:05:34.700 --> 01:05:39.180
lo que se hace y de ahí viene ese concepto de perfilamiento porque te da

01:05:39.180 --> 01:05:42.740
algunas opciones que son características, algunas herramientas de

01:05:42.740 --> 01:05:48.140
calidad para encontrar algunos errores. Lástima no vimos ese curso para poder

01:05:48.140 --> 01:05:51.880
ver con estos datos cómo se pudieran encontrar errores.

01:05:52.100 --> 01:05:56.300
Bueno, pero entonces vayamos a lo siguiente. Vamos a ubicarnos entonces

01:05:56.300 --> 01:06:01.380
en la columna en la cual yo quiero hacer una función. Para este caso en

01:06:01.580 --> 01:06:04.240
particular por favor ubíquese en la columna nombre

01:06:05.100 --> 01:06:10.780
y yo deseo concatenar esa columna nombre con la columna que se llama

01:06:10.780 --> 01:06:17.280
apellido. Voy a hacer una tarea básica. Váyase por favor aquí al filtro que

01:06:17.280 --> 01:06:21.860
es este que está aquí, a este filtro de aquí y coloque la palabra concatenate

01:06:21.860 --> 01:06:28.700
concatenar en inglés concatenate y debería aparecerle conca conca

01:06:28.700 --> 01:06:34.040
concatenate aquí está en inglés y debería aparecer una función que dice

01:06:34.040 --> 01:06:38.260
concatenate with. Escojamos esa función por favor

01:06:40.280 --> 01:06:46.080
y esta función cómo trabaja. Bueno, en primer lugar vas a encontrar algunas

01:06:46.080 --> 01:06:51.420
funciones específicas que te van a permitir crear el resultado en una

01:06:51.420 --> 01:06:57.640
nueva columna. Entonces si tú habilitas aquí habilítelo por favor

01:06:57.640 --> 01:07:03.180
este chulito que está ahí para que sea nueva columna. Significa que lo que voy

01:07:03.180 --> 01:07:07.200
a hacer va a crear y no va a afectar la columna original.

01:07:08.500 --> 01:07:12.800
Ahora, la función cómo trabaja. En este caso si tú quieres le puedes

01:07:12.800 --> 01:07:17.080
colocar un prefijo antes de la concatenación. Si quieres lo dejas en

01:07:17.080 --> 01:07:20.920
blanco y vas a encontrar muchas funciones que hacen lo siguiente. Las

01:07:20.920 --> 01:07:26.320
funciones las puedes aplicar con otra columna o con un valor fijo. En

01:07:26.320 --> 01:07:29.400
este caso si coloco otra columna tendríamos que elegir las columnas que

01:07:29.400 --> 01:07:31.660
están en el traseque con el cual quiero hacer la operación de

01:07:31.660 --> 01:07:36.520
concatenación. En este caso deseo otra columna y voy a elegir que la deseo

01:07:36.520 --> 01:07:40.980
concatenar con la columna de tipo apellido. Te pregunta ahora si vas a

01:07:40.980 --> 01:07:44.840
colocar un separador. En este caso deje un espacio en blanco por favor

01:07:44.840 --> 01:07:48.740
para que no se unan los dos columnas

01:07:48.740 --> 01:07:55.220
y te pregunta si el separador cómo lo vas a colocar. Entonces aquí te

01:07:55.220 --> 01:08:00.260
pregunta el separador lo colocó si las dos columnas tienen datos o lo colocó

01:08:00.260 --> 01:08:03.680
siempre. ¿Qué pasaría aquí? Deberías escoger la primera opción. ¿Por qué?

01:08:03.720 --> 01:08:08.060
Porque si no tengo nombres e intento concatenar me va a quedar un espacio

01:08:08.060 --> 01:08:12.560
en blanco y creo que entendemos lo que nos pasa con el espacio en

01:08:12.560 --> 01:08:16.140
blanco cuando hacemos un word. Entonces buscamos por una

01:08:16.140 --> 01:08:19.620
columna y si la columna tiene un espacio en blanco al inicio o al final

01:08:19.620 --> 01:08:23.960
intentamos buscar por ese criterio de búsqueda no lo encuentran. Entonces

01:08:23.960 --> 01:08:28.940
dejamos que solamente, estoy diciendo aquí si dejo bot values solamente me

01:08:28.940 --> 01:08:33.400
va a colocar el espacio en blanco solo si las dos columnas están no son

01:08:33.400 --> 01:08:39.740
vacías. Y aquí por último te coloco un sufijo.

01:08:40.140 --> 01:08:44.660
La herramienta en la mayor parte de funciones te permite hacer un preview.

01:08:45.220 --> 01:08:51.520
Ese preview te va a mostrar cómo quedaría los datos después que termine

01:08:51.520 --> 01:08:56.200
de ejecutar pero sin hacer el cambio permanente. Dale por favor en preview

01:08:59.100 --> 01:09:05.620
y nota que te agregó una nueva columna llamada nombre onderscore

01:09:05.620 --> 01:09:11.020
apellido. Si tú das clic fuera en cualquier parte ese preview se pierde

01:09:11.020 --> 01:09:14.780
no te queda como receta porque simplemente estabas probando para ver

01:09:14.780 --> 01:09:18.720
cómo te quedaban esos datos. Entonces para hacer este cambio permanente

01:09:18.720 --> 01:09:21.820
dale aquí en Submit por favor

01:09:25.640 --> 01:09:30.380
y ya esto hace permanente, bueno permanente no tanto porque lo puedo

01:09:30.380 --> 01:09:37.420
cambiar el cambio como tal. Nota ahora que la receta

01:09:37.420 --> 01:09:42.200
te agrega una nueva función. Si te equivocas después del Submit,

01:09:42.700 --> 01:09:47.580
del lado de la receta vas a encontrar en la parte del nombre de la

01:09:47.580 --> 01:09:52.740
receta vas a encontrar un bote de basura. Si ese bote de basura le doy click ahí

01:09:53.640 --> 01:09:57.580
automáticamente borro como tal esa receta o esa función más

01:09:57.580 --> 01:10:01.500
específicamente perdón de la receta. Listo hagamos entonces lo siguiente

01:10:02.520 --> 01:10:07.360
ahora. Este primer ejemplo lo que busco es que entienda en su

01:10:07.360 --> 01:10:10.800
completitud cómo es la herramienta cuál es la función específica. Ya

01:10:10.800 --> 01:10:14.140
vamos ahora sí a los especializados que son las funciones pero la idea es

01:10:14.140 --> 01:10:20.540
que entienda. La herramienta maneja algo que se llaman las versiones.

01:10:20.860 --> 01:10:27.380
Se te recomienda en que uses versiones. ¿Por qué usar versiones? Primero porque

01:10:27.380 --> 01:10:32.020
puedes ver el estado de cambios que ha tenido tu preparación.

01:10:33.240 --> 01:10:40.240
Segundo porque quizás tus preparaciones tengas algunos jobs en

01:10:40.240 --> 01:10:45.700
estudio que dependan de esa preparación y al cambiarla te pueda

01:10:45.700 --> 01:10:50.280
dañar lo que te funcionaba anteriormente. Una lamentable preparación

01:10:50.280 --> 01:10:54.440
es que tú puedas ver qué tantos cambios tengo y que si yo deseo puedo

01:10:54.440 --> 01:10:58.580
ejecutar las preparaciones en la versión que yo desee.

01:10:58.800 --> 01:11:02.540
Sería recomendable entonces que usaras versiones. Esas versiones tú las

01:11:02.540 --> 01:11:07.580
vas a encontrar en la parte superior derecha al ladito del room vas a

01:11:07.580 --> 01:11:13.420
tener ahí con una especie de un botón que botón circular que tiene una

01:11:13.420 --> 01:11:19.300
especie de libros ahí. Dale clic ahí a ese señor que está ahí

01:11:20.160 --> 01:11:24.240
y al darle clic te da un menú para agregar una nueva versión

01:11:25.060 --> 01:11:30.140
en la parte superior derecha al ladito del room al lado izquierdo del

01:11:30.740 --> 01:11:38.860
le das clic ahí y te agrega entonces dale adversion y solamente estas

01:11:38.860 --> 01:11:43.240
versiones no puedes simplemente lo que te permite es agregar una descripción y

01:11:43.240 --> 01:11:47.740
lo ideal es que en la descripción especifica los cambios que tiene esa

01:11:47.740 --> 01:11:53.180
receta. Entonces aquí podemos colocar se concatenó

01:11:53.180 --> 01:11:57.400
el nombre y el apellido

01:12:00.880 --> 01:12:07.500
y le digo adversion. Se coloqué en la descripción se concatenó el nombre y

01:12:07.500 --> 01:12:09.560
el apellido.

01:12:10.600 --> 01:12:15.320
Si quieres volver al menú le da nuevamente clic en el en el botón de

01:12:15.320 --> 01:12:18.320
la versión y te vuelve al menú de las funciones.

01:12:19.560 --> 01:12:24.600
Haga lo siguiente entonces borre por favor la columna nombre cómo

01:12:24.600 --> 01:12:31.160
borramos una columna se va aquí al menú hamburguesa de la columna y dígale

01:12:31.160 --> 01:12:33.220
delete column

01:12:34.140 --> 01:12:39.800
note que automáticamente se agrega eso en la receta

01:12:39.800 --> 01:12:43.840
borre aquí apellido

01:12:49.820 --> 01:12:56.180
y por favor cambie el nombre de la columna de nombres apellido

01:12:56.180 --> 01:12:59.380
cámbielo rename column

01:12:59.380 --> 01:13:05.460
cámbelo a nombres espacio completo

01:13:05.460 --> 01:13:08.240
y le da subtin.

01:13:15.420 --> 01:13:18.720
Para probar este concepto de versiones que solamente lo voy a hacer en este

01:13:18.720 --> 01:13:23.000
primer ejemplo ya en los demás me voy a dedicar exclusivamente a la

01:13:23.000 --> 01:13:26.740
parte de funciones. Quiero que con este ejemplo entienda por completo la

01:13:26.740 --> 01:13:30.700
herramienta. Vamos a agregar una nueva versión aquí

01:13:31.580 --> 01:13:33.940
especificando los cambios que hicieron. Voy a agregar aquí una

01:13:33.940 --> 01:13:39.100
nueva versión y voy a decir se eliminaron

01:13:39.100 --> 01:13:48.060
las columnas nombres y apellidos y se cambió

01:13:48.060 --> 01:13:57.860
el nombre de la columna a nombres completos y le digo adverso.

01:14:00.480 --> 01:14:04.340
Es importante en que cuando vaya a crear ese tipo de recetas sea lo más

01:14:04.340 --> 01:14:10.120
eficiente posible trate de no repetir funciones. Por ejemplo hay personas

01:14:10.120 --> 01:14:14.140
que hacen lo siguiente toman por ejemplo una columna la convierten a

01:14:14.140 --> 01:14:17.960
tipo título primero después la convierten a tipo mayúscula y después

01:14:17.960 --> 01:14:21.060
otra vez la convierten a tipo título. Ahí está repitiendo muchos pasos.

01:14:21.720 --> 01:14:26.560
Entonces tiene que buscar que estas recetas sean lo más eficiente

01:14:26.560 --> 01:14:32.420
posible. Aclaro que la herramienta no tiene ningún, bueno a nivel de tutorial

01:14:32.420 --> 01:14:37.560
no tiene un máximo de filas con las cuales va a trabajar. El máximo de

01:14:37.560 --> 01:14:42.060
filas solamente es para el preview con lo que va a hacer la parte de definir

01:14:42.060 --> 01:14:45.880
los tipos de datos. Eso es nada más el preview pero la

01:14:45.880 --> 01:14:51.360
herramienta no tiene ningún tipo de, digamos de límite para el tamaño que

01:14:51.360 --> 01:14:56.120
tengan estos de hacer. Esto que hemos hecho es muy sencillo entonces he

01:14:56.120 --> 01:14:59.440
creado, he tomado un dataset, he creado una preparación. La preparación se basó

01:14:59.440 --> 01:15:03.520
en un dataset, después creé una receta con un conjunto de funciones, después

01:15:03.520 --> 01:15:09.320
creé un conjunto de versiones que sería interesante que las manejara. Ahora

01:15:09.320 --> 01:15:14.460
aclaro en este punto en que está aquí esta receta no ha cambiado el

01:15:14.460 --> 01:15:20.300
dataset original. Lo que me está mostrando es cómo quedaría después de

01:15:20.300 --> 01:15:25.640
ejecutar esta receta. Entonces vayamos a lo siguiente ahora. Si tú

01:15:25.640 --> 01:15:31.800
quieres hacer los cambios necesitas ejecutar la preparación. ¿Cómo la

01:15:31.800 --> 01:15:38.100
ejecutas? La ejecutas acá en el run. Vete acá a este run, por favor.

01:15:40.580 --> 01:15:45.320
En el run, por favor. Sí, efectivamente es superior derecho, exactamente, es

01:15:45.320 --> 01:15:46.560
superior derecho.

01:15:50.200 --> 01:15:57.540
Este run que está aquí. Entonces, ¿qué hace con este run de acá? Con este run de

01:15:57.540 --> 01:16:03.040
acá puedes entonces definir el destino que va a obtener después de ejecutar

01:16:03.040 --> 01:16:09.000
con el dataset original la receta. Una es que tú puedes mandarlo al mismo

01:16:09.000 --> 01:16:14.060
dataset que no es tan buena práctica. No es tan buena práctica perder el

01:16:14.060 --> 01:16:20.820
original, porque si hay un error en la receta se me puede dañar y cómo

01:16:20.820 --> 01:16:26.600
recupero nuevamente. Entonces para cualquier, digamos, trabajo que tú

01:16:26.600 --> 01:16:30.900
vayas a hacer o proyecto no es buena opción modificar original, quizás

01:16:30.900 --> 01:16:34.700
sacar una copia, pero mantener siempre el original por si nos

01:16:34.700 --> 01:16:39.180
equivocamos en algún paso. Si quisiese, por ejemplo, cambiar original

01:16:39.180 --> 01:16:45.980
aquí le diría que me lo mandará un dataset existente, pero deseo hacer lo

01:16:45.980 --> 01:16:49.380
siguiente o puedo hacer lo siguiente, mandarlo a un nuevo dataset

01:16:50.560 --> 01:16:55.280
o si quiero puedo mandarlo a una tabla.

01:16:55.520 --> 01:16:59.600
Pero en este caso vamos a hacer lo siguiente. Váyase a esta opción que

01:16:59.600 --> 01:17:03.260
se llama descarga directa, que es la última,

01:17:04.620 --> 01:17:08.660
que aquí no lo mandaría directamente al talent cloud, sino que

01:17:08.660 --> 01:17:13.880
va a permitir descargarlo en tu máquina. Dale por favor next.

01:17:17.420 --> 01:17:21.740
Aquí te piden el formato de salida, en lo cual tú lo quieres. Aquí sí lo

01:17:21.740 --> 01:17:27.020
he probado y se ha funcionado. Note que aquí hay dos formularios, que dos

01:17:27.020 --> 01:17:31.500
tipos de datos que quizás ya los ha visto, que es Abro y Parquet. Ese

01:17:31.500 --> 01:17:35.940
Abro y Parquet lo vamos a discutir en el Talent Big Data que coge

01:17:36.640 --> 01:17:40.940
relevancia para algunos tipos de motores, como el caso de Hi, Redshift, pero

01:17:40.940 --> 01:17:46.780
bueno, en este caso mandalo a un CSV. Ese Abro y Parquet lo explico mañana y

01:17:46.780 --> 01:17:52.260
aquí tú puedes colocar las características del CSV, cuál va a ser

01:17:52.260 --> 01:17:57.820
el carácter de separación, si vas a usar algún carácter para

01:17:59.080 --> 01:18:05.640
aquellas columnas que tenga el mismo carácter de separación. Bueno, en

01:18:05.640 --> 01:18:08.300
este caso vamos a verlo. Aquí next. No vamos a cambiar nada. Y aquí hay

01:18:08.300 --> 01:18:14.860
algo que tiene lo siguiente. Note que aquí está un keep row order,

01:18:15.200 --> 01:18:21.280
mantener el orden que está deshabilitado por defecto. Bueno,

01:18:22.480 --> 01:18:29.800
¿Qué es lo que hace? Ese keep row order lo que hace ese señor es que

01:18:29.800 --> 01:18:34.860
se mantenga el orden de los registros tal cual como vayan entrando.

01:18:36.740 --> 01:18:41.000
Dirás, ¿Pero y eso qué tiene que ver? Tiene que ver mucho.

01:18:42.460 --> 01:18:46.260
Si yo mantengo el orden de los registros,

01:18:46.960 --> 01:18:52.000
hay un problema en que le queda complicado a la herramienta hacer

01:18:52.000 --> 01:18:57.980
paralización. O sea, permíteme y hago acá lo siguiente.

01:18:58.820 --> 01:19:05.700
Voy a hacer acá un diagram, un diagram más que un diagramita aquí, para que me

01:19:05.700 --> 01:19:09.400
entienda la importancia de ese señor. Eso más que todo aplica cuando el

01:19:09.400 --> 01:19:14.340
data sec tiene una gran cantidad de datos. Entonces vamos a lo siguiente.

01:19:14.720 --> 01:19:20.620
Sí ve mi pantalla, ¿Verdad? Imagínese que este es el data sec original y

01:19:20.620 --> 01:19:25.060
este data sec tiene una gran cantidad de registro. La gran cantidad de

01:19:25.260 --> 01:19:31.480
registro es netamente subjetivo y depende netamente de la empresa. Mientras que para

01:19:31.480 --> 01:19:35.040
una empresa 10 millones de registros puede ser mucho, quizás para una

01:19:35.040 --> 01:19:38.180
empresa puede ser muy poco. Entonces esa gran cantidad termina siendo

01:19:38.180 --> 01:19:42.020
subjetivo. Pero véalo a este punto de vista. Voy a colocar aquí 10 millones

01:19:42.020 --> 01:19:47.680
de registros. Vamos a suponer entonces que tú lo que deseas hacer, la función

01:19:47.680 --> 01:19:51.840
que deseas hacer es sencilla para el caso en particular, que es tomar el

01:19:51.840 --> 01:19:56.860
nombre y ese nombre lo voy a concatenar con el apellido. Eso es algo netamente

01:19:56.860 --> 01:20:02.340
sencillo. Pero entonces pasa lo siguiente. Eso como es sencillo y si yo tengo

01:20:02.340 --> 01:20:07.200
una gran cantidad de datos yo podría pensar en lo siguiente. Dividir este

01:20:07.200 --> 01:20:12.720
registro por decirte algo en n partes. En este caso lo voy a dividir en tres

01:20:12.720 --> 01:20:21.140
partes, parte 1, parte 2 y me queda en tres partes. Ahora al dividirlo en

01:20:21.140 --> 01:20:24.460
tres partes puedo hacer lo siguiente, lo que uno llama programación

01:20:24.460 --> 01:20:30.340
concurrente, que lo hace internamente. ¿Qué haría? Tomo que un núcleo del

01:20:30.340 --> 01:20:37.600
procesador, un core, procese este señor que está aquí. Otro core a nivel de

01:20:37.600 --> 01:20:41.980
hardware procese este señor de acá y otro core a nivel de hardware

01:20:41.980 --> 01:20:47.500
procese esto acá. Partiendo del hecho entonces tú reducirías el tiempo de

01:20:47.800 --> 01:20:52.880
procesamiento a una tercera parte. ¿Por qué? Porque estás paralizando. Ahora,

01:20:53.760 --> 01:20:57.920
¿Qué tiene que ver esto que te expliqué con esa columna? Entonces pasa lo

01:20:57.920 --> 01:21:03.140
siguiente. Si la columna mantiene, si yo mantengo el orden de las filas

01:21:03.140 --> 01:21:10.540
como está establecido, queda muy complicado hacer esta paralización.

01:21:11.200 --> 01:21:15.120
Significa que los registros le toca manejarlo uno por uno, un solo core.

01:21:15.880 --> 01:21:24.420
Tú dirás, ¿En qué casos eso es conveniente? Imagínate que tú tengas

01:21:26.280 --> 01:21:33.400
tengas ventas por ciudad y entonces tú quieres ventas por ciudad de cada

01:21:33.400 --> 01:21:36.920
país. Entonces tú quieres rankear por cada país

01:21:36.920 --> 01:21:41.520
cuál es la ciudad que más vende. Entonces ahí tiene que estar ordenado

01:21:41.520 --> 01:21:47.800
y en ese orden puedo hacer un rankeo. Ahí no sería buena opción pues ahí tendría

01:21:47.800 --> 01:21:51.960
que mantener el mismo orden. ¿Por qué? Porque para poder clasificar y si están

01:21:51.960 --> 01:21:57.000
ordenados de mayor a menor sé que el primer registro correspondería al

01:21:57.000 --> 01:22:00.860
primer elemento del listado de lo que más venden. Entonces ahí cambiar

01:22:00.860 --> 01:22:04.820
ese orden de fila te puede dañar los datos. Pero en este caso en que los

01:22:04.820 --> 01:22:11.500
órdenes de fila no tienen nada que ver la fila anterior con la fila que

01:22:11.500 --> 01:22:20.200
y mantélo desordenado. ¿Para qué? Para que sea más eficiente. Aclaro que cuando

01:22:20.200 --> 01:22:23.480
hay casos en que la herramienta se da cuenta en que el orden tiene que

01:22:23.480 --> 01:22:26.760
prevalecer, te coloca automáticamente y te habilita esto de manera

01:22:26.760 --> 01:22:32.680
automática. Pero para eso es que sirve el key row order fuera lejan. Si en

01:22:32.680 --> 01:22:36.200
realidad que el orden no afecta la función que tú vayas a hacer,

01:22:37.400 --> 01:22:41.340
procesa los datos sin los filas ordenadas. ¿Por qué? Porque va a ser

01:22:41.340 --> 01:22:44.860
más eficiente porque lo que hace es que el código que se genera para

01:22:44.860 --> 01:22:50.220
procesarlo paraleliza la función y eso va a hacer que reduzca el tiempo de

01:22:50.220 --> 01:22:54.380
respuesta de procesamiento. Para eso es que sirve eso entonces.

01:22:55.460 --> 01:23:00.120
Aquí te piden seleccionar el room profile. Básicamente lo que hace este

01:23:00.120 --> 01:23:05.480
señor es que él elige la infraestructura donde va a ejecutar.

01:23:05.700 --> 01:23:09.160
Por defensa tengo este par aquí que este par es el que vamos a ver el día

01:23:09.160 --> 01:23:15.100
mañana y cómo se usa este par que tiene mucha relación con el

01:23:15.100 --> 01:23:19.180
talent big data, este par que está aquí. Pero bueno solamente tengo una

01:23:19.180 --> 01:23:23.160
infraestructura donde lo puedo ejecutar solamente a modo informativo con el

01:23:23.160 --> 01:23:25.960
TMC, los que vayan a ver, los que vayan a administrar talent, hay una

01:23:25.960 --> 01:23:29.400
herramienta que se llama el TMC y en el TMC puedes agregar más

01:23:29.980 --> 01:23:33.220
infraestructura. Es más puedes agregar infraestructura a nivel local. Puedes

01:23:33.220 --> 01:23:37.880
agregar entonces a nivel de máquina tuya. Defines allá una infraestructura

01:23:37.880 --> 01:23:39.780
y hace que se ejecute contra tu máquina.

01:23:41.220 --> 01:23:44.140
En este caso pues nada más tengo una en una versión real, nada más tengo esto.

01:23:44.520 --> 01:23:48.260
Listo aquí no hay más nada aquí simplemente debe un room por favor.

01:23:50.440 --> 01:23:54.480
Listo aquí se empieza el proceso de ejecución.

01:23:59.260 --> 01:24:05.040
El tiempo aunque sea muy pequeño recuerden que como esa infraestructura

01:24:05.040 --> 01:24:09.180
está compartida con millones de usuarios, por eso es que el tiempo de

01:24:09.180 --> 01:24:10.300
respuesta tarda mucho.

01:24:14.960 --> 01:24:18.860
Si quizás solamente modo informativo tengas problemas con los tiempos de

01:24:18.860 --> 01:24:21.880
respuesta a nivel del SAS, o sea software como servicio que tenemos el

01:24:21.880 --> 01:24:27.340
talent data preparation, puedes instalar esto a nivel local y ejecutarías

01:24:27.340 --> 01:24:31.320
directamente con la infraestructura tuya. No habría ningún problema. De aquí

01:24:31.320 --> 01:24:34.740
ya terminó, demoró un segundo bastante para la cantidad de elementos que

01:24:34.740 --> 01:24:38.180
hay y aquí tú puedes descargar el archivo.

01:24:38.640 --> 01:24:45.060
Aquí se descarga, voy a ver y debería estar el archivo aplicando la receta.

01:24:48.720 --> 01:24:55.160
Y aquí está el archivo. Con la receta preparada y aquí ya puedes tomar estos

01:24:55.160 --> 01:25:01.580
datos y llevarlo a un PowerBeam, llevarlo a un tablú o algo que tú

01:25:03.380 --> 01:25:06.800
quieras. No veo que hay alguno que lo descargaron y están revisando a ver cómo

01:25:06.800 --> 01:25:10.540
les quedó. A verlo con el Notepad si deseas para ver algún Notepad ahí y

01:25:10.540 --> 01:25:13.800
debería mostrar los datos que está ahí. Es un registro muy pequeño,

01:25:14.140 --> 01:25:19.740
solamente son 20 registros. Bien, continuamos entonces. Esto es lo que

01:25:19.740 --> 01:25:23.640
llamaba preparación, recetas. Esas recetas pueden ser cambiadas en el

01:25:23.640 --> 01:25:28.760
tiempo, bueno tú puedes eliminar, quitar y había una parte de

01:25:28.760 --> 01:25:32.160
automatización que decía. Bueno, vamos a ver cómo es ese cuento de

01:25:33.060 --> 01:25:36.620
automatización. Vayamos entonces a lo siguiente,

01:25:37.520 --> 01:25:41.340
veamos nuevamente la herramienta, devolvamos a donde estábamos

01:25:41.340 --> 01:25:45.520
en la preparación, no en el Room, en esta preparación de aquí.

01:25:46.380 --> 01:25:52.920
Ah, perdón, no. Vayamos, espera un momento a ver que se me escapa de aquí.

01:25:53.920 --> 01:25:57.120
Solamente de aquí me hace falta ver cómo integro el dataset, o sea como yo,

01:25:57.120 --> 01:26:01.100
nada más. Lo demás pues son las funciones que están acá, pero ya esa es

01:26:01.100 --> 01:26:06.300
la esencia de la herramienta. Vayamos a donde dice dataset, vayas al

01:26:06.300 --> 01:26:09.400
data preparation, por favor, data preparation.

01:26:11.780 --> 01:26:13.400
Sección de dataset.

01:26:24.500 --> 01:26:30.740
Y ahora escoja, seleccione el mismo dataset que tuvimos ahora que es

01:26:30.740 --> 01:26:35.920
datos limpieza a los clientes, coloque el mouse sobre el nombre y

01:26:37.740 --> 01:26:42.100
automáticamente, Brenda por favor, donde dice dataset, ahí lo puede decir

01:26:42.100 --> 01:26:48.780
exactamente, ahí. Coloca el mouse sobre el nombre del dataset llamado

01:26:48.780 --> 01:26:54.540
dataset limpieza y note que le aparece un pequeño menú, entonces ese menú le

01:26:54.540 --> 01:26:58.660
aparece como un tubo de ensayo, ese tubo de ensayo lo que hace es ver los

01:26:58.660 --> 01:27:01.980
datos, o sea es una tablita y puede consultar los datos, si quieres da

01:27:01.980 --> 01:27:04.820
clic ahí y eso lo que te va a hacer es que te va a consultar los datos que

01:27:04.820 --> 01:27:07.240
tiene el señor. Recuerde que los datos que te va a mostrarles es un

01:27:07.240 --> 01:27:11.740
preview, máximo de 10 mil filas. Puede haber más datos, sí, pero

01:27:11.740 --> 01:27:16.360
nada te muestra un preview. Y para el dato informativo, el preview máximo

01:27:16.360 --> 01:27:20.580
puede ser 100 mil, listo, de ahí no puedes cambiarlo. Me devuelvo nuevamente

01:27:20.580 --> 01:27:26.380
donde estaba. El otro elemento que está ahí como si fueran unas olas, lo

01:27:26.380 --> 01:27:30.260
que te permite que con ese dataset puedas crear un pipeline, el

01:27:30.260 --> 01:27:33.260
pipeline fue el que hicimos a nivel de data steward y que fue el último

01:27:33.260 --> 01:27:37.880
ejemplo que hicimos al principio. Y te aparece esa parte de química que se

01:27:37.880 --> 01:27:43.680
escapa, no me acuerdo cómo se llama eso en química, escapó como se llama y te

01:27:43.680 --> 01:27:47.520
permite crear una preparación. Dale clic ahí un momentito en esa

01:27:51.480 --> 01:27:52.060
preparación.

01:27:53.540 --> 01:27:57.920
Dale clic ahí. Y ahora pasa algo en particular,

01:27:59.500 --> 01:28:04.960
es que tú puedas con un mismo dataset escoger una preparación ya que hayas

01:28:04.960 --> 01:28:09.280
hecho. Para este caso no subimos todos los ejemplos que tenía, pero la idea es

01:28:09.280 --> 01:28:13.400
la misma, es decir, si yo intentaría subir un dataset con alguna

01:28:13.400 --> 01:28:17.480
característica, la herramienta va a buscar para ver cuáles preparaciones

01:28:17.480 --> 01:28:23.540
digamos son compatibles con eso que ya tú tienes. Entonces, si yo

01:28:23.540 --> 01:28:27.920
quisiera subir un dataset y usar una receta, déjame irme por este lado. Me voy por

01:28:27.920 --> 01:28:33.300
el dataset y abro las preparaciones y él me va a permitir entonces abrir

01:28:33.300 --> 01:28:38.500
el dataset con una preparación. Dele por favor aquí open

01:28:41.820 --> 01:28:47.140
aunque sea el mismo registro que va a ser, va a aplicar todas las funciones que

01:28:47.140 --> 01:28:51.460
tenga la receta ese dataset. Y eso es lo que él habla de automatización.

01:28:53.400 --> 01:28:59.460
Tendrás preguntas, muchas preguntas que dirás, pero esta automatización termina

01:28:59.460 --> 01:29:03.380
siendo semiautomática. ¿Por qué semiautomática? Porque me toca entrar en

01:29:03.380 --> 01:29:08.700
la herramienta, tomar el dataset, escoger la preparación que más se acomoda y

01:29:08.700 --> 01:29:13.820
volverlo a ejecutar. Sí señor, si tuviste esa visión es

01:29:13.820 --> 01:29:18.360
así, es decir, si lo hago de esta forma no es tan automatizado el

01:29:18.360 --> 01:29:22.660
proceso, es semiautomático porque hay unos elementos manuales que me toca

01:29:22.660 --> 01:29:28.260
hacer. Entonces, si deseamos automatizar el proceso resulta que

01:29:28.440 --> 01:29:35.240
la herramienta que se llama Talent Studio, que las voy a mostrar el día de mañana

01:29:35.240 --> 01:29:39.800
un poco ahí para que vea, pero esa herramienta te permite conectarte a

01:29:39.800 --> 01:29:44.380
las preparaciones que tú tengas definidas. Entonces allá puedes crear un

01:29:44.380 --> 01:29:50.040
job, ese job lo que hace es que tiene unas entradas, define la preparación

01:29:50.040 --> 01:29:53.440
con la versión que tú quieras y haces lo que tú deseas con esa

01:29:53.440 --> 01:29:59.580
preparación. Entonces en realidad la forma automática es utilizar el Talent

01:29:59.580 --> 01:30:03.980
Studio con la preparación que definí con el Talent Data Preparation, porque si

01:30:03.980 --> 01:30:07.400
la hago de esta forma termina siendo un poco semiautomático. Listo y en

01:30:07.400 --> 01:30:16.800
realidad esto es la herramienta, aquí no hay más nada, es decir, esto es el

01:30:16.800 --> 01:30:22.080
core de la herramienta en el cual yo tenga unos dataset en el cual me toca

01:30:22.080 --> 01:30:27.420
formatearlo para adaptarlo a alguna salida, sea un tablú, sea un PowerBee, lo

01:30:27.420 --> 01:30:31.620
que tú quieras o quizás adaptarlo para entenderlo mejor en un formato

01:30:31.620 --> 01:30:36.220
diferente como tú desees. Tú tomas ese elemento, aplicas una serie de

01:30:36.220 --> 01:30:41.300
funciones y ejecutas esa preparación que tú hiciste. Las

01:30:41.300 --> 01:30:45.780
preparaciones que están en las recetas, perdón, las recetas están

01:30:45.780 --> 01:30:49.420
compuestas por las funciones que te define la herramienta. Esto no es más

01:30:49.420 --> 01:30:55.360
nada, esto es el core de la herramienta. Vamos entonces a ver las diferentes

01:30:55.360 --> 01:31:01.160
funciones en cómo las puedes aplicar en tu diario Vivid. He cambiado el orden de

01:31:01.160 --> 01:31:07.340
este curso porque empezaba con algunas funciones que son mucho más básicas

01:31:07.340 --> 01:31:12.340
y después me iba a unas funciones que él llama avanzadas.

01:31:13.320 --> 01:31:16.600
Hablaremos que quizás para los que estamos metidos mucho en este medio

01:31:17.920 --> 01:31:22.400
de tecnología o de pronto los que hayan utilizado y Excel que es una de

01:31:22.400 --> 01:31:26.800
las mejores herramientas que tiene Office quizás no sea tan avanzado pero

01:31:26.800 --> 01:31:31.540
es lo que él llama avanzada. Entonces, cambié el curso para empezar con las

01:31:31.540 --> 01:31:37.260
avanzadas y las básicas pues si da tiempo la vemos, si no pues por lo

01:31:37.260 --> 01:31:40.680
menos dimos la avanzada y como es básica pues asumo que debería ser

01:31:40.680 --> 01:31:42.000
más fácil de entender.

01:31:44.780 --> 01:31:48.680
Sí o sí el curso termina el día de hoy hasta donde les cansemos a hablar

01:31:48.680 --> 01:31:53.280
porque no puedo darme el lujo de tomar unas horas para las big data que

01:31:53.280 --> 01:31:57.760
es el curso digamos que es el fundamental y además que con el big

01:31:57.760 --> 01:32:00.020
data me va a quedar unas horas faltantes.

01:32:00.820 --> 01:32:04.200
Bueno perfecto entonces vayamos a lo siguiente, vayamos nuevamente al

01:32:04.360 --> 01:32:11.660
menú y vamos aquí desde el menú vamos al dataset, vamos a crear una

01:32:11.660 --> 01:32:18.320
una preparación desde el dataset, vamos a escoger por favor busque el

01:32:18.320 --> 01:32:25.140
dataset que se llama ejercicio número uno, selecciona, coloca el mouse por

01:32:25.140 --> 01:32:30.440
encima del nombre y abre por favor para que le dé una preparación aquí.

01:32:33.740 --> 01:32:37.720
Aquí te piden si deseas usar una, bueno en caso de pronto no te aparezca y de

01:32:37.720 --> 01:32:42.240
pronto porque he usado aquí, si no te aparece él aquí en add

01:32:43.140 --> 01:32:47.120
y te va a llevar al menú que estábamos anteriormente.

01:32:49.800 --> 01:32:55.780
Listo, ubiquemos en el data preparation, perfecto, vayamos a

01:32:55.780 --> 01:32:59.360
en el menú izquierdo vertical.

01:33:00.840 --> 01:33:04.720
Seleccionamos y buscamos el dataset llamado ejercicio uno y colocamos el

01:33:04.720 --> 01:33:08.380
mouse por encima, nada más por encima de ejercicio uno, no le damos clic no

01:33:08.380 --> 01:33:12.780
colocamos el mouse y ahora nos aparece un menú del lado derecho,

01:33:13.460 --> 01:33:17.820
escogemos la tercera opción que es como no acuerdo cómo se llama la

01:33:17.820 --> 01:33:23.980
botellita esa en química, le da clic aquí y me le da aquí adicionar

01:33:23.980 --> 01:33:28.260
y le va a crear una nueva preparación aquí.

01:33:34.220 --> 01:33:39.840
Ah perdón, sería entonces el sí, espérate para ver si fue que me

01:33:39.840 --> 01:33:44.400
equivoqué, vamos el ejercicio, no está el dos verdad?

01:33:46.140 --> 01:33:49.460
Permíteme y confirmo el ejercicio dos para ver si da si no me toca

01:33:49.460 --> 01:33:55.320
subir ejercicio un, ah sí, sí, sí, sí, sí, sí, espérate para ver si no me

01:33:56.420 --> 01:33:59.980
equivoqué, perfecto, gracias por la observación,

01:34:00.180 --> 01:34:03.000
sí, efectivamente, ejercicio dos.

01:34:04.400 --> 01:34:08.880
Entonces busque ejercicio dos en su dataset y aplica lo mismo que

01:34:08.880 --> 01:34:11.700
intentaba explicar ahora,

01:34:13.340 --> 01:34:15.300
le dice aquí add,

01:34:17.900 --> 01:34:22.120
perfecto, listo, gracias por la observación, cambia el nombre, recuerde

01:34:22.120 --> 01:34:26.420
que hay un pequeño bot, cómo cambia, vamos a cambiar acá en el lápizito,

01:34:27.440 --> 01:34:30.660
creo que ya por experiencia no hago nada aquí, le doy nuevamente aquí clic

01:34:30.660 --> 01:34:34.780
porque sé que no me lo cambia, entonces le doy nuevamente clic y ahora sí lo

01:34:34.780 --> 01:34:39.580
voy a cambiar, lo voy a llamar ejercicio dos y he adoptado

01:34:39.580 --> 01:34:44.260
snake case, sería entonces underscore y le termino con el prefijo

01:34:46.200 --> 01:34:50.480
preparación, esto lo voy a hacer nada más una vez porque para aprovechar el

01:34:50.480 --> 01:34:57.060
tiempo al máximo listo y aquí ahora tampoco me lo cambió porque no me lo

01:34:57.060 --> 01:35:02.720
cambió, no sé si es que raro, vamos a ver nuevamente

01:35:05.760 --> 01:35:06.480
preparación

01:35:08.320 --> 01:35:13.100
bueno ahí sí lo lo corrigí

01:35:18.880 --> 01:35:25.440
bueno vamos entonces creo que sí todos estamos ubicados, ahora por favor

01:35:25.440 --> 01:35:29.120
hagamos lo siguiente, el primer ejercicio lo vamos a aplicar sobre la

01:35:29.400 --> 01:35:34.840
columna que se llama nombres, entonces ubique aquí en nombres por favor y

01:35:34.840 --> 01:35:40.080
vamos a aplicar en este caso funciones de columnas, aquí cuando

01:35:40.080 --> 01:35:44.220
usted selecciona una columna por defecto en el menú derecho de las

01:35:44.220 --> 01:35:49.840
funciones, le aparece una sugerencia que podías aplicar o que son comunes

01:35:49.840 --> 01:35:54.800
de aplicar al tipo de dato en que está, este nombre hace el text te

01:35:54.800 --> 01:36:00.620
quieren algunos tipos de funciones como por ejemplo magic fit que vamos a

01:36:00.620 --> 01:36:06.940
ver ahora, etcétera, pero para no perdernos y seguir un orden baje por

01:36:06.940 --> 01:36:15.280
favor y se ubica en el menú que se llama en el menú de stream

01:36:16.960 --> 01:36:21.820
este que está aquí, creería que hay algunas funciones ya que con

01:36:21.820 --> 01:36:27.000
solamente el nombre podíamos ya inferir qué es lo que hace por ejemplo calcula

01:36:27.000 --> 01:36:29.960
y lay pues lo que te va a hacer es que te va a calcular el número de

01:36:29.960 --> 01:36:34.780
caracteres que tiene ese stream, change to lower te va a cambiar a todo en

01:36:34.780 --> 01:36:38.540
minúscula, change to title va a colocar la primera letra de cada

01:36:38.540 --> 01:36:42.940
palabra en mayúscula y el change to uppercase lo que va a hacer es que te

01:36:42.940 --> 01:36:48.040
va a cambiar a mayúscula, solamente para probar vamos a cambiar el nombre

01:36:48.040 --> 01:36:53.780
a tipo title entonces vamos a darle click a la función change to title

01:36:53.780 --> 01:36:56.420
case por favor

01:36:56.420 --> 01:37:02.020
note que ya empieza un menú muy parecido en que hay algunas funciones

01:37:02.020 --> 01:37:07.440
que te van a permitir crear una nueva columna el resultado de la función no

01:37:07.440 --> 01:37:11.180
deseo hacer eso entonces lo que voy a hacer es que tengo el menú preview

01:37:11.180 --> 01:37:16.120
que es para ver, para testear y tengo el menú submit por favor entonces

01:37:16.120 --> 01:37:22.140
dale submit directamente para que automáticamente aplique el cambio

01:37:22.140 --> 01:37:26.980
recuerda que ahora cada función que voy agregando acá se va agregando en la

01:37:26.980 --> 01:37:31.420
receta de este lado note que automáticamente ya cambia

01:37:31.420 --> 01:37:37.040
perfecto listo, vayamos ahora y nos ubicamos en la columna que se llama

01:37:37.700 --> 01:37:41.720
url recuerde que estoy concentrado más que todo en las funciones ya la

01:37:41.950 --> 01:37:46.570
parte esta de cómo funciona el preparation ya más o menos lo explique

01:37:47.430 --> 01:37:50.650
inicialmente vayamos nuevamente al menú de stream

01:37:52.090 --> 01:37:57.310
y aquí hay algo que es stream perdón sería es stream

01:38:00.750 --> 01:38:06.770
listo y busque la función que se llama contain text pasa lo siguiente

01:38:06.770 --> 01:38:13.110
entonces tienes que tener en cuenta en que esto es algo que te va a pasar

01:38:13.110 --> 01:38:18.230
mucho con las herramientas de talent en forma general que al estar basada en

01:38:18.230 --> 01:38:21.430
java son sensibles a mayúsculas y minúsculas donde quiero llegar es lo

01:38:21.430 --> 01:38:29.070
siguiente vamos a buscar aquí me pide si deseo hacer la búsqueda basado en

01:38:29.070 --> 01:38:33.030
un valor fijo o en otra columna ya te había explicado un poquito cuando

01:38:33.030 --> 01:38:35.390
cuando hicieron la parte de concatenación que algunas opciones que

01:38:35.390 --> 01:38:39.710
ofrecen esto en este caso vamos a coger un valor fijo

01:38:39.710 --> 01:38:45.930
y vamos a buscar entonces si contiene la palabra con pero hagamos algo

01:38:45.930 --> 01:38:51.230
colóquela en c mayúscula y lo demás en minúscula dele por

01:38:51.230 --> 01:38:55.770
favor aquí en preview para ver que da y de igual forma aunque haya

01:38:55.770 --> 01:38:59.710
funciones que no te tenga el menú crear columna ellos

01:38:59.710 --> 01:39:04.110
automáticamente te crean una columna este es el caso particular de esta

01:39:04.110 --> 01:39:09.190
función en que al darle al ejecutarla me va a crear una nueva columna y me va

01:39:09.190 --> 01:39:13.510
a volver un booleano para especificar si lo que estás buscando fue correcto

01:39:13.510 --> 01:39:18.730
se encuentra o no se encuentra como sub cadena dentro la cadena textual note

01:39:18.730 --> 01:39:25.710
entonces ahora en caso particular este que tiene aquí no la encontró y

01:39:25.710 --> 01:39:29.470
partiendo del hecho en que la primera fila si la contiene por qué no

01:39:29.470 --> 01:39:35.230
la encontró porque por defecto aquí hace edición de la herramienta por

01:39:35.230 --> 01:39:41.510
defecto él busca en caso sensitivo significa que tendría que buscarla con

01:39:41.510 --> 01:39:46.850
esta función exactamente como está si le aquí damos le damos entonces con y

01:39:46.850 --> 01:39:52.970
le damos aquí un preview debería tener un true en la primera y ahí está

01:39:52.970 --> 01:39:57.710
entonces esto lo agregué para que tenga presente en que cuando buscas

01:39:57.710 --> 01:39:58.010
valores

01:40:01.070 --> 01:40:06.030
por funciones de manera estática él te va a buscar en caso insensitivo

01:40:06.030 --> 01:40:11.870
seguramente te preguntarás cómo haría para buscarla en caso insensitivo es

01:40:11.870 --> 01:40:16.370
decir que me da lo mismo si está con c mayúsculo o c minúsculo bueno lo

01:40:16.370 --> 01:40:20.690
que sí es claro es que esta función no te ayuda en esa parte listo

01:40:20.690 --> 01:40:25.070
bueno deja entonces cuando busco de manera fija me va a buscar un texto

01:40:25.070 --> 01:40:31.130
de manera insensitiva de la que un sumi para que nos quede ahí ya la función

01:40:31.130 --> 01:40:33.710
hecha realizada ahí

01:40:36.090 --> 01:40:40.070
ahora resolvamos entonces inmediatamente cómo haría para resolver

01:40:40.070 --> 01:40:45.330
entonces el problema de buscarlo en caso insensitivo entonces para

01:40:45.330 --> 01:40:49.310
buscar en caso insensitivo ya esto lo hayamos hecho en el tal en data

01:40:49.310 --> 01:40:52.810
stay wars vamos a usar una función que es un

01:40:53.710 --> 01:40:58.610
entonces vamos a buscar un ser aquí

01:41:00.570 --> 01:41:05.070
pero esta función se ha hecho un momento no me va a dar lo que quiero

01:41:05.070 --> 01:41:10.250
espera ese momento no que venga esta función creo que no no eso lo hago

01:41:10.250 --> 01:41:14.630
después esa función se hace porque me tocaría reemplazar entonces no deseo

01:41:14.630 --> 01:41:17.510
reemplazar ahora le digo la función porque haría que hacerlo con una

01:41:17.510 --> 01:41:21.570
expresión regular entonces voy siguiendo con el otro ejemplo mejor

01:41:21.570 --> 01:41:26.970
ahí qué pena y pensé que me iba a funcionar esta vez no bien vamos entonces

01:41:26.970 --> 01:41:32.750
a lo siguiente vayamos nuevamente nos ubicamos en la columna ure l y vayamos

01:41:32.750 --> 01:41:36.130
entonces a espring

01:41:37.010 --> 01:41:40.510
vayamos entonces aquí hay una función que dice extraer el valor por

01:41:40.510 --> 01:41:46.270
índice en este caso el índice de iría es decir posición desde qué

01:41:46.270 --> 01:41:50.070
posición tú quieres sacar elementos entonces vayamos a lo siguiente

01:41:50.070 --> 01:41:56.570
vamos aquí vamos a suponer que te piden extraer el dominio de la ure l ok

01:41:56.570 --> 01:42:00.690
este lo podía hacer de diferente forma una función que te puede ayudar es esta

01:42:00.690 --> 01:42:05.010
estamos en ure l y vamos a escoger la función de string que se llama extraer

01:42:05.010 --> 01:42:07.670
el valor por índice y dele clic por favor

01:42:09.570 --> 01:42:12.370
aquí en el tú hay diferentes

01:42:14.270 --> 01:42:19.090
formas de sacar los elementos por defecto tenemos aquí un 5 por ejemplo

01:42:19.090 --> 01:42:24.870
si yo ejecuto esta función con tu índice lo que haría sería que va a

01:42:24.870 --> 01:42:29.490
sacar desde la posición 0 hasta la posición 5 es la que está por defecto

01:42:30.250 --> 01:42:35.350
si utilizo otra función que es su en esta que está aquí

01:42:37.130 --> 01:42:42.270
aquí me permite buscar de dónde yo quiero hasta el final por ejemplo si

01:42:42.270 --> 01:42:47.150
yo digo si es como tu en él me va a decir oye dónde quieres empezar

01:42:47.150 --> 01:42:52.510
voy a decirle quiero empezar desde la posición 2 y quiero terminar en la

01:42:52.510 --> 01:42:57.010
posición 5 tú puedes ahí sacar esto pocas palabras

01:42:57.010 --> 01:43:02.990
una sub cadena ahora quiero aplicar lo siguiente como quiero sacar los

01:43:02.990 --> 01:43:07.750
primeros tres elementos en este caso tomando como referencia en que las los

01:43:07.750 --> 01:43:13.430
dominios tienen tres elementos yo podía hacer lo siguiente ahora podía

01:43:13.430 --> 01:43:18.010
hacer lo siguiente voy a cambiar aquí la función

01:43:18.650 --> 01:43:23.010
y voy a decir que quién me habló

01:43:23.010 --> 01:43:28.810
de atriz vamos a ver ya voy a ver listo de atriz notarás que en la

01:43:28.810 --> 01:43:32.030
parte derecha hay como una especie de una flechita que es la punta la

01:43:32.030 --> 01:43:39.170
flecha que está al final en la barra no sé no sé si en pantalla

01:43:39.170 --> 01:43:44.610
de mi pantalla esta flecha que está aquí

01:43:45.290 --> 01:43:49.050
las bandes aquí perfecto

01:43:49.050 --> 01:43:52.450
entonces aquí tú puedes sacar desde una posición de la posición 0 hasta el

01:43:52.450 --> 01:43:55.450
final o puede sacar de la posición que tú quieras hasta la posición final

01:43:55.450 --> 01:44:00.410
que tú quieras entonces vamos a sacar simplemente al revés quiero con la

01:44:00.410 --> 01:44:06.010
opción from n before entonces aquí voy a colocar 3 y

01:44:06.010 --> 01:44:12.630
explico cómo funciona ese n before entonces tengo el dominio que es

01:44:12.630 --> 01:44:17.790
example punto con permítame y te lo hago acá tengo aquí example punto con

01:44:17.790 --> 01:44:22.390
de ello oye me favor posiciones de tres posiciones antes del final o sea 1

01:44:22.390 --> 01:44:28.650
2 3 se coloca aquí y a partir de ahí saca de ahí hasta el final entonces lo

01:44:28.650 --> 01:44:32.890
que pasa es que hace el índice de derecha izquierda y después saca los

01:44:32.890 --> 01:44:37.510
elementos hasta el final entonces le voy a decir aquí 3 con la función from

01:44:37.510 --> 01:44:42.050
n before le digo toma tres elementos de derecha izquierda y de esa posición

01:44:42.050 --> 01:44:46.590
saca los elementos al final le voy a decir que cree una nueva columna y le

01:44:46.590 --> 01:44:53.210
voy a enviar aquí un submit y debería sacar el dominio

01:44:54.090 --> 01:45:01.050
bueno en este caso debió ser 4 al parecer entonces me parece bien voy a

01:45:01.050 --> 01:45:08.770
como es 4 podía hacer dos cosas una sería borrar acá la función o la otra

01:45:08.770 --> 01:45:14.450
cambiarla acá y decir que yo puse tres yo puse tres no en realidad fue que yo

01:45:14.450 --> 01:45:21.510
que me equivoqué de 13 tenía 2 le dio nuevamente sumi para que lo vuelva a

01:45:21.510 --> 01:45:25.910
ejecutar con el cambio y debería mostrarme

01:45:25.910 --> 01:45:33.130
ahora sí entonces cuando hay un error en alguna función o tú elimina la

01:45:33.130 --> 01:45:37.610
función o la puedes corregir en la receta y la vuelves a ejecutar nuevamente

01:45:37.610 --> 01:45:40.990
en caso de cualquier cambio lo cambia el lado de receta y le da nuevamente

01:45:40.990 --> 01:45:45.030
sumi para que tome el cambio que usted requiera si en realidad lo que

01:45:45.030 --> 01:45:49.050
desea es eliminar pues baja el bote basura y lo elimina vamos ahora a una

01:45:49.050 --> 01:45:52.430
función interesante esta sí es interesante porque puede hacer un

01:45:53.770 --> 01:46:00.950
formateo de los datos de una manera muy sencilla y esto es esta función le

01:46:00.950 --> 01:46:05.430
ayudaría a solucionar el problema de ayer cuando ayer teníamos unos

01:46:05.430 --> 01:46:09.610
teléfonos que tenían unos formatos y dije que era complicado quizá con

01:46:09.610 --> 01:46:14.330
esta función te sale para formatear esos teléfonos en la forma correcta

01:46:15.170 --> 01:46:18.510
vamos a escoger nuevamente nombres

01:46:20.010 --> 01:46:25.290
ok y vamos a buscar dentro de las funciones de string

01:46:26.650 --> 01:46:32.630
la que se llama magic fill o llenado mágico

01:46:32.630 --> 01:46:37.930
perfecto magic fill ahora mire lo que quiero hacer entonces colocó

01:46:37.930 --> 01:46:42.370
inicialmente lo que deseo hacer para que me entiendas el ejemplo nota que

01:46:42.370 --> 01:46:53.170
los nombres está primer nombre tengo a john john dole tengo a jane smith y

01:46:53.170 --> 01:46:57.370
deseo formatear los nombres de la siguiente forma quiero que los

01:46:57.370 --> 01:47:03.250
nombres ahora me aparezcan de esta manera primera letra del nombre punto

01:47:04.690 --> 01:47:09.430
espacio apellido por lo tanto así me quedaría john dole y j smith me

01:47:10.610 --> 01:47:17.150
quedaría de esta manera j es mi primera letra del nombre punto espacio

01:47:17.150 --> 01:47:24.650
apellido deseo formatear esto podía salir con un regex pero hay cosas que

01:47:24.650 --> 01:47:28.610
con el regex te pueden salir muy complicadas entonces el magic fill te

01:47:28.610 --> 01:47:33.850
ayuda a lo siguiente el magic fill te pide máximo tres

01:47:33.850 --> 01:47:38.110
entradas para entender qué es lo que tú vas a hacer pero en teoría con

01:47:38.110 --> 01:47:41.790
tres entradas mínimos que haga él debería entender qué es lo que va a

01:47:41.790 --> 01:47:46.330
hacer entonces primero en el input número uno

01:47:46.330 --> 01:47:51.490
qué va a hacer vas a colocar un registro que pertenezca a tus datos tal

01:47:51.490 --> 01:47:57.670
cual como está en este caso va a colocar john o tache dole que aparece

01:47:57.670 --> 01:48:03.930
en este listado de acá y voy a colocar en el output como

01:48:03.930 --> 01:48:10.250
quiero que salga eso quiero que salga ota punto dole me pide por lo menos

01:48:10.250 --> 01:48:14.450
tres entradas entonces escojo el siguiente que es jane es mi uno que

01:48:14.450 --> 01:48:20.290
esté ahí en el registro y acá aquí me equivoqué porque coloqué m j

01:48:22.710 --> 01:48:31.250
jota punto es mi listo y me pide bueno bueno en realidad me pide 2

01:48:31.930 --> 01:48:38.050
voy a voy a colocarle el 3 por si acaso sería el 3 sería robert

01:48:38.050 --> 01:48:43.910
johnson en realidad perdón me pide son tres como dos perdón como mínimo acá

01:48:43.910 --> 01:48:48.610
me coloco r punto johnson eso que me pide los mínimos es para poder

01:48:48.610 --> 01:48:51.270
entender que desea hacer

01:48:54.850 --> 01:48:59.310
aquí por defecto está crear nueva columna dale aquí un preview

01:49:00.150 --> 01:49:07.430
y debería cambiar aquí está a brown mike wilson e davis entonces él

01:49:07.430 --> 01:49:13.190
aprende en función a los input que tú le colocas si quizás no todos los

01:49:13.190 --> 01:49:17.430
datos salieron de forma correcta lo que debe ser es agregar más input para

01:49:17.430 --> 01:49:20.870
que él pueda aprender como esto es lo que quiero del aquí su

01:49:23.570 --> 01:49:26.330
y si quieres verifica por favor

01:49:29.670 --> 01:49:35.530
que estén los nombres tal cual como quería la salida entonces esto lo

01:49:35.530 --> 01:49:39.630
podía aplicar para eso los teléfonos en que estaba en un formato y lo

01:49:39.630 --> 01:49:44.730
podía convertir en el formato con esa función específica magic film bueno

01:49:44.730 --> 01:49:51.410
continuó entonces ya creo que todos lo hicieron perfecto vamos ahora sí a

01:49:51.410 --> 01:49:52.990
lo siguiente vamos

01:49:54.670 --> 01:50:00.090
si desea hagámoslo con este vayamos a url por favor

01:50:00.710 --> 01:50:08.170
y vayamos nuevamente a la extreme que está aquí es serín

01:50:08.170 --> 01:50:09.850
para funciones extreme

01:50:11.910 --> 01:50:16.270
y aquí me da un match pattern decir de la función que viene después del

01:50:16.270 --> 01:50:20.290
magic field que es match pattern dele clic acá

01:50:21.990 --> 01:50:29.910
bueno este nuevamente viene con funciones con expresiones regulares y

01:50:29.910 --> 01:50:33.570
entonces aquí donde dice pattern es un patrón

01:50:33.570 --> 01:50:40.610
de consulta mira lo siguiente en primer lugar aquí tengo este patrón que

01:50:40.610 --> 01:50:44.590
dice a zeta bueno va a colocar lo mejor de este lado para lo que creo

01:50:44.590 --> 01:50:47.030
que hay algunos que ya entienden esta parte de presiones regulares pero de

01:50:47.030 --> 01:50:55.310
un momento por favor momento que me abrió aquí la lupa esta de aquí

01:50:55.310 --> 01:50:56.250
la lupa qué pena

01:51:01.090 --> 01:51:07.230
no me está saliendo momento aquí sale tengo lo siguiente ahora

01:51:07.230 --> 01:51:13.390
tengo esta expresión regular que dice a zeta zeta entonces este la de los

01:51:15.670 --> 01:51:20.810
corchetes lo que están haciendo es que buscan un patrón a nivel de

01:51:20.810 --> 01:51:24.790
aquí buscaría todo lo que tenga este patrón de dar a la zeta entonces aquí

01:51:24.790 --> 01:51:29.890
buscaría en pocas palabras todas aquellas columnas que tengan letras ya

01:51:29.890 --> 01:51:33.990
sea en minúscula o en mayúscula si tiene un número significa en que no

01:51:33.990 --> 01:51:38.350
sé en que no no no no pertenece al patrón aquí hay unos patrones

01:51:38.350 --> 01:51:42.590
establecidos y lo que te va a buscar es para ver qué columnas coinciden

01:51:42.590 --> 01:51:48.450
digamos con qué patrón ahora vamos aquí donde dice odors

01:51:48.450 --> 01:51:53.490
y haga lo siguiente vamos a buscar porque yo puedo hacer búsquedas con

01:51:53.490 --> 01:51:59.470
expresiones regulares vamos a buscar ahora si los que empiezan por con en

01:51:59.470 --> 01:52:01.850
minúscula y le da un preview por favor

01:52:03.370 --> 01:52:08.090
un preview y aquí este patrón no coincide porque como no tengo ninguna

01:52:08.090 --> 01:52:13.350
expresión aquí entonces aquí estaría buscando todos los que tengan

01:52:13.350 --> 01:52:18.970
exactamente a perdón todos los que exactamente sean igual a con pero de ese

01:52:18.970 --> 01:52:23.730
cuenta que ahí no son iguales a con se da cuenta entonces aquí voy a

01:52:23.730 --> 01:52:29.090
colocar expresión regular debería permitirme aquí punto asterisco

01:52:30.650 --> 01:52:34.670
aquí sería el momento y hago la expresión regular aquí asterisco

01:52:34.670 --> 01:52:44.830
punto y algo aquí por favor un momento y la expresión a perdón es que aquí

01:52:44.830 --> 01:52:49.630
tengo el valor igual y tenía que ser reyes qué pena aquí se me escapó qué

01:52:49.630 --> 01:52:55.670
pena qué pena ya como que vamos qué pena ahí fue listo aquí cuando cogí

01:52:56.750 --> 01:53:00.870
odors aquí hay varios operadores y aquí en realidad he estado buscando por

01:53:00.870 --> 01:53:05.230
que sean iguales que coincidan exactamente y por eso fue que nos dio

01:53:05.230 --> 01:53:08.930
aquí me interesa bueno aquí está nuevamente los que contengan está lo

01:53:08.930 --> 01:53:13.610
que inicien lo que finalicen pero me interesa los reyes expresión regular

01:53:13.610 --> 01:53:16.950
aquí busqué por con que debería funcionarme aquí nuevamente como voy

01:53:16.950 --> 01:53:22.450
a colocar aquí preview no sé si me toco ahora sí qué pena listo qué pena

01:53:22.450 --> 01:53:28.890
retomo nuevamente retomo nuevamente este match panel se parece mucho al

01:53:29.750 --> 01:53:34.510
contén siendo que el contén que vimos el contén vida que la contenga en

01:53:34.510 --> 01:53:38.430
cualquier parte la versatilidad que tiene el match father es que tú puedes

01:53:38.430 --> 01:53:43.410
buscar una una sub cadena ya sea que añadir que sea igual que inicie que

01:53:43.410 --> 01:53:49.130
finalice o que use un reyes esa es la diferencia con el contén porque

01:53:49.130 --> 01:53:54.190
este tiene más versatilidad cambia por favor este con hace mayúscula por

01:53:54.190 --> 01:54:00.470
favor y dale nuevamente preview si es tan amable

01:54:00.470 --> 01:54:05.610
nota que pasa lo siguiente pasa lo mismo que con el contén está en caso

01:54:05.610 --> 01:54:10.430
sensitivo entonces pero como es una expresión regular la expresión regular

01:54:10.430 --> 01:54:14.070
tiene algunos elementos que te van a permitir buscarlo en casos

01:54:14.070 --> 01:54:18.170
insensitivos en pocas palabras vas a colocar la expresión de la siguiente

01:54:18.170 --> 01:54:21.990
forma en una expresión regular cuando vayas en caso de tipo colocas

01:54:21.990 --> 01:54:27.530
paréntesis colocas signo en signo de

01:54:27.530 --> 01:54:32.910
esta ocasión le colocas y de insensitivo y si es con la expresión en

01:54:32.910 --> 01:54:36.330
pocas palabras vas a colocar este con con seis mayúsculas así te

01:54:36.330 --> 01:54:41.190
quedaría la expresión de esta manera y le das preview y debería ahora

01:54:41.190 --> 01:54:44.430
independiente que la c esté en mayúscula o esté en minúscula

01:54:44.430 --> 01:54:50.570
debería traerte voy a probar para ver voy a darle entonces a este

01:54:50.570 --> 01:54:58.730
señor voy a decirle signo de interrogación y le doy un preview

01:54:58.730 --> 01:55:02.870
y ahí está el true moral en pocas palabras

01:55:02.870 --> 01:55:09.310
si vas a hacer una búsqueda de algún carácter y lo vas a evaluar en caso

01:55:09.310 --> 01:55:16.790
insensitivo te recomiendo que uses esta función que es match pattern en

01:55:16.790 --> 01:55:26.630
la configuración de regex y le colocas al principio estos carácteres que

01:55:26.630 --> 01:55:30.590
indican en que la va a buscar en modo insensitivo esa es la moraleja con

01:55:30.590 --> 01:55:34.910
respecto cuando vayas a buscar en caso insensitivo te voy a mandar esto

01:55:34.910 --> 01:55:38.270
aquí por el chat para que lo tengas ahí lo guardes en alguna parte no sé

01:55:39.090 --> 01:55:45.130
que sería la expresión regular para buscar en caso insensitivo de te

01:55:45.130 --> 01:55:50.990
encontrar en la herramienta me parece bueno no yo voy a decir que es poco

01:55:50.990 --> 01:55:57.250
ético pero bueno este contén que está aquí contén text sería exactamente la

01:55:57.250 --> 01:56:02.630
misma función en el patrón contén de acá esta función match pattern en el

01:56:02.630 --> 01:56:10.230
order acá en el operador el contén es la misma contén ahí va a aparecer el

01:56:10.230 --> 01:56:13.870
caso de que hay funciones que la vas a encontrar dos veces dentro de la

01:56:13.870 --> 01:56:19.930
herramienta bueno continuamos entonces si no sé si todos van conmigo o de

01:56:19.930 --> 01:56:25.150
pronto voy un poco más a listo no le hizo mi verdad vamos a sumir muchas

01:56:25.150 --> 01:56:30.650
gracias después no me queda ahí para que me quede ahí como ejemplo

01:56:32.570 --> 01:56:34.350
bueno vamos entonces

01:56:37.110 --> 01:56:42.470
escojamos ahora nombre nuevamente y vamos a suponer que le piden hacer lo

01:56:43.430 --> 01:56:47.630
siguiente quieren obtener solamente el nombre

01:56:47.630 --> 01:56:54.330
porque ahí en nombre tengo nombre y apellido se asumiría en este caso en

01:56:54.330 --> 01:57:00.110
particular que la segunda le la segunda palabra se refiere al apellido

01:57:00.110 --> 01:57:05.890
entonces quiero sacar el nombre aquí ya vimos una forma en el cual puedo

01:57:05.890 --> 01:57:11.150
hacer esto que es con magic field yo podía decirle john do y la salida

01:57:11.150 --> 01:57:15.550
sería john hago jane smith y la salida sería jane y me debería

01:57:15.550 --> 01:57:20.510
funcionar con el magic field pero hagamos una forma diferente hagámoslo

01:57:20.510 --> 01:57:24.170
con un ser harry place y volvemos nuevamente con expresiones

01:57:24.170 --> 01:57:32.910
regulares listo vamos entonces aquí a nombres y va a la string a la función

01:57:32.910 --> 01:57:34.610
string

01:57:36.810 --> 01:57:41.750
es string y vamos a la que dice

01:57:42.570 --> 01:57:45.150
espere un momento que

01:57:46.450 --> 01:57:53.650
no sé si es este match similar no está no es separado otro coche vamos

01:57:53.650 --> 01:57:57.650
a la función ser replace que está al final ya ese ejemplo tengo con otra

01:57:57.650 --> 01:58:05.290
parte ese fuchs ser el replace por favor el problema que tengo con un

01:58:05.290 --> 01:58:11.530
ser el replace es cómo hago para eliminar todo lo que está con el

01:58:11.530 --> 01:58:17.490
primer espacio en blanco o sea veamos aquí los operadores que me permite

01:58:17.490 --> 01:58:25.570
aquí me permite igual que inicie que finalice y que haga un rey entonces ahí

01:58:25.570 --> 01:58:30.790
no sé si nos sale con estar wich entonces hacemos la prueba le digo

01:58:30.790 --> 01:58:35.790
estar wich que empiece con espacio en blanco

01:58:35.790 --> 01:58:40.970
no no lo saldría porque porque él buscaría la el string que empiece por

01:58:40.970 --> 01:58:44.450
ir por espacio en blanco y el espacio blanco está en el medio no

01:58:44.450 --> 01:58:52.390
funcionaría entonces aquí que deberías hacer una expresión regular y

01:58:52.390 --> 01:58:56.850
expresiones regulares pues de pronto no es lo tuyo recuerda que el día de

01:58:56.850 --> 01:59:04.450
ayer hicimos un ejemplo con con con chat gpt en el cual le pedí que me

01:59:04.450 --> 01:59:09.670
diera una expresión regular para lo que yo quisiera si redactas bien lo que

01:59:09.670 --> 01:59:13.510
tú quieres en un 99% de los casos te va a dar la represión regular que

01:59:13.510 --> 01:59:18.670
tú quieras que sea eficiente creo que puede ser más eficiente que la que tú

01:59:18.670 --> 01:59:23.590
haces de forma manual puede ser más eficiente pero entonces eso que quiero

01:59:23.590 --> 01:59:27.130
hacer ya dicho que ya lo pudo hacer con el magic y pero lo quiero hacerlo de

01:59:27.130 --> 01:59:32.250
forma diferente con una expresión regular entonces voy a decirle la

01:59:32.250 --> 01:59:35.410
siguiente expresión regular voy a apuntarla aquí la expresión

01:59:35.410 --> 01:59:43.830
regular listo entonces en expresiones regulares hay unos caracteres y unos

01:59:43.830 --> 01:59:48.770
símbolos que indican unos elementos en particulares entonces este símbolo con

01:59:48.770 --> 01:59:53.210
el separador el con el carácter especial slash ese indica espacio en

01:59:53.210 --> 01:59:58.870
blanco entonces yo le voy a decir mira dame un favor búscame el espacio en

01:59:58.870 --> 02:00:04.230
blanco el punto indica cualquier cantidad de caracteres

02:00:04.230 --> 02:00:09.710
perdón el punto indica cualquier carácter asterisco indica cero o más

02:00:09.710 --> 02:00:15.170
caracteres y le voy a decir este símbolo que es el símbolo peso que

02:00:15.170 --> 02:00:19.230
llegue hasta el final de la línea porque quizás la línea

02:00:20.490 --> 02:00:24.890
no llega por los caracteres que de pronto no te dan lo que tú quieres

02:00:24.890 --> 02:00:28.230
entonces para asegurarme le estoy diciendo con este señor que está

02:00:28.230 --> 02:00:33.130
aquí que empiece en el primer espacio en blanco después que sigan

02:00:33.130 --> 02:00:38.250
todos los caracteres que él quiera y que finalice con una línea esa línea la

02:00:38.250 --> 02:00:42.990
coloco porque sería conveniente es cuando tú tengas por ejemplo lo

02:00:44.590 --> 02:00:47.390
siguiente imagínate que tienes este John Doe

02:00:47.390 --> 02:00:54.130
acá y Jay Smith tiene este dato si yo no le coloco este señor que es el

02:00:54.130 --> 02:00:58.410
señor que no está viendo aquí si yo no le coloco este fin de

02:00:58.410 --> 02:01:02.490
línea que pasa que él cuando intente buscar y eliminar me elimina

02:01:02.490 --> 02:01:06.130
todo esto porque estoy diciendo elimina todo lo que

02:01:06.130 --> 02:01:10.350
hay después en blanco para evitar eso entonces yo le coloco elimina desde el

02:01:10.350 --> 02:01:13.990
primer espacio en blanco hasta que encuentre un separador de filas

02:01:13.990 --> 02:01:17.690
entonces significa que esto nada más eliminaría hasta aquí al final va a

02:01:17.690 --> 02:01:21.590
depender de lo que tú quieras hacer pero esto lo voy a hacer simplemente

02:01:21.590 --> 02:01:24.790
lo hizo esta manera para agregar esa temática a nivel de presiones

02:01:25.810 --> 02:01:29.570
regulares entonces voy a hacer lo siguiente aquí voy a decirles valor

02:01:29.570 --> 02:01:36.210
qué valor va a buscar voy a decir entonces este señor ese punto asterisco

02:01:37.110 --> 02:01:41.510
y el símbolo de peso te mando esta expresión regular si tú desee por acá

02:01:41.510 --> 02:01:47.710
por el chat eso es lo que va a buscar y te la mandé por el chat eso es lo

02:01:47.710 --> 02:01:54.930
que va a buscar ahora reemplazar va a reemplazar por espacio en blanco ok

02:01:54.930 --> 02:01:59.630
voy a crear aquí una nueva columna para que para que me muestre voy a hacer

02:01:59.630 --> 02:02:03.390
aquí un preview a ver si no tengo error en la expresión regular

02:02:05.690 --> 02:02:10.710
y si tengo un error en la expresión regular porque no funcionó para ver

02:02:10.710 --> 02:02:16.510
por qué no funcionó aquí tengo reyes

02:02:18.250 --> 02:02:24.630
valve reemplazar which a ver por qué no funcionó

02:02:26.470 --> 02:02:31.230
bueno excelente a ver qué fue que coloque mal aquí

02:02:35.530 --> 02:02:37.130
y le coloque un

02:02:40.810 --> 02:02:47.550
no a mí no me está dando con el símbolo pesos porque voy a copiarle

02:02:47.550 --> 02:02:50.850
directamente no sé si de pronto estoy colocando un carácter especial que es

02:02:50.850 --> 02:02:54.970
las expresiones son sumamente sensibles para ver lo copio

02:02:54.970 --> 02:02:57.630
directamente de acá

02:03:02.690 --> 02:03:07.610
sí no sé hay un símbolo que hay como que cuando en el teclado no sé lo

02:03:07.610 --> 02:03:11.190
estamos tomando mal pero bueno esto es aclaro que esto mismo que estoy

02:03:11.190 --> 02:03:15.930
haciendo aquí pues lo puedo hacer directamente con el magic field lo que

02:03:15.930 --> 02:03:19.910
quería aquí con esta parte de mostrar es que las expresiones regulares son

02:03:19.910 --> 02:03:24.250
es una herramienta que es muy poderosa tanto para búsquedas o para

02:03:24.250 --> 02:03:28.770
emplazar cosas que puede ser compleja anteriormente era más compleja hoy en

02:03:28.770 --> 02:03:32.830
día son menos complejas partiendo del hecho de que lo puedes hacer

02:03:32.830 --> 02:03:37.170
directamente con con una yala que tú quieras para que te de la expresión

02:03:37.170 --> 02:03:43.610
regular bueno vamos a hacer el break de los 20 minutos si volvemos entonces a

02:03:43.610 --> 02:03:49.290
las 11 y 50 a 2 y 30 tomemos algo frío algo caliente entonces y

02:03:49.390 --> 02:03:52.810
volvemos entonces en 20 minutos ok eso

02:03:57.090 --> 02:04:01.930
bueno regresamos nuevamente espero que haya tomado y he descansado un poco

02:04:01.930 --> 02:04:05.430
entonces continuamos estamos conectados estamos conectados no

02:04:05.430 --> 02:04:13.070
estamos conectados estamos señor si listo bien continuemos entonces bien

02:04:13.070 --> 02:04:17.530
vamos a ver una función que es muy común en herramientas de calidad que

02:04:17.530 --> 02:04:22.530
la encuentras en el ecosistema de talent también la encuentran el talent data

02:04:22.530 --> 02:04:28.130
quality aunque el talent data quality tiene un par entonces cuando tú entras a

02:04:28.130 --> 02:04:34.150
esas herramientas de calidad te publicitan de que ellos pueden

02:04:34.150 --> 02:04:39.430
encontrar errores tipográficos y en realidad si hay algunas funciones que

02:04:39.430 --> 02:04:46.390
te puede te pueden ayudar a encontrar algún error tipográfico que

02:04:46.390 --> 02:04:51.790
un poco semiautomática porque porque en automatizar un proceso a través de

02:04:51.790 --> 02:04:55.890
las herramientas que ofrece puede llevar un error y más cuando de pronto tú

02:04:55.890 --> 02:04:59.810
quieres de pronto haya errores y nombres sabes que los nombres tienen

02:04:59.810 --> 02:05:05.490
ortografía y cada uno puede llamarse como le dé la gana entonces ahí hay

02:05:05.490 --> 02:05:08.850
casos en que de pronto podía automatizar y otros casos que en

02:05:08.850 --> 02:05:12.890
realidad pues hay que vigilar para ver antes de hacer cualquier cambio

02:05:12.890 --> 02:05:18.610
explico los dos modelos que se utilizan para encontrar errores tipográficos el

02:05:18.610 --> 02:05:23.290
cual la herramienta talent data preparation te ofrece uno y el talent data

02:05:23.290 --> 02:05:27.290
quality te ofrece los dos entonces supongamos entonces que es lo que

02:05:27.290 --> 02:05:31.270
hacen listo esto que es acá

02:05:31.270 --> 02:05:36.770
no voy a listo mejor espera un momento y lo abro mejor desde acá

02:05:36.770 --> 02:05:42.870
desde aquí listo entonces en primer lugar la primera forma que usan es

02:05:42.870 --> 02:05:47.970
lógica fuzy en lo que hace es sencillo el algoritmo el algoritmo de fuzy es

02:05:47.970 --> 02:05:51.870
el siguiente supongamos que tú tienes el nombre

02:05:51.870 --> 02:05:58.950
john de esta forma y yo particularmente me escribo john de esta

02:06:00.150 --> 02:06:03.110
forma entonces aquí puede haber un error

02:06:03.110 --> 02:06:09.330
tipográfico en el caso particular pues de los nombres no mucho pero sí

02:06:09.330 --> 02:06:14.510
puedes encontrarlo con quizás nombres de productos el inconveniente de los

02:06:14.510 --> 02:06:19.210
nombres de productos es que hay algunos para hacer su producto digamos

02:06:19.210 --> 02:06:24.430
nombrarlo de manera muy particular y llamativa no siguen las reglas de la

02:06:24.430 --> 02:06:27.650
real academia lengua entonces le colocan como ellos quieren el nombre

02:06:27.650 --> 02:06:33.650
para hacerlo atractivo pero veamos cómo funciona esta lógica de fuzy

02:06:33.650 --> 02:06:39.850
la lógica de fuzy que está aquí funciona de la siguiente manera es

02:06:40.450 --> 02:06:48.350
cuántos cambios debería hacer para que esta palabra sea igual a esta palabra

02:06:49.430 --> 02:06:55.870
básicamente aquí me tocaría hacer dos cambios porque porque aquí para que

02:06:55.870 --> 02:07:00.230
este john sea igual a este john tendría entonces que cambiar

02:07:00.230 --> 02:07:07.550
la j por la o y la h por la la o por la h para que me quedase por ejemplo si

02:07:07.550 --> 02:07:16.210
yo tengo el nombre kelly de esta forma y yo tengo kelly con y latina por

02:07:18.030 --> 02:07:22.170
ejemplo cuántos cambios hay que hacer para que esta palabra sea igual a

02:07:22.170 --> 02:07:28.950
esta solamente uno que es cambiar la y esa por eso que saca por esa y

02:07:28.950 --> 02:07:33.750
esa es la forma en que trabaja para encontrar duplicidad o para poder

02:07:33.750 --> 02:07:39.650
encontrar errores tipográficos que pueden existir en palabras ahora esa es

02:07:39.650 --> 02:07:44.090
la otra forma es utilizan una técnica que se llama

02:07:44.090 --> 02:07:50.430
son dex y entonces hacen lo siguiente por ejemplo colocan que él y aquí

02:07:50.430 --> 02:07:55.350
está muy buena para encontrar duplicados y que él y así agraemos

02:07:55.350 --> 02:08:02.950
tomando el idioma español ahí esas palabras las dos se dividen en dos en

02:08:02.950 --> 02:08:08.230
dos partes en dos fonemas que sería que lee de se cuenta que en el español

02:08:08.230 --> 02:08:13.010
es aqueli con y latina y ese aqueli con y griega se pronuncian igual kelly y

02:08:13.010 --> 02:08:17.490
kelly aquí lo que voy a encontrar son duplicados en la forma en que se

02:08:17.490 --> 02:08:22.990
pronuncia en el idioma inglés quizás eso se cambia por ejemplo en el

02:08:22.990 --> 02:08:30.070
español esto sería igual yo yo pero en el idioma inglés eso más lo llaman

02:08:30.070 --> 02:08:35.450
ese show yo lo sé una rara show no es un yo así un show ahí entonces la

02:08:35.450 --> 02:08:39.110
pronunciación puede ser diferente estas son las dos técnicas que utilizan

02:08:39.110 --> 02:08:46.470
tanto para encontrar duplicados o para poder encontrar palabras que son

02:08:46.470 --> 02:08:49.410
similares o parecidas o que estén mal escritas para este ejemplo

02:08:49.410 --> 02:08:54.470
entonces vamos a hacerlo de la siguiente forma vayamos al nombre

02:08:56.790 --> 02:09:02.530
y vayamos entonces a los perdón a nombres al nombre que reemplazamos el

02:09:02.530 --> 02:09:10.830
que sacamos el al que reemplazamos y vamos a buscar lo siguiente a ver

02:09:10.830 --> 02:09:14.350
vayamos al menú de string

02:09:17.050 --> 02:09:23.430
al menú de string que está por aquí abajo y vamos a la acción match similar

02:09:24.190 --> 02:09:27.370
text dele clic por favor

02:09:30.850 --> 02:09:35.450
perfecto aquí lo que te van a pedir es comparar con valor con columna en

02:09:35.450 --> 02:09:38.890
caso que sea columna pues se comparan las columnas que tengan la

02:09:38.890 --> 02:09:42.570
misma fila pero vamos a compararlo con un valor fijo para entender lo

02:09:42.570 --> 02:09:51.970
siguiente vea aquí tengo emily que está escrito con y latina entonces yo voy

02:09:51.970 --> 02:09:57.210
a decir mira hazme favor busca todos los nombres que se parezcan a emily

02:09:57.210 --> 02:10:01.250
pero con y latina está con un y griega perdón y la voy a buscar con

02:10:01.250 --> 02:10:06.370
y latina y aquí me pisen el número de cambios que voy a hacer entonces

02:10:06.370 --> 02:10:11.130
aquí tengo un emily que está con y griega para que este milis igual a

02:10:11.130 --> 02:10:17.750
nada más necesito un solo cambio del entonces en preview para ver qué sale

02:10:17.750 --> 02:10:24.510
aquí y debería parecerme en en emily aquí está un true diciendo de que

02:10:24.510 --> 02:10:30.250
esas palabras son similares son parecidas que ya sea que puede estar

02:10:30.250 --> 02:10:36.030
mal escritas o que simplemente se producen exactamente igual dependiendo

02:10:36.030 --> 02:10:40.730
y ahí podías encontrar errores tipográficos con ese tipo de función

02:10:41.830 --> 02:10:48.030
match similar text que está en stream match similar text está en el stream se

02:10:48.030 --> 02:10:54.450
hizo un preview ayúdeme a este para ver supongamos que yo quisiera no no lo

02:10:54.450 --> 02:11:06.010
mande a submit terminamos con el sumi con este quiero tengo kelly de esta

02:11:06.010 --> 02:11:12.530
y yo quisiera buscar este que él y así o una sola cuántos cambios debería

02:11:12.530 --> 02:11:16.290
hacer para que ésta sea parecida o igual a éste tocaría hacer dos cambios

02:11:16.290 --> 02:11:22.370
verdad eliminar una l y cambiar ésta y por y latina entonces vamos a ver si

02:11:22.370 --> 02:11:27.510
funciona si yo coloco uno así por ejemplo kelly a colocar aquí kelly

02:11:27.510 --> 02:11:32.370
así como estaba pero con un cambio está que él y que está acá debería

02:11:32.370 --> 02:11:35.770
salir en forz voy a mandar aquí un preview

02:11:36.790 --> 02:11:41.010
aquí está en forz porque el número de cambio para que sea igual sea 2 si yo

02:11:41.010 --> 02:11:47.450
cambio aquí a 2 le doy aquí un preview y debería salir en true

02:11:47.990 --> 02:11:53.250
aquí está en true entonces aquí por favor este sí ejemplo envíelo a

02:11:54.730 --> 02:11:59.210
sumi para que le quede ahí esa es la forma en que trabaja para

02:11:59.210 --> 02:12:04.610
encontrar o ya sea duplicados o ya sea para encontrar posibles errores

02:12:04.610 --> 02:12:07.250
tipográficos que pueden existir en los datos

02:12:07.250 --> 02:12:13.230
esta opción esta herramienta no tiene la de son de que es interesante es

02:12:13.230 --> 02:12:18.110
que sean similares pero por pronunciación y ahí sí de pronto te

02:12:18.110 --> 02:12:22.050
equivocaste en algún nombre o algo específico

02:12:24.170 --> 02:12:27.510
perfecto sigamos entonces terminemos ya casi a esa función

02:12:27.510 --> 02:12:32.070
vayamos aquí a lo que damos aquí en nombre replace aquí en ese que

02:12:32.070 --> 02:12:36.950
estamos acá en la misma columna que estamos vayamos aquí donde dice es

02:12:39.290 --> 02:12:42.290
stream nuevamente es stream

02:12:44.350 --> 02:12:50.610
es stream y voy por bueno remover caracteres consecutivos

02:12:51.870 --> 02:12:56.430
esta es muy buena cuando tienes no tienes analizado el número de

02:12:56.430 --> 02:13:00.630
espacios en blanco entonces por ejemplo tienes una separación de algunos tienen

02:13:00.630 --> 02:13:04.770
2 3 4 espacios en blanco y quisiera estandarizar para que todos tengan

02:13:04.770 --> 02:13:08.910
solamente un espacio en blanco ahí como todos tienen espacios en blanco

02:13:08.910 --> 02:13:14.310
entonces no sirve pero por ejemplo cambie aquí este por defecto el

02:13:14.310 --> 02:13:19.530
carácter de repetición que está espacio en blanco cambia sólo a odors

02:13:19.530 --> 02:13:23.250
esta función no lo veo mucho la la funcionalidad que le veo es más como

02:13:23.250 --> 02:13:26.870
tenga mucho espacio en blanco y quisiera de eliminar que queda uno es por ejemplo

02:13:26.870 --> 02:13:32.050
al colocar él ahí va a eliminar todas las ele que estén duplicadas me deja

02:13:32.050 --> 02:13:36.590
una sola es decir si yo tengo tres ele nada más me deja una al final

02:13:36.590 --> 02:13:40.190
independiente el número de ele que tenga repetidas consecutivamente él me

02:13:40.190 --> 02:13:44.570
deja una por ejemplo aquí vemos aquí kelly kelly está aquí con una

02:13:44.570 --> 02:13:48.710
sola con doble ele al decirle que elimine la ele aquí me dejaría kelly

02:13:48.710 --> 02:13:52.470
con una sola ele créalo una nueva columna por si acaso nueva columna

02:13:52.470 --> 02:13:56.810
y manda de aquí a sumir

02:14:00.530 --> 02:14:04.810
y aquí está aquí hay un error no sé qué pero aquí sí lo hizo aquí está

02:14:04.810 --> 02:14:08.650
eso no es nada del otro mundo vuelvo a repito esa función tendría mucho más

02:14:08.650 --> 02:14:11.990
sentido cuando vayas a eliminar de pronto los espacios en blanco pero

02:14:13.230 --> 02:14:17.670
quizás te toque bueno alguna vez algo por ahí no sé

02:14:21.770 --> 02:14:26.470
bueno vamos entonces lo siguiente ya que para finalizar ya este menú vayamos aquí

02:14:26.470 --> 02:14:28.950
al teléfono

02:14:31.090 --> 02:14:34.450
voy a darle aquí f5 aquí es como que hay algún error de algo no sé voy a darle

02:14:34.450 --> 02:14:38.170
aquí f5 para que desaparezca

02:14:40.750 --> 02:14:43.130
se ubica en número por favor

02:14:47.810 --> 02:14:58.090
en el teléfono nuevo teléfono y vayamos aquí a string a las funciones que son

02:14:58.910 --> 02:15:01.070
revuelve parte del texto

02:15:02.870 --> 02:15:10.510
aquí te aplica lo mismo exactamente la misma idea que tenía en el ser en el

02:15:11.150 --> 02:15:15.150
en el match pattern donde tienes que sean iguales que contengan que

02:15:17.150 --> 02:15:22.010
finalicen entonces voy a hacer lo siguiente voy a

02:15:22.010 --> 02:15:27.490
voy a eliminar voy a remover todos los elementos que empiezan a nivel de

02:15:27.490 --> 02:15:34.370
teléfono por paréntesis 555 cierro paréntesis enviarle aquí un preview

02:15:34.370 --> 02:15:42.130
para ver si no hay problemas si ahí está por favor así listo mandale un

02:15:50.330 --> 02:15:56.310
perfecto eso lo que hace es que remueve hace exactamente lo mismo que un ser

02:15:56.310 --> 02:16:01.870
en replay siendo que te crean una función simplemente para reemplazar

02:16:01.870 --> 02:16:06.450
algún elemento específico fernando así nada más dale f5 porque a veces te

02:16:06.450 --> 02:16:11.190
vas a ir saliendo ese error dale f5 ahí para que te recargue y

02:16:14.430 --> 02:16:21.150
terminamos ese menú con la última función note lo siguiente ahora note

02:16:21.150 --> 02:16:24.270
que aquí le quedó un espacio en blanco que se lo marque a la herramienta como

02:16:24.270 --> 02:16:28.970
si fuese una especie de cuadrado con líneas gris y blanca este que está

02:16:30.050 --> 02:16:36.370
aquí este blanquito que está acá en este blanquito que aparece acá

02:16:36.370 --> 02:16:39.950
cuando se arrumbe los espacios en blanco al inicio y al final

02:16:40.930 --> 02:16:48.550
el stream tiene una función que se llama trailing ahí está remover trailing

02:16:48.550 --> 02:16:52.770
and leading caracteres que inician y infidelizan te pregunta qué

02:16:52.770 --> 02:16:56.250
carácter quieres normalmente uno lo que elimina son espacios en blanco

02:16:56.250 --> 02:16:59.770
de pronto algún sufijo prefiero que tenga pero en este caso pues dejemos

02:16:59.770 --> 02:17:05.350
espacio en blanco para que pueda tener entonces una columna con esos

02:17:05.350 --> 02:17:07.950
caracteres que me forma muchos problemas cuando genera una consulta

02:17:07.950 --> 02:17:17.230
se puede y lo que hace eso es eliminar y ese es el menú completo para el señor

02:17:17.790 --> 02:17:22.510
spring no creo que reviso para ver si ahí vimos todas las funciones de lo

02:17:22.510 --> 02:17:26.590
que hace ese spring bueno vamos entonces al siguiente que sería el

02:17:26.590 --> 02:17:32.370
ejercicio 3 mientras voy subiendo el 4 y el 5 porque no lo es subir no sé

02:17:32.370 --> 02:17:42.770
pronto ya usted lo subió a listo aquí voy a decirle data set voy a subir el 4

02:17:45.030 --> 02:17:54.330
es acá en escritorio recursos talent data preparation

02:17:56.010 --> 02:18:02.650
caso de estudio y pero ejercicios y voy aquí a subir el 4

02:18:08.270 --> 02:18:10.450
en otras hubo el 5

02:18:19.970 --> 02:18:22.670
y en otras hubo el 6

02:18:49.690 --> 02:18:52.450
bueno continuamos pues

02:18:53.030 --> 02:18:58.070
me ubico nuevamente me tenía en preparation estaba trabajando voy a

02:18:58.070 --> 02:19:01.870
agregar una nueva preparación ya sabe que hay dos formas de hacerlo o se va

02:19:01.870 --> 02:19:07.310
al data sec o se va al menú de preparation entonces voy ahora por el

02:19:07.310 --> 02:19:10.850
menú de preparaciones va a decirle aquí a preparation aquí le voy a

02:19:10.850 --> 02:19:13.850
colocar ejercicio

02:19:15.910 --> 02:19:19.330
ejercicio 3 on record preparación

02:19:20.250 --> 02:19:24.810
y escojo el ejercicio 3 entonces

02:19:33.170 --> 02:19:37.210
le damos aquí su mi para enviar

02:19:38.170 --> 02:19:42.850
y me abre entonces la ventana del

02:19:46.630 --> 02:19:50.930
perfecto listo vamos a empezar nos ubicamos entonces aquí tengo

02:19:50.930 --> 02:19:55.810
identificador y se me escapaba mencionar algo también voy a aprovechar lo

02:19:57.010 --> 02:20:00.710
siguiente note que en las columnas aparecen

02:20:02.090 --> 02:20:06.950
un color una línea de colores que es muy parecida al talent data steward que

02:20:06.950 --> 02:20:11.070
aparece rojo significa en que hay unos datos de calidad que están

02:20:11.070 --> 02:20:17.350
errados por ejemplo ahí aparece errado 7a porque porque él identificó la

02:20:17.350 --> 02:20:23.490
columna como integer y ahora entonces tiene un 7a ahí

02:20:23.490 --> 02:20:29.450
entonces dice epa 7a no corresponde a un valor entero y tengo los líneas

02:20:29.450 --> 02:20:36.130
verdes que me van a indicar que los esos esos columnas tienen valores

02:20:36.130 --> 02:20:39.670
que han pasado los procesos de calidad aquí se agrega una nueva

02:20:39.670 --> 02:20:43.470
columna permítame hacerlo acá para que usted la vea nada más que es cuando está

02:20:44.250 --> 02:20:50.810
vacío cuando está vacío entonces te marca ahora un color negro

02:20:51.390 --> 02:20:55.770
aquí está este color negro que está aquí indicando que ahí vacío

02:20:55.770 --> 02:20:59.310
entonces esos colores que se van a reflear en todas las herramientas que

02:20:59.310 --> 02:21:04.310
denga talent verde todo correcto rojo error y negro significa que hay un

02:21:04.310 --> 02:21:07.610
error que está vacío hay algo que está vacío en esa columna voy a

02:21:07.610 --> 02:21:12.370
disminar eso que hice ahí entonces para que me quede tal cual

02:21:12.370 --> 02:21:19.050
ubiquemos perdón en la columna de análisis de animales perdón

02:21:19.050 --> 02:21:25.290
animales y vayamos al último menú que es string avanzado vayamos a la

02:21:25.290 --> 02:21:31.490
primera función que es adicionar a extra caracteres

02:21:31.490 --> 02:21:35.610
esa que está ahí listo eso lo que hace sencillamente es a partir de un

02:21:35.610 --> 02:21:40.030
tamaño máximo tú vas a agregar caracteres y la columna no contiene ese

02:21:40.030 --> 02:21:45.130
tamaño máximo me explico por defecto tengo un tamaño de 5 note que la

02:21:45.130 --> 02:21:52.470
primera fila de la columna animales dice ca si yo dejo ahí como 5 y ca

02:21:52.470 --> 02:21:56.170
tiene tres elementos le faltarían dos caracteres para llegar al máximo que

02:21:56.170 --> 02:21:59.550
yo quiero esos dos caracteres que hacen falta para llegar se rellena

02:21:59.550 --> 02:22:02.930
con el carácter que tú especifices por ejemplo coloquemos

02:22:02.930 --> 02:22:11.210
aquí x el carácter que deseo agregar y diga por favor que los va a agregar no

02:22:11.210 --> 02:22:15.650
a la izquierda sino a la derecha y le da un preview

02:22:16.790 --> 02:22:22.950
y mire lo que hace aquellos columnas que tengan menos de 5 caracteres se

02:22:22.950 --> 02:22:26.930
rellenan con x el caso por ejemplo de elefante que es la columna número

02:22:26.930 --> 02:22:32.290
7 no se agrega en x porque la número de caracteres es superior a la

02:22:32.290 --> 02:22:38.090
cantidad máxima que estemos eso para qué puede servir quizás te

02:22:38.090 --> 02:22:43.630
puede servir en algunos casos para buscar algunas claves por ejemplo me

02:22:43.630 --> 02:22:47.190
explico a usted le ha pasado entonces que de pronto tú digitas una clave

02:22:47.190 --> 02:22:52.610
común que tiene cinco caracteres pero te los muestra con a veces con

02:22:52.610 --> 02:22:57.550
asterisco te muestra más de 5 te muestra como 10 eso lo que hace es que

02:22:57.550 --> 02:23:01.450
la persona que vaya a leer no sepa cuántas cantidades de caracteres tú

02:23:01.450 --> 02:23:05.630
tengas entonces quizás para buscar un poco ese tipo de claves tú puedes

02:23:05.630 --> 02:23:10.070
agregarle más carácter para que la persona no sepa cuántos caracteres en

02:23:10.070 --> 02:23:15.050
realidad tiene la clave que tú vayas a colocar eso es lo que hace nada más

02:23:15.050 --> 02:23:19.590
no le de sumi por favor y si le va a sumi creerle una nueva columna porque

02:23:19.590 --> 02:23:24.090
necesita esa columna acá ahora para un ejercicio dele aquí bueno aquí le

02:23:24.090 --> 02:23:26.750
agregue una nueva columna y lo voy a enviar una nueva columna entonces

02:23:36.690 --> 02:23:42.830
bueno esto sigamos en la misma columna animales por favor no la convertida

02:23:42.830 --> 02:23:46.550
sino la original aclaro yo no soy experto en este tema y tampoco lo

02:23:46.550 --> 02:23:51.290
investigado en profundidad pero aquí viene algo que se llama vaya a ser

02:23:51.910 --> 02:23:52.470
chain

02:23:54.410 --> 02:23:58.690
ah no perdón no no es el que yo quería no en el último perdón que

02:24:00.370 --> 02:24:05.830
convertir charácteres a convertir bueno esto yo le voy a decir lo que

02:24:05.830 --> 02:24:09.930
dice la teoría pero yo todavía no no me cuadra mucho

02:24:11.250 --> 02:24:16.990
la teoría dice lo siguiente en que cuando tú tienes un texto las letras

02:24:16.990 --> 02:24:21.530
pueden tener diferentes tamaños esos diferentes tamaños de las letras como

02:24:21.530 --> 02:24:25.990
tal entre vayúscula y minúscula genera un espaciado en el cual

02:24:26.890 --> 02:24:32.410
abro comillas doble al cerebro y quizás no puedas entender o no te puedas

02:24:32.410 --> 02:24:35.990
concentrar de forma correcta entonces esto lo que hace es que independiente

02:24:35.990 --> 02:24:42.050
de los tipos de letra que tú tengas te adapta el texto a un tamaño digamos

02:24:42.050 --> 02:24:46.830
que estándar eso es lo que dice todavía yo en esta parte no no la

02:24:46.830 --> 02:24:50.630
entiendo muy bien yo nunca la he usado pero bueno aquí lo que sí es

02:24:50.630 --> 02:24:54.650
seguro es que para que pueda haber un cambio escoja la conversión full

02:24:56.650 --> 02:25:00.890
ahí te pregunta que deseas convertir a los tamaños fijos

02:25:02.690 --> 02:25:08.990
ahí está dígito letra bueno ahí dice catacana

02:25:08.990 --> 02:25:13.550
otro carácter no sé qué será catacana dele por favor preview no

02:25:13.550 --> 02:25:17.110
mande los dos nuevas columnas para que vea el cambio que se hay de luz

02:25:17.110 --> 02:25:29.630
aquí y lo que intenta hacer es que le da el mismo tamaño a letras para que

02:25:29.630 --> 02:25:34.450
cuando tú tengas un reporte esa es la teoría que dice no haya ningún

02:25:34.450 --> 02:25:37.550
problema en la lectura que yo no sé por qué debe haber problemas en

02:25:37.550 --> 02:25:41.590
lectura cuando los tamaños están diferentes eso es lo que dice esta

02:25:41.590 --> 02:25:45.610
teoría no no la entiendo muy bien para que funcione eso pero eso lo

02:25:46.810 --> 02:25:54.830
bueno sigamos entonces este con ver la segunda que es con ver

02:25:54.830 --> 02:25:58.890
charácter wich y escoge la segunda que es con ver full

02:26:00.850 --> 02:26:06.310
full week la segunda opción que es con ver full week y lo mandas a una

02:26:06.310 --> 02:26:09.690
columna nueva por favor para que no nos dañe la columna que tenemos ahí

02:26:10.370 --> 02:26:17.370
sigamos entonces vamos ahora en la opción fine and group similar text

02:26:18.390 --> 02:26:25.950
encontrar grupos de textos similares esto funciona exactamente igual a lo

02:26:25.950 --> 02:26:30.230
que expliqué con fuzy pero vamos a ver la diferencia que hay entonces dele

02:26:30.230 --> 02:26:37.230
clic aquí en fine sobre la columna animal esto aplica fuzy pero no le

02:26:37.230 --> 02:26:41.050
especificar caracteres creo que busca con una distancia máxima de tres

02:26:41.050 --> 02:26:45.370
caracteres entonces vea lo siguiente dice es va va va si la distancia de

02:26:45.370 --> 02:26:48.890
máxima de tres caracteres yo encontré tres palabras que son

02:26:48.890 --> 02:26:53.530
parecidas por ejemplo doc y doc se parecen porque porque para el llevar

02:26:53.530 --> 02:26:59.890
de doc a doc bueno doctor es que me toque quitar la u por o me toque

02:26:59.890 --> 02:27:04.830
eliminar la k y cambiarlas por la g entonces tú dices epa si son parecidas

02:27:04.830 --> 02:27:08.510
puedo cambiar en este caso sabemos que eso está raro ahí verdad entonces

02:27:08.510 --> 02:27:15.330
usted de chulea por qué porque pato y perro no hay la herramienta pues no

02:27:15.330 --> 02:27:20.050
digamos que se equivocó sino que el fuzy ahí no me sirve date cuenta

02:27:20.050 --> 02:27:24.730
ahora que aquí tengo aquí si cosas parecidas tengo un ct tengo un cac

02:27:24.730 --> 02:27:28.870
y tengo un coto lo que sí es seguro que este guard que está aquí no puede

02:27:28.870 --> 02:27:35.130
ser de ese mismo grupo que esto esté go at y aquí me dice oye esas tres

02:27:35.130 --> 02:27:39.830
palabras que son parecidas a nivel de fuzy la quiere reemplazar por cual la

02:27:39.830 --> 02:27:44.790
que va a reemplazar por cat entonces aquí le da sumi y a donde

02:27:44.790 --> 02:27:49.790
encuentren esta columna estos elementos te los cambia y de esa forma

02:27:49.790 --> 02:27:53.810
puede corregir algunos errores de manera muy sencilla cuando hay una

02:27:53.810 --> 02:27:55.630
similitud a nivel de fuzy

02:27:59.430 --> 02:28:03.170
repito nuevamente voy a devolverme para que hay algunos que todavía no lo han

02:28:03.170 --> 02:28:09.610
hecho entonces voy a lo siguiente estoy en animal y voy aquí y con la función

02:28:09.610 --> 02:28:15.210
fine and group similar me doy cuenta en que doc son palabras

02:28:15.210 --> 02:28:18.870
diferentes la de pato y perro la de chuleo

02:28:18.870 --> 02:28:25.690
y en el grupo de los cuatro de chuleo go at para reemplazar todas las

02:28:25.690 --> 02:28:31.890
que tiene ct go at y cot por cat aquí por defecto está cat entonces le doy

02:28:31.890 --> 02:28:37.610
sumi y eso lo que hace es que aplica el cambio entonces para reemplazar esas

02:28:37.610 --> 02:28:41.850
palabras que similarmente por distancia fuzy las encontré seguimos

02:28:41.850 --> 02:28:48.170
entonces listo la función que viene ahora permíteme y la veo bien

02:28:49.410 --> 02:28:52.890
toma ahora selecciona este identificador por favor

02:28:56.530 --> 02:29:02.890
y pasa lo siguiente a nivel de seguridad bueno perdón a nivel de base

02:29:02.890 --> 02:29:07.630
de datos quizás algunos que hayan desarrollado quizás cuando tú creas

02:29:07.630 --> 02:29:14.390
una tabla y en esa tabla quieres colocar un identificador que es

02:29:14.390 --> 02:29:18.090
generado como por ejemplo una secuencia tú en base de datos usaba

02:29:18.090 --> 02:29:23.750
seriales cierto sea una serie una secuencia entonces 1 2 3 4 5 y con eso

02:29:23.750 --> 02:29:28.790
elemento identificada cada uno de los registros como tal eso a nivel de

02:29:28.790 --> 02:29:33.050
seguridad que hoy en día no se puede hacer o no se debería hacer perdón

02:29:33.050 --> 02:29:36.310
porque porque los hackers saben en que tú puedes usar secuencias entonces

02:29:36.310 --> 02:29:40.570
empieza a buscar por esos datos por el 1 por el 2 por el 3 a ver cuál le

02:29:40.570 --> 02:29:45.950
da entonces hoy en día esos datos que son generados deberías que en

02:29:45.950 --> 02:29:51.410
vez de usar una secuencia generar un ID un número identificador único

02:29:51.410 --> 02:29:55.590
eso ahora va a permitir ahora que esos hackers pues no pueden hacer esa

02:29:55.590 --> 02:30:00.130
técnica de ir a ser un para que vaya recorriendo los diferentes números y

02:30:00.130 --> 02:30:04.590
ver para de qué encuentro entonces muchas veces quisieras agregar eso a

02:30:04.590 --> 02:30:09.970
nivel de campos dentro del tracé eso cómo lo haces te vas entonces al

02:30:11.150 --> 02:30:17.770
menú y aquí está una opción que dice generar un ID y lo que hace

02:30:17.770 --> 02:30:23.530
señores que en una nueva columna te va a crear un identificador único

02:30:26.730 --> 02:30:33.310
ahí está este identificador que está eso es lo que

02:30:33.310 --> 02:30:38.350
se está haciendo actualmente para prevenir ese tipo de ataques entonces

02:30:39.330 --> 02:30:42.590
bueno aquí me hizo un cambio aquí voy a borrar ese cambio

02:30:49.390 --> 02:30:56.970
se llama generar un ID voy a ver qué es que alvien ahora

02:31:01.730 --> 02:31:08.470
bien si tú ese por favor en identificador y ese identificador note que el identificador es

02:31:08.470 --> 02:31:15.630
numérico pero hay algunas filas en que tienen una letra entonces en algunos casos tú

02:31:15.630 --> 02:31:21.730
quisieses tener una columna en la cual pues vas a tener algunos datos que no tienen la

02:31:21.730 --> 02:31:27.270
mejor calidad y ahora quisiese remover dejar solamente los números y remover todo lo que

02:31:27.270 --> 02:31:34.370
no sea número para hacer eso entonces situate en identificador y aquí vas a encontrar una

02:31:34.370 --> 02:31:42.930
opción que dice remover a caracteres no numéricos no alfanuméricos entonces dale

02:31:42.930 --> 02:31:50.910
clic aquí sobre la misma columna y debería quitar todos los caracteres y dejarme solamente los

02:31:50.910 --> 02:31:59.950
números perdón aquí me equivoqué es la otra es remover en realidad es remover los no

02:31:59.950 --> 02:32:06.010
numéricos que pena si tú es en identificador ahí me equivoqué es remover los no numéricos

02:32:06.870 --> 02:32:08.490
remove no number

02:32:10.890 --> 02:32:18.450
no nombre no numeric charácter ese que está aquí listo sumi y debería remover los barací

02:32:22.650 --> 02:32:28.250
fíjese que ahora ya todos pasan toda la parte de calidad vamos al caso contrario entonces

02:32:28.250 --> 02:32:37.490
qué es quiero dejar solamente las letras váyase por favor de ese cuenta que en frutas en la

02:32:37.490 --> 02:32:46.110
línea número 5 la fruta que es melón watermelon ese que está aquí tiene unos caracteres

02:32:46.110 --> 02:32:52.190
especiales entonces ahora tiene también caracteres por ello no que tiene el número

02:32:52.190 --> 02:32:58.370
nada más que dejar las letras para este caso selecciona frutas y ahora sí remueve los no

02:33:00.830 --> 02:33:12.130
alfanuméricos listo remuevo aquí envío a la misma columna perfecto ahí se removió los

02:33:14.210 --> 02:33:19.570
caracteres terminamos con la última función que es simplificar texto vamos aquí donde

02:33:19.570 --> 02:33:28.690
dice nombres vayamos a la última función que es simplify text y esto lo que está haciendo

02:33:28.690 --> 02:33:38.750
es que remueve cualquier acento que tenga y remueve por ejemplo el case en este caso

02:33:38.750 --> 02:33:45.610
remover el case va a colocar a un case lower o sea lo va a colocar en minúscula y cualquier

02:33:45.610 --> 02:33:51.910
carácter especial que tenga ese cuenta que jose maría andrés y sofía tienen tilde vamos

02:33:51.910 --> 02:33:54.250
entonces a darle simplify test a nombres clientes

02:34:04.430 --> 02:34:13.170
y listo aquí ese cuenta que removió el case y los acentos como tal para qué sirve pues

02:34:13.170 --> 02:34:19.410
quizás alguna vez algo lo use y ese es el menú completo de string y string avanzado

02:34:22.950 --> 02:34:34.330
perfecto sigamos entonces vayamos ahora al ejemplo 4 vamos a ver si ya me subió el ejercicio 4

02:34:35.210 --> 02:34:45.870
tengo el 5 arriba 6 y creo que ni subir el 4 ya lo tengo arriba aquí bien desde aquí este

02:34:45.870 --> 02:34:53.910
ejercicio puedo hacer también una preparación váyase aquí en el menú derecho superior le

02:34:53.910 --> 02:35:00.410
va a aparecer el el tubo ensayo este que está aquí que se me escapa el nombre ahora en química

02:35:00.410 --> 02:35:05.630
y aquí puedo preparar directamente el tada inventor y aquí le puedo dar click aquí y

02:35:05.630 --> 02:35:10.450
me va a llevar al menú para adicionar un nuevo preparación

02:35:15.470 --> 02:35:26.910
le tomamos a ver está en ese momento está aquí en la parte superior derecha aquí está

02:35:26.910 --> 02:35:33.870
como el signo de aquí está como al ladito del descargar está un la pipetica esta

02:35:36.130 --> 02:35:36.990
quien me habló

02:35:44.050 --> 02:35:46.470
ah perdón ahora sí voy a su máquina

02:35:49.930 --> 02:35:55.570
si exactamente es la otra forma de agregarlo de leer hasta ahí y hacer lo mismo lo que es

02:35:55.570 --> 02:35:58.930
llegue por allá lo mismo eso

02:36:02.750 --> 02:36:12.390
bueno y por acá estaba aquí este son los datos como tal ya sabe los nombres no te

02:36:12.390 --> 02:36:18.790
encuentro lo siguiente ahora esto tiene cinco columnas y vea la que dice país código de ese

02:36:18.790 --> 02:36:24.990
cuenta que automáticamente lo que hace una categoría una catalogación de country

02:36:25.630 --> 02:36:32.810
por qué porque eso pertenecen a códigos de países vea que aquí no lo categorizó y aquí

02:36:32.810 --> 02:36:39.190
pues lo nombró vea que este que es numérico lo colocó como código postal de francia

02:36:40.050 --> 02:36:43.710
esto claro que lo puedes cambiar evidentemente no puedes cambiar cuando quieras

02:36:45.370 --> 02:36:51.270
bueno vamos entonces lo siguiente vamos al menú vamos a escoger país código y vamos al menú

02:36:51.450 --> 02:37:02.090
que bueno aquí un dato curioso yo en realidad no no le veo tanta funcionalidad pero cuando

02:37:02.090 --> 02:37:09.610
le uno el tutorial se nota uno que hacen énfasis en que muestra este mapa y no

02:37:09.610 --> 02:37:15.510
se muestra como si fuese alguna maravilla pues al final dicen ellos que la idea de

02:37:15.510 --> 02:37:19.130
esto es que tú puedas ubicar en caso de que sean unos clientes ubicación geográfica y

02:37:19.130 --> 02:37:24.970
una teoría sepa dónde están tus clientes a nivel mundial y puede hacer pero yo no

02:37:24.970 --> 02:37:29.450
le veo a otro mundo a esta gráfica que está aquí está que está acá bajito mire des cuenta

02:37:29.450 --> 02:37:36.850
que aquí aparece en un mapa mundo y le marca en función a estos códigos en que ubicación

02:37:36.850 --> 02:37:43.590
gráfica se encuentra eso es lo que hace y o si no cambias a al típico de barra que te

02:37:43.590 --> 02:37:47.750
puede decir cuántos registros está en cada uno de los códigos de países cuántos registros

02:37:49.450 --> 02:37:54.070
pertenecen o están agrupados digamos por el código que está en particular esto que está

02:37:54.070 --> 02:37:59.850
aquí pues no le veo en el otro mundo pero es lo que dicen ellos vayamos al menú que dice

02:37:59.850 --> 02:38:08.210
conversión por favor ubicado en país código conversión y aquí me quien me habló brenda no

02:38:08.210 --> 02:38:12.810
y eso no va a cargar haga lo siguiente por favor ábrese una nueva ventana por favor de

02:38:12.810 --> 02:38:19.170
en la última que tiene allá que se llama data preparation por ahora la pestaña es la última

02:38:19.710 --> 02:38:26.990
el click si dele ahí en la flechita en la parte izquierda ahí listo y mande ahí el 4 nuevamente

02:38:26.990 --> 02:38:33.510
mande lo para ver un momento no quedan iguales ahí la única diferencia es el time el tiempo

02:38:33.510 --> 02:38:39.210
en que subió quedarían con el mismo nombre pero la forma en que lo puedes diferenciar es el

02:38:39.210 --> 02:38:44.170
que subió intenté subir el 5 ya es un co subió que el ejercicio 5 ya lo subió

02:38:46.170 --> 02:38:52.030
de ese de ese ya la pestaña que está al lado vez subió el 4k de los hagamos ahora la

02:38:52.030 --> 02:39:00.330
preparación ahí inmediatamente al lado derecho el menú derecho antes ese que es ahí perfecto

02:39:02.170 --> 02:39:07.310
dele a si están amables perfecto ubíquese en la columna país código que es la que

02:39:07.310 --> 02:39:16.810
estamos actualmente listo bien entonces vamos a país código en el menú de conversión desacada

02:39:16.810 --> 02:39:27.910
del lado derecho vamos a escoger convertir country names a coach listo aquí dice from me dice en

02:39:27.910 --> 02:39:35.870
qué formato está el el nombre el código del país en este caso creo que es esa hizo que

02:39:35.870 --> 02:39:43.290
voy a tomar esa hizo que está acá y quiero que me lo convierta a nombre de países si el

02:39:43.290 --> 02:39:49.690
código corresponde a uno de hizo lo colocará el nombre del país dele por favor envíelo

02:39:49.690 --> 02:39:53.750
a una nueva columna a ver si lo hace de él es aquí

02:39:58.270 --> 02:40:04.730
y ahí está el problema que puede tener es que el nombre lo coloca en inglés es el único

02:40:04.730 --> 02:40:11.370
inconveniente será que lo convertimos acá en español lo puso en español si vamos a ver si

02:40:13.430 --> 02:40:19.830
y cómo se lo puso será que tiene la el el browser que le será que el browser le traduce

02:40:19.830 --> 02:40:24.410
inmediatamente porque este para ver quién me habló que de con la curiosidad alejandro un

02:40:24.410 --> 02:40:28.530
momento y a ver tu pantalla un momento para ver que de con la curiosidad ese

02:40:29.510 --> 02:40:34.910
no no pero que todavía no han enviado su mitad del único sumi para ver submit no lo que pasa

02:40:34.910 --> 02:40:38.490
es que eso que está en español son los que venían por defecto en la en la set

02:40:39.810 --> 02:40:46.370
en el no sé que estaban esos nombres estados unidos en español para intentar ahora convertirlos

02:40:46.370 --> 02:40:56.390
a códigos ahora era que faltaba ejecutarlo bueno ahora aclaro que él te traduce en el

02:40:56.390 --> 02:41:03.870
idioma en que tengas la herramienta nada más no la gusté para recordarle el día de ayer le

02:41:03.870 --> 02:41:08.590
dice cómo cambiar el idioma previamente no creo que tenga poco sentido es decir aquí

02:41:08.590 --> 02:41:14.390
cambió a inglés porque la herramienta no la gusta ya simplemente ver acá en el profile

02:41:15.510 --> 02:41:21.170
preference aquí me pide loguiarme nuevamente en este profile preference hay una opción que

02:41:21.370 --> 02:41:26.910
es el lenguaje es el lenguaje que está aquí entonces yo podía cambiar a diferentes idiomas

02:41:26.910 --> 02:41:33.770
aquí pero español no existe aquí está inglés francés japonés y alemán no sirve

02:41:36.450 --> 02:41:42.690
ahora vamos a hacer entonces con el siguiente que sería data preparation lo hago nuevamente

02:41:44.810 --> 02:41:47.690
sería la preparación número 4

02:41:51.750 --> 02:42:00.970
y nos situamos ahora en el nombre del país vamos a intentar entonces convertir estos nombres a un

02:42:00.970 --> 02:42:07.770
código voy a ser nuevamente al menú de conversión donde dice convert con trinen sanco

02:42:08.370 --> 02:42:18.750
dile fron dígale que está el country name y páselo por favor a hizo 02 con tricot vamos

02:42:18.750 --> 02:42:20.470
a ver qué pasa en una nueva columna

02:42:26.010 --> 02:42:30.270
ahí no creo que haga mucho de ese cuenta que lo único que hice que se me hace raro

02:42:30.270 --> 02:42:36.010
fue que convertió código japon gp no sé por qué porque normalmente lo buscaría en español

02:42:36.010 --> 02:42:41.230
es a tilde grinejapón no sé por qué voy a hacer algo en particular voy a convertir esta

02:42:41.230 --> 02:42:47.370
francia en france voy a cambiar aquí como hacía ya en el tal nata severs va a cambiar

02:42:47.370 --> 02:42:51.490
francia a france su mi

02:42:56.190 --> 02:43:02.210
el problema es ahora quedó con la siguiente duda si intentaría ejecutar esto el cambio

02:43:02.210 --> 02:43:05.490
está acá abajo por lo tanto me daría lo mismo voy a intentar a ver un momento a ver

02:43:06.110 --> 02:43:12.350
si intento mandar un su mi en teoría debería si me da lo mismo por qué porque el cambio

02:43:12.350 --> 02:43:18.210
lo hice acá en tercero aquí me tocaría nuevamente voy a cambiar aquí el orden que

02:43:18.210 --> 02:43:21.830
también no lo he mostrado y a cambiar aquí el orden voy a subir este señor para que lo haga

02:43:21.830 --> 02:43:30.530
de segundo primero me reemplazaría y después me intentaría convertir y ahí está bueno ahí

02:43:30.530 --> 02:43:35.730
me sirvió para dar eso que podía cambiarle acá el orden de la receta hacia arriba o

02:43:35.730 --> 02:43:42.190
hacia abajo cambia lo primero y después sube el cambio como segundo elemento en la en la

02:43:42.190 --> 02:43:48.310
receta y después qué va a pasar que primero hacer en plaza y después va a intentar convertir

02:43:48.310 --> 02:43:54.890
esos nombres a código morales a este señor y también nos pasa mucho con el tal nata

02:43:54.890 --> 02:44:00.550
catalog pues se está muy ligado al idioma inglés no es posible hacer una a cambiarlo

02:44:00.550 --> 02:44:06.270
inglés a español perdón y creo que no está entre la corto plazo no está ese

02:44:06.270 --> 02:44:13.490
de la herramienta en español

02:44:14.470 --> 02:44:21.270
recuerda cambie a france y después sube y cambia el orden como segundo y debería ya

02:44:22.790 --> 02:44:29.210
parecerte el código de francia que espere por lo demás no funcionó porque están en español

02:44:29.210 --> 02:44:31.710
y los espera en inglés

02:44:31.710 --> 02:44:35.210
que todo no funcionó, a ver que uno que no haya funcionado

02:44:51.110 --> 02:44:51.510
vayase

02:44:54.930 --> 02:44:55.730
ah ok

02:44:56.290 --> 02:45:02.130
esa que está ubicado está convirtiendo alison el problema que tiene ahí es que

02:45:02.130 --> 02:45:07.150
está convirtiendo de código a nombre y la conversión es al revés de nombre a código

02:45:07.150 --> 02:45:12.010
entonces en el front dele clic en el front donde está ubicada en ese front que está

02:45:12.010 --> 02:45:18.870
en la parte de arriba del front ahí y va a decir que es country name y ahora páselo dele

02:45:18.870 --> 02:45:27.850
en el to dígale que lo pase a iso 02 code ese country code iso 02 dele nuevamente

02:45:27.850 --> 02:45:36.870
y ahora sí está era que el problema era la la configuración de la conversión

02:45:37.650 --> 02:45:42.450
bueno seguimos entonces quién me habló es una buena pregunta que no le sé la

02:45:42.450 --> 02:45:46.450
respuesta en realidad no sé por qué no debió porque esa tilde no está en el idioma

02:45:48.090 --> 02:45:52.290
ese sí está raro que lo haya convertido en el código correcto

02:45:53.650 --> 02:45:57.290
ahora me puse a pensar que es verdad que en inglés es japan ni siquiera es japon

02:45:57.290 --> 02:46:02.690
sino japan sería listo hagamos lo siguiente vamos a probar lo que

02:46:02.690 --> 02:46:09.290
tú dices para ver vamos a colocar aquí germany pero con la y latina germany germany aquí

02:46:14.730 --> 02:46:15.370
no

02:46:17.850 --> 02:46:25.270
no no lo convierte estamos ahí sí tenemos la duda voy a convertir este en japan debe ser

02:46:25.270 --> 02:46:26.690
gp verdad que este en japan

02:46:29.870 --> 02:46:38.190
para colocar un no en realidad no sé por qué japón lo no le sé decir voy a investigar

02:46:38.190 --> 02:46:45.050
por qué porque japón lo convierte el código no sé es que ni siquiera porque

02:46:45.050 --> 02:46:50.950
que la tilde esa bueno y tampoco no funcionó lo del el fusil bueno así

02:46:50.950 --> 02:46:56.330
queda con la duda de por qué vamos aquí ahora vamos a distancia metros en

02:46:56.330 --> 02:46:58.390
la columna y vamos al menú de conversión

02:46:58.390 --> 02:47:09.510
en conversión que me pasé en el menú de conversión listo y aquí hice convertir distancias

02:47:11.990 --> 02:47:16.290
entonces te pregunta la unidad que en que está y es a millas voy a coger

02:47:16.290 --> 02:47:24.890
kilo me en la unidad que está está en metros metros y quiero convertirlos a kilómetros aquí

02:47:24.890 --> 02:47:30.610
la precisión va a ser cuántos decimales vas a querer colocar ahí en la conversión entonces

02:47:30.610 --> 02:47:35.210
en que está está en metros la coloque en metros a que lo quiero convertir a kilómetros

02:47:36.270 --> 02:47:42.030
y con una precisión de uno significa con solamente con un número decimal delez

02:47:42.030 --> 02:47:48.090
súbmica aquí debería cambiar el 10.000 debería cambiarlo a 10 y así suecidamente

02:47:49.470 --> 02:47:59.730
efectivamente con la precisión de uno sólo un solo carácter decimal seleccionó ahora la de

02:47:59.730 --> 02:48:06.770
pero que algunos terminen vamos con duración horas vamos al mismo menú de convert

02:48:09.670 --> 02:48:18.070
de convertir y aquí está convertir duración entonces te pregunta así como el de

02:48:18.070 --> 02:48:26.250
el de distancias te convierte pregunta en qué está la unidad entonces voy a decir que esto está

02:48:26.250 --> 02:48:35.550
en horas en horas y las quiero pasar a días a cinco horas las quiero pasar a días con una

02:48:35.550 --> 02:48:43.990
precisión de uno entonces voy aquí a súbmica hace la conversión y me convierte las horas a

02:48:43.990 --> 02:48:52.750
días de ya era una fracción del día 0.2 días sería equivale a cuatro horas 0.3 días 0.2

02:48:52.750 --> 02:48:57.470
día equivale a cuatro horas que pudiera convertir año a meses meses a días como tú quieras esa

02:48:57.470 --> 02:49:04.850
función si es interesante porque esas conversión de fechas y se ven mucho para tratar de

02:49:04.850 --> 02:49:11.370
estandarizar los diferentes de lo que tengas vamos ahora aquí ahora a temperatura para

02:49:11.370 --> 02:49:18.770
finalizar ya este menú de conversiones y aquí está convertir temperatura lo mismo te pregunten

02:49:18.770 --> 02:49:25.510
qué está y a dónde la quieres convertir dígale entonces que está en faren que y la quiere

02:49:25.510 --> 02:49:33.890
convertir a celsius esto viene porque no está centígrado porque este señor viene de europa

02:49:33.890 --> 02:49:38.670
normalmente el centígrado se usa más acá en américa asumo que por eso no está centígrado

02:49:38.670 --> 02:49:47.170
acá eso sí de temperatura nunca lo he usado pues algo comercial pero bueno te hace la

02:49:47.170 --> 02:49:53.630
conversión al a lo que tú quieras ahí bueno específicamente farenje y celsius y

02:49:53.630 --> 02:49:59.830
kelvin y ese es el menú completo a nivel de lo que es conversión

02:50:05.810 --> 02:50:13.110
bueno continuamos entonces con el siguiente menú que sería el menú de limpieza este

02:50:13.110 --> 02:50:16.990
menú de limpieza y unas cosas que las puede hacer con el ser replays o con el match

02:50:16.990 --> 02:50:22.750
match pattern que fue que hicimos ahora y muchas veces repite algunas cosas para esto

02:50:22.750 --> 02:50:29.310
entonces vamos a tomar ejercicio 5 que yo creo que si subió tengo el 6 y tengo el 5

02:50:29.310 --> 02:50:33.870
ejercicio 5 si subió voy a crear aquí una nueva preparación

02:50:37.210 --> 02:50:40.870
la voy a llamar cambiarle el nombre aquí underscore

02:50:49.190 --> 02:50:52.150
efectivamente la primera vez no funciona en la segunda

02:50:53.990 --> 02:50:58.950
es la que funciona no sé qué pasa ahí me ubico para ver en ese menú

02:51:08.790 --> 02:51:15.330
bien vamos entonces se ubicamos en nombre en nombre y vamos con la primera función

02:51:15.330 --> 02:51:20.070
que se va a dar cuenta que es exactamente igual o parecida ser replays o el match

02:51:20.070 --> 02:51:24.590
pattern la única diferencia es que aquí por defecto el limpia la

02:51:26.960 --> 02:51:34.920
limpia como tal la expresión entonces aquí por ejemplo nos ubicamos en nombre y podemos

02:51:34.920 --> 02:51:44.440
cliar un matching value me pregunta si deseo ya sea por valor y aquí lo mismo funciona

02:51:44.440 --> 02:51:52.680
que tenemos igual igual contiene inicia finaliza o regex asume que vamos vamos a eliminar todas

02:51:52.680 --> 02:51:59.700
las columnas que tengan el nombre carlos cuando digo eliminar las columnas es que

02:51:59.700 --> 02:52:04.900
la voy a colocar en blanco eso es lo que hace un clear limpia la columna es igual a un

02:52:04.900 --> 02:52:11.840
ser replay recuerden que si yo hago con contén igual estar o en qué va a pasar en que va a

02:52:11.840 --> 02:52:17.520
ser caso sensitivo si quieres caso insensitivo lo mejor es que hagas con un regex para repasar

02:52:17.520 --> 02:52:23.720
regex vamos a decirle aquí regex y entonces como es caso insensitivo tenemos que hacer

02:52:23.720 --> 02:52:34.300
lo siguiente tendríamos que hacerlo de esta forma sería empezamos con paréntesis signo

02:52:34.300 --> 02:52:39.920
de interrogación y yo digo carlos aquí él reemplazaría a todas las columnas que contienen

02:52:40.000 --> 02:52:48.500
carlos ya sea minúscula mayúscula o mixto lo mando por el chat por si las dudas coloco aquí

02:52:48.500 --> 02:52:57.580
en valor primero que sea regex y después colocó la expresión como la mandé en el chat voy a

02:52:57.580 --> 02:53:01.480
hacer aquí un preview y debería eliminar de la segunda con la segunda fía y está

02:53:05.880 --> 02:53:12.900
este casualmente no tiene no tiene para que el resultado me lo envíe en una columna nueva de

02:53:12.900 --> 02:53:15.960
él aquí su mick inmediatamente entonces su mick

02:53:22.200 --> 02:53:27.440
perfecto este es esa función si usted analiza es exactamente un ser replays y el replay lo

02:53:27.440 --> 02:53:34.280
mando en blanco para que reemplace toda la columna no hay nada del otro mundo

02:53:39.160 --> 02:53:46.040
bernanda brenda vamos a ver darle f5 nuevamente para ver y hay un f5 para

02:53:46.040 --> 02:53:49.400
recargar la página para ver parece que hay una función con la expresión de

02:53:49.620 --> 02:53:56.940
espera un momento y me conecto a tu listo espera un momento a ver este es un regex

02:53:56.940 --> 02:54:01.580
parece que hubiese un error en esta expresión regular ese es un ahí lo que

02:54:01.580 --> 02:54:06.300
está ahí sí es un ahí verdad vamos a eliminarlo un momento aquí y vamos a volverla a crear para

02:54:07.000 --> 02:54:15.580
ver sería entonces estoy ubicado donde debo voy a hacer aquí un pillars voy aquí entonces regex

02:54:16.260 --> 02:54:22.300
y voy a pegar la expresión perdón sería paréntesis y

02:54:24.480 --> 02:54:29.020
si no se hicieron no sé porque la expresión la única diferencia que tenía la c mayúscula y

02:54:29.020 --> 02:54:33.760
daría lo mismo si es con c mayúsculas y minúsculas decir déjame para ver y pruebo porque

02:54:33.760 --> 02:54:39.060
aunque no colóquese a eso voy a cambiar aquí a c carlos con c mayúsculas no para mí que

02:54:39.060 --> 02:54:42.660
hubo un error antes en la ejecución que no tiene nada que ver contigo fue de pronto algún

02:54:42.660 --> 02:54:48.000
error de de memoria algo para estirlo que indicó que estaba mal pero no creo que haya sido error

02:54:48.000 --> 02:54:56.300
tuyo le hizo seguimos entonces si digo quién me habló fernández y ya voy por ahí momento

02:54:56.300 --> 02:55:01.560
momento por favor y veo para ver qué hay

02:55:03.600 --> 02:55:09.800
vamos a ver este clear como lo tienes aquí raro no es pan de aquí la voy a eliminar a

02:55:09.800 --> 02:55:21.000
la señora que está acá un momento no sé voy a la función clear voy aquí donde dice regex y

02:55:21.000 --> 02:55:30.460
sería paréntesis aquí lo tiene ya este de aquí pero me parece que ésta no es una y si eso

02:55:30.460 --> 02:55:37.160
parece un signo de admiración verdad y si me parece que era el signo de admiración esa que

02:55:38.240 --> 02:55:44.700
perfecto listo ahora sí no sé qué va a pasar que era la signo de admiración vayamos a la

02:55:44.700 --> 02:55:53.100
columna género esta que está aquí y aquí hay una función que dice clear clear significa

02:55:53.100 --> 02:55:59.620
colocarla en vacío clear cerda con invalid values recuerde que hay tres colores que se

02:55:59.620 --> 02:56:06.240
identifican el negro el rojo y el verde el rojo indica valores inválidos el negro indica

02:56:06.240 --> 02:56:12.240
vacío y el verde valores correcto limpie las columnas que tienen valores en la columna género

02:56:12.240 --> 02:56:20.220
nada más darle a clear aquí y él automáticamente envía un submit y lo que hace que esas

02:56:20.220 --> 02:56:37.780
columnas las coloca vacías perfecto aquí hay una función de línea la que viene que se llama

02:56:37.780 --> 02:56:44.460
delete the row that much esto lo que va a hacer es que va a eliminar las filas que contenga

02:56:44.520 --> 02:56:51.240
alguna columna lo que está buscando tú por ejemplo aquí sí la voy a buscar por no usar

02:56:51.240 --> 02:56:59.740
regex porque la usar entonces que contengan por ejemplo una m entonces si da cuenta la línea

02:56:59.740 --> 02:57:07.840
número 1 no contiene m la fila la la fila o línea número 2 contiene m en género debería

02:57:07.840 --> 02:57:13.880
borrar la base de aquí un preview si ahí está la que debería eliminar no hagamos el

02:57:13.880 --> 02:57:19.500
porque necesito esa columna para los ejercicios que vienen pero lo que hace eso es que elimina

02:57:19.500 --> 02:57:25.320
las filas sobre una coincidencia por ejemplo vamos a eliminar la que contengan una y y preview

02:57:27.560 --> 02:57:38.700
no porque es que contengan y pero debió marcar isabel raro raro porque no marco isabel a no

02:57:38.700 --> 02:57:44.520
que contengan no es que sean iguales voy a colocar aquí mejor que inicien con y a ver para

02:57:44.520 --> 02:57:54.540
ver ops aquí no sé tenía anteriormente contain pero es que debería aplicar así claro si si

02:57:54.540 --> 02:57:59.780
seleccionó aquí salió un pequeño rol le voy a decir a borrar las filas

02:58:03.080 --> 02:58:08.220
de partiendo de esta columna aquí para ese momentito si si tiene razón verdad que si

02:58:11.180 --> 02:58:15.100
ops voy a hacer aquí un tal en punto login entonces voy a volver a loguiar

02:58:22.340 --> 02:58:27.100
bueno errores que pasan aquí si si claro tiene razón es decir borrar las filas

02:58:33.750 --> 02:58:39.070
sería estamos en el 4 o el 5 en el 5 o el 4 el 5

02:58:41.070 --> 02:58:50.650
si entonces voy aquí al delict delict row dat más de esta columna nombre borra las filas

02:58:50.650 --> 02:58:56.990
que contienen y vamos a ver si es sí sí efectivamente aquí no me pasa con la y en

02:58:56.990 --> 02:59:01.490
latina por qué porque recuerden que es sencilla si quisiera que fuera insensible

02:59:01.490 --> 02:59:06.610
meto quería hacerla con un reyes entonces es el delict row del match de las columnas en

02:59:06.610 --> 02:59:11.770
que esté si hace match lo que va a eliminar es la fila no hagamos el sumi porque necesitaría

02:59:11.770 --> 02:59:18.590
las siguientes columnas bueno aquí tendría el delict row de las anti cell de la columna en

02:59:18.590 --> 02:59:24.070
que esté ubicada por ejemplo en este caso como estoy ubicado por nombre si yo le digo delict row

02:59:24.070 --> 02:59:33.150
week anti cell debería mandar entonces a eliminar la fila número dos efectivamente elimina la

02:59:33.150 --> 02:59:40.650
fila número dos gracias por la observación ya cansancio ya que me corrigieron a un hombre

02:59:40.650 --> 02:59:46.950
y una mujer no sé quién pero muchas gracias listo sigamos entonces saber qué más hay en esa

02:59:46.950 --> 02:59:52.270
parte delict row bueno delict row con valor negativo entendemos aquí me aplicaría nada más

02:59:52.270 --> 02:59:58.270
para esta parte de la edad ok significa entonces que aquí si le digo delict row entre valores

02:59:58.270 --> 03:00:04.350
negativos eliminaría esta columna que sería la 5 nada más creo que el único tiene con

03:00:04.350 --> 03:00:11.910
valores negativos listo voy a ver qué más hay aquí a nivel de columnas

03:00:11.910 --> 03:00:17.150
estamos aquí a ver listo

03:00:20.090 --> 03:00:28.470
estamos aquí en el menú delict row listo bueno este sí llenar valores con

03:00:29.030 --> 03:00:30.390
celda con valor vayamos a género

03:00:33.470 --> 03:00:41.230
y escojamos fill cell with value esto lo que haría es que las filas que estén vacías

03:00:41.230 --> 03:00:47.610
espérate parece que existe aquí un no este lo que haría es que si le doy aquí por ejemplo

03:00:47.610 --> 03:00:54.370
m todas las celdas la reemplazaría por m confirmo sí efectivamente ese reemplaza

03:00:54.370 --> 03:00:59.310
todos los valores de la columna no lo hagamos porque me daña entonces el ejercicio que

03:00:59.310 --> 03:01:05.550
viene el fill cell with value lo que hace es que llena entonces todas las columnas por

03:01:05.550 --> 03:01:13.430
valor que yo quiera o que haya especificado en el text box pero vamos me interesa llenar

03:01:14.070 --> 03:01:22.110
mejor son las filas que están vacías vamos a bueno este que está aquí quizá

03:01:22.110 --> 03:01:27.470
aparte un momento que ahí lo lo le explico para qué funciona ese

03:01:29.250 --> 03:01:31.870
voy a eliminar esto que hice aquí para explicar algo

03:01:34.390 --> 03:01:39.550
resulta que esto es más para un científico de datos resulta lo siguiente en algunos casos

03:01:41.010 --> 03:01:47.750
tú puedes tener una columna por ejemplo esa columna puede ser precio digamos de esta forma

03:01:48.750 --> 03:01:55.730
esa columna precio puede tener digamos varias filas voy a colocar aquí bueno precio más o

03:01:55.730 --> 03:01:59.450
ver que esto hay más columnas acá pero me interesa esta precio para que pueda entender

03:01:59.450 --> 03:02:07.210
para qué sirve eso esta precio puede tener los siguientes valores puede tener 1 2 3 4 puede

03:02:07.210 --> 03:02:13.150
tener aquí un vacío 5 6 7 puede tener aquí un null a nivel de base de datos que es

03:02:13.150 --> 03:02:17.810
diferente vacío lo coloco aquí entre paréntesis para que me entienda aquí puede estar estos

03:02:17.810 --> 03:02:24.470
vacíos y puede seguir acá con 10 11 el problema que se tiene cuando tú haces algunas

03:02:24.470 --> 03:02:35.470
de minería de datos también te te aplica es que muchas veces cuando tienes valores vacíos

03:02:35.470 --> 03:02:40.830
te afecta la desviación estándar y eso te puede llegar a conclusiones que pueden ser

03:02:40.830 --> 03:02:46.290
erróneas entonces lo que hacen y la técnica que están aplicando a nivel estadístico es

03:02:46.290 --> 03:02:52.830
que tú haces lo siguiente tú los valores vacíos los rellenas con el valor más cercano ya

03:02:52.830 --> 03:02:58.970
del lado izquierdo del lado abajo el izquierdo derecho perdón aquí como lo tengo vertical es

03:02:58.970 --> 03:03:04.310
que tú lo escojas hacia arriba o hacia abajo la edición que escoja no cambia porque al fin y

03:03:04.310 --> 03:03:09.170
al cabo te lo que busca es lo siguiente si yo tomo este 4 aquí yo tomo que este lo

03:03:09.170 --> 03:03:13.710
va a rellenar con el más cercano hacia arriba significa que todo rellena con 4 este null lo

03:03:13.710 --> 03:03:19.370
relleno con 7 este señor lo relleno con el de más arriba que ya lo puse con 7 y así se

03:03:19.370 --> 03:03:26.210
seguía su suecidamente seguiría hasta aquí y te rellenaría los datos de esta forma que

03:03:26.210 --> 03:03:31.410
va a pasar ahí que esta técnica te ayuda a que la desviación estándar de esos datos no sea

03:03:31.410 --> 03:03:36.670
tan alta porque eso que están ahí vacíos te pueden afectar o te pueden afectar también

03:03:36.670 --> 03:03:42.770
el promedio entonces estos señores aplican esa técnica esta técnica está hecha en esta

03:03:42.990 --> 03:03:53.310
en esta función que está acá escoge por favor género si es tan amable escoge la columna género

03:03:54.510 --> 03:03:58.070
y ten en cuenta estos vacíos que están aquí si lo rellenate por favor quítalos

03:03:59.770 --> 03:04:02.430
y hay una función que dice lo siguiente

03:04:05.710 --> 03:04:13.430
film entice el front a vos a vos arriba verdad sí o arriba o arriba sí arriba entonces esta

03:04:13.430 --> 03:04:17.990
fila que está vacía o lo siguiente esta fila que está vacía rellenará de su valor vacío con

03:04:17.990 --> 03:04:23.310
el mismo que está arriba o sea con una f este seguiría con el de más arriba que ya

03:04:23.310 --> 03:04:29.770
reemplace con una f este con una f este con una f y este con una m eso más que todo es

03:04:29.770 --> 03:04:37.130
para la técnica se llama suavizar los datos vamos a ver entice listo hago ahí para ver

03:04:42.470 --> 03:04:49.810
efectivamente ahí los rellenó eso esa esa función está específicamente es para eso

03:04:49.810 --> 03:04:53.690
recuerden que esto va más para analistas y científicos de datos para que los formateen

03:04:53.690 --> 03:05:01.530
pues en el formato que yo te sé listo vamos a ver qué más función hay bueno aquí film

03:05:01.530 --> 03:05:12.190
en vale balwe y esta estandarización funció vamos a ver listo ok esta es la misma técnica

03:05:12.190 --> 03:05:22.690
del max similar que teníamos allá pero aquí con un porcentaje de desatitud vamos a lo

03:05:22.690 --> 03:05:33.610
siguiente vamos a tomar nombres este nombre que está aquí y vamos a la función esa que

03:05:33.610 --> 03:05:41.690
confirmo que me confirmo algo acá es por ese momento listo vamos a ver y encuentro un nombre

03:05:41.690 --> 03:05:48.450
aquí listo aquí tengo un nombre Elena y quiero estandarizarlo a Helen a ver cómo me va

03:05:48.450 --> 03:05:57.550
entonces para eso voy a tomar la columna nombre me voy al data clínica el que estamos y voy

03:05:57.550 --> 03:06:07.990
a estandar de valor aplica el mismo fusy entonces aquí que pena que se me escapó el

03:06:07.990 --> 03:06:15.630
lo confundí con otra función ya le ente ya ya ya ya recordé note que aquí tengo anteriormente

03:06:15.630 --> 03:06:22.830
el fusy que usaba lo comparaba contra un valor pero ahora voy a compararlo con todos los elementos

03:06:22.830 --> 03:06:27.790
que estén en la columna en la en la en la columna es decir mire darte cuenta que en la

03:06:27.790 --> 03:06:38.270
fila número 2 tengo elena y en la fila número 10 tengo elena con h en la fila número 11

03:06:38.270 --> 03:06:46.910
esta que está aquí tengo aquí yo y yo acá vamos entonces él va a intentar hacer un

03:06:47.770 --> 03:06:53.370
producto cartesiano de todo contra todo para ver qué elementos similares encuentran la misma

03:06:53.370 --> 03:06:57.770
columna los que habíamos hecho anteriormente lo que hacíamos es que colocamos un valor

03:06:57.770 --> 03:07:03.870
base y ese valor base se comparaba vamos a ver lo siguiente aquí dice entonces que busque

03:07:03.870 --> 03:07:08.610
por un porcentaje mayor 80 vamos a encontrar algo de él aquí preview para ver qué hace ahí no

03:07:08.610 --> 03:07:17.430
hace nada parece que no encuentra voy a darle el más cercano que sería el nom más cercano a ver

03:07:18.150 --> 03:07:27.790
pero no está funcionando a ver un momentico ahí ahí parece que me subiese a ese momento

03:07:27.790 --> 03:07:34.430
que este ejemplo no me acordé ahora pese para ver voy a esta analización fuchsia aquí

03:07:38.590 --> 03:07:43.890
aquí me está marcando estos elementos de género porque me está marcando pero no sé

03:07:43.890 --> 03:07:48.390
por qué me está marcando aquí pero de se cuenta que aquí me está marcando quisiera

03:07:48.390 --> 03:07:53.250
entender por qué me está marcando aquí solamente este valor acá pero lo que me está

03:07:53.250 --> 03:07:59.330
marcando son los parecidos por ejemplo este yon se parece este yon de acá y el yon de acá

03:08:01.550 --> 03:08:05.090
esta laura no se parece en nada este para el espectro mítico porque

03:08:06.490 --> 03:08:09.410
esta estandarción fu si me está dando es

03:08:20.490 --> 03:08:26.110
no este no sé por qué no me funcionó este momento de ahí reviso para ver la teoría que

03:08:26.110 --> 03:08:35.430
se me escapó este ejemplo momento por favor que no me está funcionando es aquí debió convertir

03:08:35.430 --> 03:08:44.010
este lena elana elena pero lo raro es que no está siendo bueno hagamos algo ese tenemos

03:08:44.010 --> 03:08:49.310
un brillo ahora el del almuerzo en el almuerzo reviso este ejemplo y les digo por qué fue

03:08:49.310 --> 03:08:56.350
que no funcionó por qué que raro que no haya funcionado en un momento intentó hacer la última vez

03:09:01.550 --> 03:09:03.470
enmarca estos elementos acá

03:09:05.790 --> 03:09:12.630
bueno ahí disculpo ahora en el break reviso para ver por qué no funcionó este ejemplo entonces

03:09:13.390 --> 03:09:21.650
quedamos en ese estándar fu si y le explico ahora por qué fue que no funcionó bueno vamos

03:09:21.650 --> 03:09:30.370
entonces al ejercicio número 6 que es el este data masking que funciona mucho más para

03:09:30.370 --> 03:09:34.450
la privacidad y confidencia de datos entonces vamos al ejercicio número 6

03:09:39.370 --> 03:09:42.330
voy a revisar para decir el 6 lo subí aquí lo tengo arriba

03:09:44.870 --> 03:09:50.330
voy a crear entonces una preparación con el 6 aquí listo le voy a cambiar el nombre

03:09:56.430 --> 03:10:00.310
perfecto entonces voy a cambiar aquí el nombre a ejercicio 6

03:10:04.790 --> 03:10:06.190
preparación

03:10:07.010 --> 03:10:08.370
la primera vez no funciona

03:10:14.530 --> 03:10:14.850
perfecto

03:10:31.190 --> 03:10:38.570
bien entonces aquí lo que hace es lo siguiente primero note que puede pasar aunque eso no creo

03:10:38.570 --> 03:10:43.270
que pasó hoy en día en la vida real esta parte pero quien quita que lo tenga note que

03:10:43.270 --> 03:10:49.090
aquí tengo un par de columnas que tengo id nombre correo y password ok entonces note

03:10:49.090 --> 03:10:55.630
que el password está aquí en texto plano y quisiese de pronto encriptar ese texto para

03:10:55.630 --> 03:11:01.070
que nadie lo vea entonces tú puedes hacer lo siguiente puedes convertir este señor que

03:11:01.070 --> 03:11:07.110
está aquí está texto plano en una clave hash tal forma en que cuando lo compartas no puedan

03:11:07.110 --> 03:11:13.770
entender qué es lo que está aquí entonces si te vas aquí donde dice password vete a donde

03:11:13.770 --> 03:11:22.810
dice el menú data masking de máscara de datos y escoge has data le envías un submit

03:11:24.850 --> 03:11:33.410
y te convierte esa columna en una clave hash esa clave pues ya ahora sí va a estar encriptada

03:11:33.410 --> 03:11:38.170
y va a ser difícil entonces que detecten entonces la clave que estaba en texto plano

03:11:39.450 --> 03:11:45.510
básicamente lo que hace es convertir una cadena a una clave hash teniendo como base

03:11:45.510 --> 03:11:48.150
la otra parte es el correo

03:11:50.970 --> 03:11:56.050
vayamos a la otra función si estuviese en la columna correo y tú puedes enmascarar

03:11:56.050 --> 03:12:03.450
ciertas letras que están aquí entonces vete o nata masking nos situamos en correo ahora

03:12:03.450 --> 03:12:12.570
estamos en correo le damos en max data ofuscación aquí hay muchas técnicas de ofuscación entre

03:12:12.570 --> 03:12:20.010
esa técnica de ofuscación la más sencilla es la que dice reemplazar los primeros n caracteres

03:12:20.650 --> 03:12:28.210
replace n first character reemplazar los primeros n caracteres aquí por defecto está 5

03:12:29.750 --> 03:12:33.930
aquí te dice si lo deseas repetir con caracteres aleatorios vamos a colocar un

03:12:33.930 --> 03:12:39.630
carácter repetible y voy a colocar x significa que ahora va a colocar en los

03:12:39.630 --> 03:12:49.530
primeros elementos una x este no es tan parecido al de al que se rellenaba con el con la máxima

03:12:49.530 --> 03:12:55.290
cantidad que este es un poco diferente ese para que no vean cierta parte esto puede suceder

03:12:55.290 --> 03:12:59.830
cuando puede ser esto cuando de pronto compartan datos que tengan datos sensibles como dirección

03:12:59.830 --> 03:13:06.870
le vamos a decirle como de pronto quizás el el el sueldo entonces aquí le damos aquí

03:13:12.530 --> 03:13:16.030
bueno al final me cogió fue un randon ahí voy a ver por qué me cogió el randon

03:13:18.950 --> 03:13:23.410
porque perdón yo le puse la x fue en la semilla ese es para cuando es randon debió

03:13:23.410 --> 03:13:29.350
colocarle la x en replacement voy a darle su mi nuevamente si porque le coloqué la

03:13:29.350 --> 03:13:33.670
semilla aquí fue la sec de la semilla esa semilla se coloca ahí para cuando los caracteres sean

03:13:34.310 --> 03:13:41.450
randon y ahora si le coloca los caracteres x para eso que es el data más que no es nada

03:13:41.450 --> 03:13:48.090
para otro mundo perfecto ahí terminamos entonces vamos al ejercicio 7 yo no sé si

03:13:48.090 --> 03:13:52.110
me pareció que no lo he subido voy a subir el 7 el 8

03:13:55.110 --> 03:13:57.230
si no lo había subido el 7

03:14:05.430 --> 03:14:07.150
voy a subir el 8

03:14:14.430 --> 03:14:15.310
el 8

03:14:18.530 --> 03:14:24.630
y voy a subir también el 9 para que sean los tres que vamos a continuar

03:14:25.370 --> 03:14:29.330
no sé si me regala un break de 10 minuticos para buscar agua que se ve que se me acabó

03:14:29.350 --> 03:14:35.470
entonces empezamos en 10 minuticos por favor a la 1 y 25 mientras busco algo de agua

03:14:36.390 --> 03:14:37.510
regresamos en 10 minutos ok

03:16:17.430 --> 03:16:27.350
bueno regresamos pues listo ya con la garganta un poco más aclarada bien continuamos entonces

03:16:27.350 --> 03:16:33.130
ya vamos el ejercicio 7 8 y 9 esperamos ya el 10 vamos a hacer conexiones entonces de

03:16:33.130 --> 03:16:41.510
pronto a una base de datos listo entonces vayamos a lo siguiente ejercicio 7 vamos a ver si subió

03:16:43.350 --> 03:16:49.350
perfectamente aquí ya subió listo voy aquí a las preparaciones esto perfecto dígame

03:16:54.250 --> 03:17:00.730
sí seguramente sí vamos a ver cuáles son si eso es para un formato de teléfono que tengo ahí

03:17:00.730 --> 03:17:05.730
pero creo que no sé si nos da tiempo porque quiero hacer otro ejercicio vamos a quedar

03:17:05.730 --> 03:17:10.170
hasta aquí hasta el 9 y si nos da tiempo subimos eso es 10 y 11 para ver porque la

03:17:10.170 --> 03:17:16.770
idea es comentar una base de datos ahora muchas gracias a ti bueno continuamos entonces

03:17:16.770 --> 03:17:19.410
listo voy a hacer una preparación aquí con el 7

03:17:24.930 --> 03:17:27.890
y esa viene con funciones de fechas

03:17:30.090 --> 03:17:34.130
entonces vamos a escoger fecha nacimiento esta que está aquí

03:17:36.090 --> 03:17:41.510
vamos a las funciones de fechas sería el 7 por favor mientras algunos oídos están

03:17:41.510 --> 03:17:49.350
subiendo vamos a esperar 7 7 nada más tiene tres columnas que es fecha nacimiento fecha registro

03:17:50.790 --> 03:17:58.910
la fecha nacimiento vamos a calcular entonces la edad que tiene cada uno de los registros que

03:17:58.910 --> 03:18:04.050
están establecidos que solamente son 5 apenas espero todavía que hay algunos que le está

03:18:04.050 --> 03:18:09.650
subiendo perfecto yo creo que ya brenda le subió entonces hacemos la preparación el 7 y

03:18:09.650 --> 03:18:14.930
vamos a calcular la edad que pueda tener cada uno de estos registros partiendo de la fecha

03:18:14.930 --> 03:18:23.130
nacimiento para hacer entonces funciones con fechas y calcular con fechas vamos aquí a la

03:18:23.130 --> 03:18:29.070
primera vamos al menú de dates y aquí hay una la primera función que dice calcular tiempo

03:18:29.070 --> 03:18:38.170
desde vamos clic ahí tomando desde la fecha nacimiento listo primero te pregunta en qué

03:18:38.170 --> 03:18:48.130
unidades deseas la salida en este caso deseo la salida en gears aquí está gears y contra

03:18:48.130 --> 03:18:56.590
qué quieres entonces hacer la operación de ese elemento en este caso sería now la actual de

03:18:56.590 --> 03:19:01.670
esa forma calcularía pues cuál sería la edad actual que tiene también hay otras opciones que

03:19:01.670 --> 03:19:07.350
puede especificar una fecha la que tú quieras o es su defecto usa su otra columna como base

03:19:07.350 --> 03:19:12.390
en este caso deseo calcular es la edad actual por lo tanto la configuración de esta columna

03:19:12.390 --> 03:19:20.370
sería desde tiempo unidad unidad de tiempo gears y hasta ahora no crea lo de una nueva

03:19:20.370 --> 03:19:31.110
columna por favor y la edad sumi y ahí te están marcando cuál sería la edad que se tiene

03:19:32.530 --> 03:19:36.370
actualmente partiendo esa fecha nacimiento más específicamente cuál es el tiempo que

03:19:36.370 --> 03:19:41.310
ha ocurrido desde esa edad hasta la que estamos tiene que tener en cuenta algo que ya había

03:19:41.310 --> 03:19:49.050
mencionado en el talent data steward y te lo menciono en esto también talent ha escogido

03:19:49.750 --> 03:19:58.270
como como formato de fecha formato año guión mes día si el formato no está lo más

03:19:58.270 --> 03:20:03.030
recomendable que puedas convertirlo a formato que él entienda o en su defecto que los

03:20:03.030 --> 03:20:12.550
formatos estén estandarizados para hacer algunas operaciones listo entonces eso sería aquí 34

03:20:12.550 --> 03:20:19.670
perfecto vamos a ver qué otra función viene ahora vamos a cambiar el formato de la fecha

03:20:19.670 --> 03:20:25.390
vamos a escoger la fecha de registro y vamos a escoger vamos a cambiar su formato como

03:20:25.390 --> 03:20:29.870
hacemos para cambiar el formato de la fecha quizás el formato no lo cambia para hacer

03:20:29.870 --> 03:20:37.390
operaciones dentro del talent pero sí le serviría para quizás lo vas a llevar a un power v a un

03:20:37.390 --> 03:20:42.670
tablú que quizás quien necesite un formato especial entonces es como fecha de registro y

03:20:42.670 --> 03:20:54.810
vamos a cambiar chains el data el formato de fecha ahí te preguntan que si en realidad te

03:20:54.810 --> 03:21:02.010
preguntan si sabes el formato de la fecha en cuál está ese el caso de que tú no sepas puede

03:21:02.010 --> 03:21:08.510
darte el caso en que quizás los registros no todos estén estandarizados entonces le pides al

03:21:08.510 --> 03:21:13.430
sistema que te adivine cuál es el formato en que está pero como el formato sé lo mejor

03:21:13.430 --> 03:21:22.130
es entonces es que cojas y vamos a definir nuestro propio formato el formato en que está

03:21:22.130 --> 03:21:28.870
sería el siguiente aclaro que estos formatos son establecidos por el formato de java entonces

03:21:28.870 --> 03:21:36.370
permítame y encuentro aquí format date java modifide si lo encuentro aquí

03:21:38.910 --> 03:21:45.130
aquí están estas serían las letras de los formatos de java tienes que tener en cuenta

03:21:45.130 --> 03:21:48.870
que tendría que usar estas letras para cambiar un formato específico por ejemplo

03:21:48.870 --> 03:21:58.850
que quisieses cambiar de numérico a nombre del mes el nombre del mes por ejemplo está en

03:21:58.850 --> 03:22:06.970
formato m m mayúscula en la m mayúscula es demo y la m minúscula es de minuto entonces

03:22:06.970 --> 03:22:11.710
hay que saber cómo conjugo cada uno de sus elementos ahora vamos entonces a lo siguiente

03:22:11.710 --> 03:22:18.710
vamos a cambiar este formato partiendo ese hecho el formato estaría en año guión mes

03:22:18.710 --> 03:22:25.450
día el original por lo tanto partiendo de java para java el año sería ye y como está

03:22:25.450 --> 03:22:31.030
en formato de cuatro dígitos sería ye ye ye ye guión perdón lo vi en minúscula mayúscula

03:22:31.990 --> 03:22:38.550
en minúscula que perdón gracias no sé por qué este día muchísimas gracias es en

03:22:38.550 --> 03:22:47.610
minúscula ye ye ye porque él de java hizo perfecto vendría m m dos dígitos del mes y

03:22:47.610 --> 03:22:56.090
sería en minúscula de de te pide si deseas el nuevo formato a uno estandarizado sobre hizo

03:22:56.090 --> 03:23:02.170
normalmente porque estos maestros se meten con esa parte de hizo y estos estándares lo que

03:23:02.170 --> 03:23:09.870
pasa es que en la unión europea hay que seguir unas regulaciones así como quizás tú adoptaste

03:23:09.870 --> 03:23:16.730
es como norma a nivel de privacidad de datos un gdpr que es el europeo estándar europeo

03:23:16.730 --> 03:23:21.150
entonces en europa hay unos estándares que tienen que conseguir que seguir las diferentes

03:23:21.150 --> 03:23:25.750
fechas entonces por eso es que quizás estos estándares están muy bien establecidos en esta

03:23:27.230 --> 03:23:32.090
herramienta aunque acá no es que se base en el caso de colombia no sé cómo estaría méxico

03:23:32.610 --> 03:23:36.790
pero no todas las empresas no hay un estándar a nivel de fechas cada empresa

03:23:36.790 --> 03:23:41.790
adota como él quiera pero lo que he visto es que la mayoría se casa por un año mes

03:23:42.430 --> 03:23:50.690
y raro en eeuu este software europeo el software en eeuu normalmente el formato que ellos

03:23:50.690 --> 03:23:57.630
siguen es un mes día año pero estos están muy regulados a nivel de europa como no quiero

03:23:57.630 --> 03:24:04.910
ninguno de estos estándares voy a decirle others y voy a decirle que me cambia el formato

03:24:04.910 --> 03:24:11.550
a lo siguiente mm 12 m mayúscula voy a cambiar el carácter de separación a slash

03:24:13.310 --> 03:24:20.930
voy a decirle dd y que me termine en yeyeye en minúscula gracias por la persona que me

03:24:20.930 --> 03:24:27.710
colaboró y no sé pero muchas gracias yeye en minúscula y voy a hacer aquí un preview para

03:24:27.710 --> 03:24:35.910
ver si ese formato en realidad lo está tomando si efectivamente ahí lo tomó voy a hacerlo en

03:24:35.910 --> 03:24:40.790
que me cree una nueva columna mejor y lo manda sumi para revisar si que todo esté bien

03:24:46.650 --> 03:24:55.230
si efectivamente ahí está 0 9 10 y es 20 al nuevo formato establecido

03:24:55.230 --> 03:25:02.010
en la única moraleja que hay que tener en cuenta es que las letras que vayas a escoger para

03:25:02.010 --> 03:25:06.910
definir el formato son las que están establecidas por java no son las que están establecidas por

03:25:06.910 --> 03:25:11.350
talen porque como tan basado en el lenguaje java quien establece esas letras es java y no

03:25:13.070 --> 03:25:20.810
talen perfecto listo ya terminamos con ese date vamos a comparar las fechas vamos a ver

03:25:20.810 --> 03:25:27.090
si la fecha de registro la fecha de registro de en este caso para sacar el documento de

03:25:27.090 --> 03:25:31.870
identificación no sé en méxico pero en colombia todavía estamos en que aquí hay que sacar dos

03:25:31.870 --> 03:25:37.410
documentos un documento que llama antes de 18 años y el documento que está después de 18 años

03:25:37.410 --> 03:25:42.190
eso se vuelve un complique porque los números se varían y es independiente todavía no se han

03:25:42.190 --> 03:25:47.330
actualizado en esa parte el caso de eeuu no sé el caso médico que está un solo número

03:25:47.330 --> 03:25:53.110
nace con un número y ese número lo acompaña toda la vida el caso de colombia y dos números y

03:25:53.110 --> 03:25:58.370
eso trae algunos inconvenientes a nivel de universidades porque el pelado entra el muchacho

03:25:58.370 --> 03:26:05.650
entra adolescente y después cuando entra etapa adulta entonces ya tiene cédulas entonces bueno

03:26:05.650 --> 03:26:10.330
eso hay que adaptar los sistemas de información para eso vamos a hacer lo siguiente vamos a

03:26:13.590 --> 03:26:20.210
registro y vamos a escoger la función de que hice comparar fechas

03:26:22.270 --> 03:26:30.410
comparar fechas y en este caso entonces la deseo comparar es si la fecha de registro es mayor

03:26:30.410 --> 03:26:36.970
aquí están todos los operadores igual no igual mayor igual mayor menor igual y menor

03:26:36.970 --> 03:26:43.390
entonces voy a coger mayor greater than puedo compararla con un valor fijo en este

03:26:43.390 --> 03:26:49.650
caso lo voy a comprar con otra columna y la columna que la quiero comparar sería fecha de registro

03:26:54.930 --> 03:27:00.610
verifique que esté una nueva columna aquí al parecer vamos a darle aquí submit

03:27:04.330 --> 03:27:08.050
debería estar todas en true si fecha de nacimiento y con que la comparé vamos a ver

03:27:10.890 --> 03:27:18.210
a la misma con la misma si si si fecha de nacimiento muchísimas gracias submita aquí

03:27:24.170 --> 03:27:29.830
y efectivamente es como usted sí dígame quién me habló disculpe

03:27:30.630 --> 03:27:32.410
brenda voy para allá listo

03:27:35.290 --> 03:27:43.110
bueno ah listo ahí dele clic por favor y vamos a darlo operador greater dan es el tercero ese

03:27:43.110 --> 03:27:48.210
que es ahí perfecto ese de ahí use envalue dele clic ahí porque malo es para un valor

03:27:48.210 --> 03:27:54.170
fijo y estático dele clic a ese valor y escoja other column no escoja other column porque

03:27:54.170 --> 03:27:59.050
la vamos a comprar el con fecha de nacimiento other column y ahora en el column que le

03:28:00.370 --> 03:28:06.050
apareció escoja la fecha de nacimiento fecha de nacimiento dele submi si es tan amable envíe

03:28:06.050 --> 03:28:12.550
dele submi para que le cree la perfecto comparemos aquí entonces voy a cambiar aquí la fecha

03:28:12.550 --> 03:28:18.070
listo me voy a cambiar aquí a 1981 debería 1981

03:28:24.870 --> 03:28:27.150
y aquí hay algo de la herramienta que

03:28:29.050 --> 03:28:32.530
bueno yo lo hubiese hecho como desarrollador que automáticamente cuando

03:28:32.530 --> 03:28:37.890
se hizo un registro ejecutar a esto creo que de pronto lo pensó porque le consumía mucho

03:28:37.890 --> 03:28:43.610
tiempo me tocaría volver nuevamente a hacer la evaluación con submi para que este cambio

03:28:43.610 --> 03:28:50.970
que hice aquí a no porque perdón en realidad no lo hizo fue porque en realidad estoy

03:28:50.970 --> 03:28:57.390
reemplazando después de comparar entonces me tocaría subir este valor aquí a la

03:28:57.390 --> 03:29:08.210
tercera posición para que reemplace y después vuelva a comparar entonces y aquí está entonces

03:29:08.210 --> 03:29:16.910
el por sí ahí fue un error de apreciación y eso cual viene ahora con ver a listo

03:29:22.250 --> 03:29:30.090
listo el otro vamos a tomar la fecha de registro nuevamente y ya habíamos visto el cambio de

03:29:30.090 --> 03:29:35.010
formato el cambio de formato es que tú pues quisieses pasar como hicimos el caso particular

03:29:35.010 --> 03:29:41.190
de que estaba año mes día y tú quisiera pasar la mes día por ejemplo pero aquí está una

03:29:41.190 --> 03:29:50.270
de conversión vayamos entonces y escojamos fecha de registro y vamos a convertir en

03:29:50.270 --> 03:29:59.770
este convertir te preguntan entonces en qué formato está el formato que debería estar

03:29:59.770 --> 03:30:07.890
debería ser calendario gregoñano este que está aquí pero ahora si tú quieres lo puedes

03:30:07.890 --> 03:30:16.770
convertir a otros tipos de calendarios aquí lo que de pronto te puede o que pronto es conocido

03:30:16.770 --> 03:30:26.850
ese formato juliano y ese push day es el formato que se usa para time están al final es muy

03:30:26.850 --> 03:30:34.150
parecido pero no es igual la diferencia fundamental es el año con el cual tú vas a sacar el

03:30:34.150 --> 03:30:42.710
cálculo entonces mientras si mis cálculos no me fallan el push day lo calculas con la

03:30:42.710 --> 03:30:49.210
fecha del mil novecientos setenta y el full and they lo comparan con una fecha que no recuerdo

03:30:49.210 --> 03:30:54.470
es decir para poder darte el valor en que está al final como lo que te convierte es un

03:30:54.470 --> 03:31:00.950
número para poder saber qué fecha es ese número entonces lo que hace es que lo resta

03:31:00.950 --> 03:31:07.390
con la fecha base que tiene el calendario conviértelo por favor a push day este push

03:31:07.390 --> 03:31:18.630
day que está aquí y dale un sube mit debería darte un número aquí lo cree sobre la nueva

03:31:18.630 --> 03:31:27.970
sobre aquí está este número que está aquí representa entonces la fecha pero se me hace

03:31:27.970 --> 03:31:35.570
porque normalmente es más grande para evitar voy a darle aquí voy a eliminar este señor

03:31:35.570 --> 03:31:42.670
para que no crea no no debía ser eso debí darle un creen y un colón y mandarlo a ejecutar

03:31:43.950 --> 03:31:49.810
nuevamente voy a correr nuevamente fecha de registro y voy a hacer estas conversiones

03:31:49.810 --> 03:31:55.490
que se tienen aquí entonces era en el formato de is

03:31:58.970 --> 03:32:00.570
con ver de

03:32:02.190 --> 03:32:10.430
y aquí está el push day perdón está en grego en gregoña calendario y lo puedes pasar a

03:32:10.430 --> 03:32:19.250
push day permíteme y hago una consulta aquí porque se me escapó la diferencia de push y

03:32:19.250 --> 03:32:25.570
creo que está en están es diferente a juliano se basan en lo mismo pero es diferente es

03:32:25.570 --> 03:32:30.050
un momentico aquí y hago una consulta rápida es un momento

03:32:33.630 --> 03:32:35.690
es poch está en están

03:32:39.650 --> 03:32:40.770
y julio

03:32:43.150 --> 03:32:49.190
es poch empieza en el año primer o sea para calcular lo calculas con el 1 de enero del

03:32:49.190 --> 03:33:00.910
año 1970 el tan están bueno pero no me dice aquí la el juliano lo calculas con el 1 de

03:33:00.910 --> 03:33:08.610
enero del 47 13 antes de cristo o sea ese sí listo de cristo o sea juliano viene de cristo

03:33:08.610 --> 03:33:17.910
para acá el push empieza el año 70 para acá y el tan están bueno es un formato específico

03:33:17.910 --> 03:33:21.730
que se calcula como no me dice aquí pero bueno esa es la diferencia que hay en realidad son

03:33:21.730 --> 03:33:29.170
diferentes los tres cuál es mejor dependiendo del caso esto sí se usa bastante porque lo

03:33:29.170 --> 03:33:34.150
he usado mucho lo uso más que todo el tan están porque para evitar el problema de los

03:33:34.150 --> 03:33:39.090
porque es que hay algunos que usan el formato mes día año día mes año entonces mejor puedes

03:33:39.090 --> 03:33:44.950
usar un formato de esto intermedio en que al final tú puedes convertir un époche julian o

03:33:46.270 --> 03:33:51.550
el tan están lo puedes convertir a la fecha que es y en el formato que tú quieras entonces te

03:33:51.550 --> 03:33:56.530
da mucha versabilidad utilizada en alguno de estos formatos pero bueno ahí está la función

03:33:56.530 --> 03:34:00.610
que no es nada del otro mundo lo que hace es que te convierte a un en este caso convertimos

03:34:01.230 --> 03:34:07.550
creo que el que viene te convierte julian vamos a ver aquí nuevamente aprende que

03:34:07.550 --> 03:34:13.170
aquí hizo fue lo mismo es un momento que ya como que me está dando hambre el almuerzo

03:34:13.170 --> 03:34:19.670
pero es un momento a ver aquí listo vamos aquí a hacer lo mismo que hice ahora que

03:34:19.670 --> 03:34:29.530
se me perdió deis aquí está y había hecho un convert crear nueva columna y le voy a decir

03:34:29.530 --> 03:34:36.450
que sea époche de ahí entonces su mic aquí ahora sí y creo que ahora viene

03:34:40.390 --> 03:34:48.010
el de convertir a ahora bueno convertamos un lado porque aquí vamos a convertir a

03:34:48.010 --> 03:34:53.330
tallestán en la función que viene este señor que está aquí y el nuevo formato

03:34:53.330 --> 03:34:59.190
hay varios formatos como dice de julian vamos a usar el de la iso y debería también darme

03:34:59.790 --> 03:35:07.270
un número se te insana debería darme un número también si no lo calculó es porque la fecha de

03:35:07.270 --> 03:35:13.850
registro no entiende el formato pero ahí aparece en blanco al parecer bueno ese ejemplo no me

03:35:13.850 --> 03:35:18.010
salió también ahí ahí lo que debe tener en cuenta es que hay algunas funciones al parecer

03:35:18.010 --> 03:35:24.950
el formato no sé no como que debió entenderlo pero como que no lo entendió y él no pudo

03:35:25.070 --> 03:35:33.050
convertir termino ya esta parte de day ya casi para irnos al break del almuerzo que más nos

03:35:33.850 --> 03:35:38.510
falta extraer parte de la fecha entonces estamos en fecha de registro extraer parte

03:35:38.510 --> 03:35:46.670
de la fecha aquí tengo un error no sé si sale aquí un error voy a volverme a loguiar

03:35:56.930 --> 03:36:01.790
no me espera un momento por favor sería tdp

03:36:10.310 --> 03:36:12.510
para que me cerró la sesión un momento

03:36:16.430 --> 03:36:17.550
y es

03:36:18.590 --> 03:36:23.310
qué pasa aquí no sé si ésta me funciona no

03:36:25.630 --> 03:36:27.010
espero un momento que está cargando
Talend Big Data Integration y Ecosistema de Talend Videos

Search

Quick Links

Use Cases

DaDesktop