Cloud Desktop Teaching Platforms

5 videos • 📅 2024-10-09 09:00:00 America/Bahia_Banderas
Watch Video
2024-10-09 10:47:18
2024-10-09 12:28:28
2024-10-10 09:26:29
2024-10-10 09:59:31
2024-10-10 15:02:46
Visit the Big Data course recordings page
                WEBVTT

00:00:00.000 --> 00:00:03.760
¿No? Que me permita cargar el

00:00:03.760 --> 00:00:05.700
software entonces.

00:00:14.080 --> 00:00:16.020
Listo, ya el caso de Ernesto le

00:00:16.020 --> 00:00:20.800
subió la la UI. Y ya también

00:00:20.800 --> 00:00:21.720
está cargando, y los demás

00:00:21.720 --> 00:00:23.760
también están cargando. Vamos

00:00:23.760 --> 00:00:25.420
con un ejemplo básico entonces

00:00:25.420 --> 00:00:28.400
para entender cómo funciona el

00:00:28.400 --> 00:00:32.480
señor a nivel de esta versión

00:00:32.480 --> 00:00:34.900
porque en las versiones

00:00:34.900 --> 00:00:36.840
superiores la mayoría se está

00:00:36.840 --> 00:00:39.440
casando con Spark. Como le

00:00:39.440 --> 00:00:41.000
decía, muy raro un proyecto

00:00:41.000 --> 00:00:43.480
nuevo que alguien lo genere

00:00:43.480 --> 00:00:46.520
con MacReduce. Yo creo que no

00:00:46.520 --> 00:00:47.900
creo que alguien hoy en día un

00:00:47.900 --> 00:00:50.220
proyecto nuevo alguien lo lo

00:00:50.220 --> 00:00:53.560
creería con MacReduce. Perfecto,

00:00:53.800 --> 00:00:57.180
ya me está cargando y no sé

00:00:57.180 --> 00:00:58.580
cuando inicié la máquina

00:00:58.580 --> 00:01:00.340
virtual me quedó con mucha

00:01:00.880 --> 00:01:03.300
memoria. Me quedó con 6 gigas

00:01:03.300 --> 00:01:05.980
de memoria y me está costando

00:01:05.980 --> 00:01:07.160
esas 6 gigas. Ahora vemos por

00:01:07.160 --> 00:01:10.220
ahí qué pasó cuando...

00:01:13.220 --> 00:01:15.000
Listo, voy a cerrar esta

00:01:15.000 --> 00:01:16.180
ventana aquí que no voy a

00:01:16.180 --> 00:01:19.440
usar nada con ellas. Y espero

00:01:19.440 --> 00:01:20.680
entonces que a mí también me

00:01:20.680 --> 00:01:23.640
termine de cargar. En caso de

00:01:23.640 --> 00:01:25.240
que Edward sería iniciar ya y

00:01:25.240 --> 00:01:26.580
dice, ok, listo. Ah, vas a ver

00:01:26.580 --> 00:01:29.860
las configuraciones. Si ya le

00:01:29.860 --> 00:01:32.820
cargó la UI de Thale, por

00:01:32.820 --> 00:01:34.280
favor, vamos a crear una

00:01:34.280 --> 00:01:36.360
carpeta que se llama

00:01:36.880 --> 00:01:40.440
Procesamiento. Procesamiento.

00:01:40.820 --> 00:01:41.880
Bueno, creo que la mayoría

00:01:42.440 --> 00:01:43.540
esa máquina virtual nos

00:01:44.420 --> 00:01:46.760
devoró. Esperamos a que

00:01:46.760 --> 00:01:50.100
cargue. Ups, está demorando

00:01:51.240 --> 00:01:51.760
bastante.

00:01:58.740 --> 00:02:00.320
Bueno, por favor, si ya le

00:02:00.320 --> 00:02:02.220
cargó, cree un folder llamado

00:02:02.880 --> 00:02:06.220
Procesamiento. Perfecto, y aquí

00:02:06.220 --> 00:02:08.120
voy a maximizar.

00:02:11.920 --> 00:02:14.720
Listo, entonces lo primero que

00:02:14.720 --> 00:02:16.280
vamos a hacer es que voy a

00:02:16.280 --> 00:02:18.100
crear entonces un folder para

00:02:18.100 --> 00:02:19.980
organizarme. Ya tengo un

00:02:19.980 --> 00:02:22.060
folder netamente de

00:02:22.060 --> 00:02:23.860
almacenamiento y voy a crear ahora

00:02:23.860 --> 00:02:25.460
un nuevo folder para la parte

00:02:25.460 --> 00:02:28.460
de procesamiento. Perfecto,

00:02:28.620 --> 00:02:31.280
entonces, aquí doy ok.

00:02:34.060 --> 00:02:37.100
Derecho, crea el folder.

00:02:38.680 --> 00:02:39.940
Y este folder lo voy a llamar

00:02:39.940 --> 00:02:41.620
entonces Procesamiento.

00:02:44.100 --> 00:02:44.800
Procesamiento.

00:02:48.920 --> 00:02:51.080
Y ahí voy a meter todo mi

00:02:51.080 --> 00:02:52.820
que tienen relacionado o tienen

00:02:52.820 --> 00:02:53.740
relación con

00:02:53.740 --> 00:02:54.800
Procesamiento.

00:02:58.780 --> 00:03:00.920
Perfecto, vamos a crear el

00:03:00.920 --> 00:03:02.560
primer job aquí.

00:03:05.700 --> 00:03:07.600
Vamos a llamarlo Job.

00:03:08.980 --> 00:03:09.280
Limpieza.

00:03:11.760 --> 00:03:12.600
Archivo.

00:03:17.200 --> 00:03:17.600
Producción.

00:03:19.220 --> 00:03:19.280
Finish.

00:03:21.720 --> 00:03:23.820
Hoy sí, vamos a tener un

00:03:23.820 --> 00:03:25.600
problema con esa...

00:03:28.680 --> 00:03:29.480
Es que...

00:03:29.480 --> 00:03:30.760
Ah, ok, sí, sí, claro, lo que

00:03:30.760 --> 00:03:33.740
pasa es que tengo...

00:03:33.740 --> 00:03:34.680
No tengo mi memoria.

00:03:36.100 --> 00:03:36.920
No, me lo ocupe, yo la espero

00:03:36.920 --> 00:03:39.080
un momento. Es que la máquina

00:03:39.080 --> 00:03:40.520
virtual la guardé, pero no me

00:03:40.520 --> 00:03:42.840
estudió seis gigas. No la quiero

00:03:43.760 --> 00:03:44.280
apagar.

00:03:45.100 --> 00:03:45.980
No se preocupe, yo la espero.

00:03:46.140 --> 00:03:48.200
Hicimos dos cosas. La primera

00:03:48.200 --> 00:03:49.540
fue crear un folder llamado

00:03:49.540 --> 00:03:50.220
Procesamiento.

00:03:52.420 --> 00:03:54.240
Y lo segundo fue crear un

00:03:54.240 --> 00:03:56.160
job llamado Job Limpieza

00:03:56.160 --> 00:03:57.740
Archivo Producción.

00:03:59.460 --> 00:04:00.300
Perfecto, eso espero un

00:04:00.300 --> 00:04:01.640
momento más que todavía no ha

00:04:01.640 --> 00:04:04.580
cargado. Listo, ahora sí.

00:04:05.480 --> 00:04:06.700
Bien, ya le había comentado

00:04:06.700 --> 00:04:08.560
el día de ayer

00:04:08.560 --> 00:04:09.700
de usar

00:04:09.700 --> 00:04:11.060
un componente que se llama

00:04:11.060 --> 00:04:13.380
TPreJob y TPosJob.

00:04:13.600 --> 00:04:15.740
Listo. Vamos entonces a hacer

00:04:15.740 --> 00:04:17.440
lo siguiente. Voy a agregar aquí

00:04:17.440 --> 00:04:20.560
un componente TPreJob.

00:04:23.260 --> 00:04:23.920
TPreJob.

00:04:26.780 --> 00:04:28.220
Voy a agregar un componente

00:04:28.220 --> 00:04:30.560
de tipo THDFS

00:04:32.860 --> 00:04:33.520
Connection.

00:04:37.140 --> 00:04:38.960
Y voy a agregar ahora

00:04:38.960 --> 00:04:40.820
para encontrarle un poco de sentido

00:04:40.820 --> 00:04:42.600
a esto, le voy a agregar el día

00:04:42.600 --> 00:04:44.400
de ayer, simplemente lo mostré,

00:04:44.520 --> 00:04:45.960
pero no le busqué el sentido.

00:04:46.540 --> 00:04:48.220
Voy a agregar un archivo para

00:04:48.220 --> 00:04:50.100
LOG, que sería un componente

00:04:50.100 --> 00:04:51.440
para LOG, perdón, que se llama

00:04:51.440 --> 00:04:53.760
TWAR, que fue el día de ayer.

00:04:54.300 --> 00:04:55.520
Ya le vamos a encontrar sentido

00:04:55.520 --> 00:04:56.900
a ese TWAR como tal.

00:04:58.280 --> 00:04:59.640
Vamos a conectar entonces

00:04:59.640 --> 00:05:01.600
los componentes del TPreJob.

00:05:02.120 --> 00:05:03.500
Vamos a conectarlo aquí

00:05:03.500 --> 00:05:05.260
al señor

00:05:06.880 --> 00:05:07.500
Connection.

00:05:08.300 --> 00:05:09.820
Y vamos aquí a

00:05:09.820 --> 00:05:11.240
un component OK.

00:05:11.760 --> 00:05:13.400
Al TWAR este que está aquí.

00:05:14.500 --> 00:05:15.780
Y vamos a hacer nuestro

00:05:15.780 --> 00:05:17.720
archivito de LOG.

00:05:18.100 --> 00:05:19.580
Que es sumamente importante para

00:05:19.580 --> 00:05:21.000
la parte de errores.

00:05:21.420 --> 00:05:22.700
Entonces aquí tengo,

00:05:23.600 --> 00:05:25.120
voy a entrar a este TWAR

00:05:26.220 --> 00:05:27.440
y voy a escribir

00:05:27.440 --> 00:05:28.860
lo siguiente entonces.

00:05:29.880 --> 00:05:31.500
TWAR mensaje. El mensaje va a ser

00:05:34.730 --> 00:05:35.270
conexión

00:05:37.410 --> 00:05:37.950
exitosa

00:05:40.590 --> 00:05:41.670
Cluster Hadoop.

00:05:41.890 --> 00:05:43.950
Y esto por favor, dale

00:05:43.950 --> 00:05:46.030
que es un mensaje

00:05:46.030 --> 00:05:47.730
de seguimiento, de trace.

00:05:48.750 --> 00:05:49.830
Los LOG, recuerden que los LOG tienen

00:05:49.830 --> 00:05:51.670
varios tipos. Entonces,

00:05:51.890 --> 00:05:54.190
el TWAR mensaje, como esto es

00:05:54.190 --> 00:05:55.750
Java, en este caso, tengo que

00:05:55.750 --> 00:05:57.670
mandarle ahí entre comillas doble,

00:05:57.910 --> 00:05:59.610
quiero que escriba eso. Conexión

00:05:59.610 --> 00:06:01.150
exitosa Cluster Hadoop.

00:06:01.510 --> 00:06:03.530
El código de error, pues ya eso lo

00:06:03.530 --> 00:06:05.510
define internamente. ¿Cuál es el que usted define allá?

00:06:05.650 --> 00:06:06.750
Deje por defecto 42.

00:06:07.430 --> 00:06:09.350
Y en realidad los LOG van a ser de trace.

00:06:09.610 --> 00:06:10.810
O sea, de seguimiento.

00:06:12.110 --> 00:06:12.770
De seguimiento.

00:06:14.310 --> 00:06:15.730
Vamos aquí ahora

00:06:15.730 --> 00:06:17.610
al THDFC

00:06:19.030 --> 00:06:19.510
Connection.

00:06:21.050 --> 00:06:21.750
Y vamos

00:06:21.750 --> 00:06:23.650
a escoger en property type, vamos a

00:06:23.650 --> 00:06:25.310
escoger la que estamos definida

00:06:25.310 --> 00:06:27.630
en metadata. Entonces vamos aquí al repositorio.

00:06:27.630 --> 00:06:29.030
En el property type.

00:06:30.250 --> 00:06:31.510
Y vamos a elegir

00:06:31.510 --> 00:06:33.430
ya la que hicimos al día de ayer

00:06:33.430 --> 00:06:35.710
de manera estática sobre la

00:06:35.710 --> 00:06:37.470
metadata. ¿Por qué

00:06:37.470 --> 00:06:39.810
la llamo estática? Porque por defecto

00:06:39.810 --> 00:06:41.450
ahí cuando es estática no le puedo

00:06:41.450 --> 00:06:43.310
configurar una variable en torno.

00:06:43.350 --> 00:06:45.630
Pero yo la podía cambiar cuando la adiciono a este lado.

00:06:47.010 --> 00:06:47.890
Subajo hasta aquí

00:06:47.890 --> 00:06:49.590
y llego hasta

00:06:50.170 --> 00:06:51.590
HDFS Axa y doy

00:06:52.250 --> 00:06:52.770
OK.

00:06:54.450 --> 00:06:55.510
Claro, estática porque

00:06:55.510 --> 00:06:57.570
cuando la defino no puedo definir

00:06:57.570 --> 00:06:59.370
variables de

00:06:59.370 --> 00:07:01.010
contexto, perdón. Pero yo podía

00:07:01.010 --> 00:07:03.550
cambiarla en el componente aquí. No es el caso

00:07:03.550 --> 00:07:04.450
pero podía ser.

00:07:05.270 --> 00:07:07.690
Hacemos lo siguiente ahora y vamos a agregar

00:07:07.690 --> 00:07:09.570
un componente que no lo habíamos

00:07:09.570 --> 00:07:11.450
visto que es el componente

00:07:11.450 --> 00:07:13.790
T-LOG

00:07:13.790 --> 00:07:14.870
Catcher.

00:07:15.170 --> 00:07:17.290
Capturador de LOG. T-LOG

00:07:18.310 --> 00:07:18.850
Catcher.

00:07:20.550 --> 00:07:21.330
Y aquí

00:07:21.330 --> 00:07:23.450
vamos a agregar un T-LOG RAW que ya lo

00:07:23.450 --> 00:07:24.270
hemos visto.

00:07:25.970 --> 00:07:27.470
Y agrega un

00:07:27.470 --> 00:07:28.830
T-FI

00:07:29.530 --> 00:07:30.130
output

00:07:31.790 --> 00:07:32.390
delimited.

00:07:34.070 --> 00:07:35.390
El T-LOG es para verlo en

00:07:35.390 --> 00:07:37.490
consola y el T delimited es para que

00:07:37.490 --> 00:07:39.110
me cree el archivo LOG con respecto a eso.

00:07:39.130 --> 00:07:41.470
En este caso te podía preguntar por qué

00:07:41.470 --> 00:07:43.870
no uno ese T-LOG Catcher

00:07:43.870 --> 00:07:45.450
con un T

00:07:46.010 --> 00:07:46.790
post job.

00:07:47.530 --> 00:07:49.430
Porque por defecto

00:07:49.430 --> 00:07:51.330
la herramienta entiende que ese

00:07:51.330 --> 00:07:53.670
T-LOG Catcher lo va a ejecutar de último

00:07:53.670 --> 00:07:55.430
cuando termine de ejecutar todo lo su

00:07:55.430 --> 00:07:57.590
job. La herramienta ya entiende

00:07:57.590 --> 00:07:58.810
esa parte. Está

00:07:59.430 --> 00:08:00.770
configurada de esa manera.

00:08:01.770 --> 00:08:03.810
Una el T-LOG Catcher

00:08:03.810 --> 00:08:05.170
con el T-LOG RAW

00:08:06.010 --> 00:08:07.330
y el T-LOG RAW

00:08:09.390 --> 00:08:10.430
únalo con

00:08:10.430 --> 00:08:11.250
este T-FILE

00:08:11.250 --> 00:08:11.950
output.

00:08:14.110 --> 00:08:15.430
Vaya, dele doble click

00:08:15.430 --> 00:08:17.250
al T-LOG Catcher, por favor.

00:08:17.810 --> 00:08:19.290
Y el T-LOG Catcher por

00:08:19.290 --> 00:08:21.110
defecto te especifica

00:08:21.110 --> 00:08:23.390
tres elementos que va a capturar.

00:08:23.970 --> 00:08:25.150
Cualquier error en Java,

00:08:25.290 --> 00:08:26.550
en la ejecución de Java.

00:08:27.850 --> 00:08:29.110
Cualquier TDAI, que no lo he

00:08:29.110 --> 00:08:31.010
visto, TDAI es un componente que mata

00:08:31.010 --> 00:08:33.130
un job. Ya ver si lo vamos a ver más

00:08:33.130 --> 00:08:35.150
tarde. Y captura

00:08:35.150 --> 00:08:36.930
todo lo que esté un componente

00:08:36.930 --> 00:08:39.070
te guarda. Eso está por defecto

00:08:39.070 --> 00:08:41.270
si tú quieres capturar alguno de ellos, pues evidentemente

00:08:41.270 --> 00:08:42.590
los de chuleas.

00:08:43.730 --> 00:08:44.890
Ahí no hay que hacer más nada.

00:08:44.970 --> 00:08:46.290
Vamos al T-FILE output.

00:08:49.290 --> 00:08:51.310
Vamos a decirle que incluya

00:08:51.310 --> 00:08:53.430
el header y con el elemento

00:08:53.430 --> 00:08:55.310
adicional que añada al archivo de

00:08:55.310 --> 00:08:57.170
log. Es decir, que no lo sobrescriba,

00:08:57.370 --> 00:08:59.210
sino que vaya añadiendo cualquier

00:08:59.210 --> 00:09:01.330
error que vaya encontrando. Y yo puedo al

00:09:01.330 --> 00:09:03.190
final, si hay un error, entrar al

00:09:03.190 --> 00:09:05.130
servidor y verificar

00:09:05.130 --> 00:09:05.890
que son,

00:09:07.350 --> 00:09:09.290
que puede estar haciendo ahí o qué error

00:09:09.290 --> 00:09:11.290
pasó, dónde se quedó.

00:09:13.410 --> 00:09:15.450
Por último, mandalo a la

00:09:15.990 --> 00:09:16.910
carpeta C

00:09:16.910 --> 00:09:19.230
dos puntos, en mi caso se llama

00:09:20.150 --> 00:09:20.910
ten

00:09:20.910 --> 00:09:22.350
ten

00:09:23.470 --> 00:09:24.910
y llama el archivo

00:09:26.810 --> 00:09:27.570
logs.

00:09:29.470 --> 00:09:30.650
Voy a colocarle textex

00:09:31.430 --> 00:09:32.870
logs.txt

00:09:32.870 --> 00:09:34.990
logs.txt, es decir, me quedó

00:09:34.990 --> 00:09:36.910
el nombre de archivo

00:09:38.910 --> 00:09:40.030
de esta manera.

00:09:48.970 --> 00:09:50.790
Quedaría de esta manera.

00:09:52.910 --> 00:09:54.470
Bueno, algunos tienen la carpeta

00:09:54.470 --> 00:09:55.170
temporal.

00:09:59.050 --> 00:10:00.270
Dese cuenta que yo adopto

00:10:00.270 --> 00:10:01.810
por estándar normalmente que los

00:10:01.810 --> 00:10:03.790
nombres de carpeta los coloco en minúscula

00:10:03.790 --> 00:10:04.910
y todo lo coloco en minúscula.

00:10:07.610 --> 00:10:08.230
Noto que hay

00:10:08.230 --> 00:10:09.930
algunos que les gusta y me parece bien

00:10:09.930 --> 00:10:12.110
colocar una carpeta o nombre de archivo

00:10:12.110 --> 00:10:12.910
con la primera mayúscula.

00:10:14.010 --> 00:10:16.090
Pero recuerde que si el job lo ejecuta

00:10:16.090 --> 00:10:18.410
en Java, es perdón, en Windows

00:10:20.570 --> 00:10:22.170
y le ejecuta en Windows

00:10:22.170 --> 00:10:23.950
y tiene la carpeta temporal con

00:10:23.950 --> 00:10:26.390
t minúscula en el

00:10:26.390 --> 00:10:28.390
job y t mayúscula

00:10:28.390 --> 00:10:30.250
en la que el nombre carpeta

00:10:30.250 --> 00:10:32.170
en Windows le funciona, pero cuando

00:10:32.170 --> 00:10:34.110
cambia al INUS no le va a funcionar, le va a hacer un

00:10:34.110 --> 00:10:36.070
error. Cuando quiero llegar

00:10:36.070 --> 00:10:37.930
es que usted adopte el estándar. Si empieza

00:10:37.930 --> 00:10:39.970
todo en mayúscula, siempre colócalo lo que

00:10:39.970 --> 00:10:42.490
empieza en mayúscula.

00:10:43.250 --> 00:10:45.330
Bueno, ahora revisamos ya esta

00:10:45.330 --> 00:10:46.970
parte de cómo es, entonces

00:10:46.970 --> 00:10:48.950
esto se ejecuta al final y me va a

00:10:48.950 --> 00:10:50.490
capturar todos los errores entonces.

00:10:51.370 --> 00:10:52.870
Entonces voy a colocar aquí ahora

00:10:52.870 --> 00:10:54.490
otro teguar.

00:10:55.570 --> 00:10:56.590
Aquí abajito.

00:10:58.510 --> 00:11:00.490
Y le voy a colocar el mensaje.

00:11:04.490 --> 00:11:05.070
Iniciando

00:11:06.050 --> 00:11:06.630
lectura

00:11:07.690 --> 00:11:08.270
archivo

00:11:11.010 --> 00:11:11.590
Hadoop.

00:11:14.850 --> 00:11:17.210
Y este por favor

00:11:17.210 --> 00:11:19.630
tómelo de tres.

00:11:25.050 --> 00:11:27.150
Ahora voy a hacer lo siguiente, voy a agregar

00:11:27.150 --> 00:11:29.190
dos componentes. Un componente

00:11:29.190 --> 00:11:31.570
que se llama TH

00:11:31.570 --> 00:11:32.410
ya lo he visto

00:11:32.410 --> 00:11:34.510
DFS input

00:11:34.510 --> 00:11:36.670
TH DFS

00:11:36.670 --> 00:11:37.250
input

00:11:37.250 --> 00:11:39.990
TH DFS

00:11:39.990 --> 00:11:40.970
input

00:11:43.670 --> 00:11:44.990
y coloque

00:11:44.990 --> 00:11:46.830
su contraparte que es

00:11:46.830 --> 00:11:48.510
TH DFS

00:11:49.570 --> 00:11:50.270
output

00:11:50.970 --> 00:11:52.550
que eso no lo hemos visto.

00:11:53.290 --> 00:11:55.050
TH DFS output.

00:11:56.530 --> 00:11:58.850
A ver, entendamos por qué lo hice

00:11:58.850 --> 00:11:59.910
de esta forma.

00:12:01.490 --> 00:12:02.050
Fácilmente,

00:12:02.710 --> 00:12:04.890
y escucho conexión acá, fácilmente yo pude

00:12:04.890 --> 00:12:07.210
haber hecho lo siguiente, ir a cada

00:12:07.210 --> 00:12:09.010
a este TH DFS input

00:12:09.010 --> 00:12:11.130
y hacer la conexión como

00:12:11.130 --> 00:12:13.010
la hice exactamente aquí.

00:12:13.130 --> 00:12:14.870
No la gusta ella por favor.

00:12:15.270 --> 00:12:16.970
Decir, tomar esta conexión aquí

00:12:16.970 --> 00:12:19.110
espera que está demorando para salir, la misma que

00:12:19.110 --> 00:12:21.250
hice, es decir, tomar la conexión de aquí

00:12:21.910 --> 00:12:22.970
y hacer esto

00:12:22.970 --> 00:12:24.750
mismo también con el output.

00:12:25.130 --> 00:12:27.190
Pero cuál es el problema? La eficiencia.

00:12:28.210 --> 00:12:29.290
Es decir, por qué?

00:12:29.550 --> 00:12:31.230
Porque al hacerlo a esa configuración

00:12:31.230 --> 00:12:33.030
en cada uno de los componentes

00:12:33.030 --> 00:12:34.690
cuando entre al input

00:12:34.690 --> 00:12:36.710
se va a conectar a Hadoop.

00:12:36.710 --> 00:12:38.730
Se desconecta y después en la otra

00:12:38.730 --> 00:12:40.710
se va a conectar a Hadoop y después se desconecta.

00:12:41.690 --> 00:12:42.130
Entonces,

00:12:43.010 --> 00:12:44.710
hay dos conexiones hacia Hadoop.

00:12:45.810 --> 00:12:46.750
Ahora, estábamos pensando

00:12:46.750 --> 00:12:48.590
en que esto puede estar en la one,

00:12:48.730 --> 00:12:50.550
o sea, tú tienes tu job,

00:12:50.630 --> 00:12:52.790
lo tienes de pronto en Hadoop

00:12:52.790 --> 00:12:55.150
US y de pronto el

00:12:55.150 --> 00:12:56.430
sistema Hadoop lo tienes en Azure.

00:12:57.010 --> 00:12:58.590
Entonces hay un delay, una latencia

00:12:58.590 --> 00:13:00.670
que voy a tener que ir a buscar ese señor allá

00:13:00.670 --> 00:13:02.370
y devolverme acá. Entonces,

00:13:02.630 --> 00:13:04.810
para evitar eso, ¿qué voy a hacer? Voy a crear

00:13:04.810 --> 00:13:06.330
solamente una conexión

00:13:06.330 --> 00:13:08.890
y esta conexión va a ser aprovechada por estos

00:13:08.890 --> 00:13:10.590
dos señores acá. O sea, solamente

00:13:10.590 --> 00:13:12.110
me conectaría una sola vez.

00:13:13.390 --> 00:13:14.930
Entonces, vamos a configurar

00:13:14.930 --> 00:13:16.810
primero el input, este que está aquí.

00:13:18.530 --> 00:13:19.310
Y este input

00:13:19.310 --> 00:13:20.610
voy a decirle,

00:13:20.610 --> 00:13:22.090
usar conexión existente

00:13:22.810 --> 00:13:25.050
y voy a usar como component list

00:13:25.050 --> 00:13:27.070
HDFS Connection.

00:13:33.910 --> 00:13:34.490
Entonces,

00:13:34.610 --> 00:13:36.130
vayas aquí donde dice nombre

00:13:36.130 --> 00:13:38.290
de archivo, seguramente se va a conectar

00:13:38.290 --> 00:13:39.950
al sistema de Hadoop

00:13:39.950 --> 00:13:42.010
y le va a mostrar el sistema de

00:13:42.010 --> 00:13:43.450
fichero que está allá. Vamos a ver,

00:13:43.570 --> 00:13:44.750
efectivamente aquí está.

00:13:45.910 --> 00:13:47.090
Y voy a utilizar

00:13:47.090 --> 00:13:48.650
el primer ejemplo con

00:13:48.650 --> 00:13:51.050
producción.csv, este que aquí.

00:13:52.210 --> 00:13:52.430
Ok.

00:13:54.310 --> 00:13:55.290
Esta versión

00:13:55.290 --> 00:13:56.390
de

00:13:56.390 --> 00:13:57.050
Hadoop,

00:13:57.050 --> 00:13:58.730
del open source,

00:13:59.310 --> 00:14:00.870
los componentes de input

00:14:00.870 --> 00:14:03.230
son para archivos CSV.

00:14:04.230 --> 00:14:05.050
En el

00:14:05.050 --> 00:14:07.010
talegue tuyo tienes para leer en

00:14:07.010 --> 00:14:09.070
otro formato. O sea, este porque es gratuito

00:14:09.070 --> 00:14:11.050
y pues habría que

00:14:14.210 --> 00:14:15.150
nada más tiene

00:14:15.150 --> 00:14:16.190
nada más esto que está aquí.

00:14:16.870 --> 00:14:19.250
Ahora, estos tipos de ficheros te lo voy a explicar

00:14:19.250 --> 00:14:21.130
más adelante, porque más adelante

00:14:21.130 --> 00:14:22.690
voy a meterme un poco con parquet,

00:14:23.930 --> 00:14:25.010
que no tengo

00:14:25.010 --> 00:14:27.270
componentes para generar parquet,

00:14:27.610 --> 00:14:28.930
pero en la versión de talegue tuyo si tienes

00:14:28.930 --> 00:14:30.150
para parquet.

00:14:30.830 --> 00:14:32.770
Dejemos como text y hagamos lo siguiente,

00:14:32.970 --> 00:14:34.950
el separador de esa producción,

00:14:35.730 --> 00:14:36.850
permítame y lo confirmo,

00:14:37.010 --> 00:14:38.110
si no estoy mal, es coma.

00:14:39.650 --> 00:14:40.810
Voy a acceder aquí

00:14:41.890 --> 00:14:42.930
a ten,

00:14:44.130 --> 00:14:45.290
producción clit derecho,

00:14:45.610 --> 00:14:47.310
abrir, editar aquí

00:14:48.130 --> 00:14:49.490
y está separado

00:14:49.490 --> 00:14:51.190
por coma. Entonces, le voy a

00:14:51.190 --> 00:14:52.990
decir que el separador que está

00:14:52.990 --> 00:14:54.050
con punto y coma

00:14:54.950 --> 00:14:57.090
va con coma. Es importante que

00:14:57.090 --> 00:14:59.410
definas a nivel de estándar tu separador,

00:15:00.310 --> 00:15:00.830
porque

00:15:01.830 --> 00:15:02.870
así acostumbras

00:15:02.870 --> 00:15:05.130
si hay una memoria en que siempre vamos a ver el mismo.

00:15:05.950 --> 00:15:07.090
Y ahora hay un

00:15:07.090 --> 00:15:09.010
header, entonces le voy a colocar

00:15:09.010 --> 00:15:10.790
aquí uno.

00:15:11.990 --> 00:15:12.970
En esta parte de

00:15:12.970 --> 00:15:14.870
codificación, aquí puedes

00:15:14.870 --> 00:15:16.630
usar la codificación de entrada,

00:15:18.470 --> 00:15:18.990
asegura que

00:15:18.990 --> 00:15:20.990
la codificación de entrada sea la misma de salida,

00:15:21.150 --> 00:15:23.150
porque si no puedes dañar el formato

00:15:23.710 --> 00:15:24.610
del archivo.

00:15:24.770 --> 00:15:27.050
Dejémosla, porque como no he usado ninguna, está tomando

00:15:27.050 --> 00:15:29.250
la defecto, que es esa que aparece ahí

00:15:29.250 --> 00:15:30.110
ISO 89.

00:15:31.010 --> 00:15:32.850
Pero recuerda que esa es

00:15:32.850 --> 00:15:34.970
muy fundamental cuando tienes

00:15:34.970 --> 00:15:37.030
portugués y cuando tienes español,

00:15:37.190 --> 00:15:38.030
que es el idioma de nosotros.

00:15:38.830 --> 00:15:40.930
La de compresión, ahora te la muestro cómo es el cuento.

00:15:41.110 --> 00:15:42.510
Esa parte de compresión de data.

00:15:44.330 --> 00:15:44.790
Ahora,

00:15:44.910 --> 00:15:47.630
¿Qué quiero hacer? Vamos a hacer algo muy sencillo.

00:15:48.010 --> 00:15:49.170
Vamos a

00:15:49.170 --> 00:15:49.610
ver,

00:15:49.610 --> 00:15:51.490
este archivo tiene algunos

00:15:51.490 --> 00:15:53.870
problemas porque hay unos espacios en blanco.

00:15:54.630 --> 00:15:56.330
Entonces vamos a eliminar esos espacios en blanco,

00:15:56.530 --> 00:15:58.690
es decir, este job

00:15:58.690 --> 00:16:00.410
que voy a usar sobre Big Data,

00:16:00.770 --> 00:16:02.530
lo que va a hacer entonces es lo siguiente.

00:16:03.990 --> 00:16:04.390
Agregue

00:16:04.390 --> 00:16:06.470
por favor un T-Map

00:16:06.470 --> 00:16:08.810
aquí y ya te voy a explicar un par de cosas.

00:16:09.130 --> 00:16:11.170
Un T-Map.

00:16:15.510 --> 00:16:16.470
Y conecta

00:16:16.470 --> 00:16:18.530
ahora, por favor, se me escapaba

00:16:18.530 --> 00:16:20.410
el T-Warp, conéctalo

00:16:20.410 --> 00:16:22.470
al HDFS input.

00:16:24.530 --> 00:16:26.470
No conecto. Con un disparador

00:16:27.070 --> 00:16:28.470
o un component OK, perdón.

00:16:30.070 --> 00:16:31.830
Un component OK.

00:16:34.070 --> 00:16:34.710
Un disparador

00:16:34.710 --> 00:16:36.150
o un component OK.

00:16:38.290 --> 00:16:40.630
Si coloco un sub-job OK, la única diferencia

00:16:40.630 --> 00:16:41.850
es que el T-Warp queda

00:16:41.850 --> 00:16:43.690
en un sub-job diferente.

00:16:44.190 --> 00:16:46.390
Pero tienes que tener en cuenta que es la misma idea

00:16:46.390 --> 00:16:48.030
siendo que un component queda en el mismo

00:16:48.030 --> 00:16:49.870
sub-job y con un sub-job OK

00:16:49.870 --> 00:16:51.770
me quedan los dos en dos sub-jobs diferentes.

00:16:52.830 --> 00:16:54.190
Y aquí es para entender

00:16:54.190 --> 00:16:55.850
cómo funciona la herramienta.

00:16:57.730 --> 00:16:59.550
cuando el component... No.

00:17:00.790 --> 00:17:01.250
Porque

00:17:01.250 --> 00:17:03.730
es que hay unos componentes que no

00:17:03.730 --> 00:17:04.950
se conectan con main.

00:17:05.630 --> 00:17:07.670
Es una cuestión más de capricho de la forma

00:17:07.670 --> 00:17:09.270
en que funciona el talent.

00:17:09.370 --> 00:17:11.270
Pero si le conecto con un component OK,

00:17:11.270 --> 00:17:12.610
le conecto, ¿verdad?

00:17:14.450 --> 00:17:15.310
El main no.

00:17:15.450 --> 00:17:16.910
Lo que pasa es que hay

00:17:16.910 --> 00:17:18.630
unos componentes que no...

00:17:18.630 --> 00:17:20.230
Hay unos componentes que son con main,

00:17:20.790 --> 00:17:22.310
unos que son con iterate

00:17:22.310 --> 00:17:24.210
y unos que son con disparadores.

00:17:25.210 --> 00:17:26.210
Es más entender

00:17:26.210 --> 00:17:28.990
o saber, no entender, porque ya es un poco más

00:17:28.990 --> 00:17:31.150
de capricho de por qué lo conecto

00:17:31.150 --> 00:17:32.510
con main o con component OK.

00:17:32.610 --> 00:17:35.270
Ya es un poco más de capricho de la herramienta de por qué lo hizo así.

00:17:37.590 --> 00:17:39.290
Listo. Y aquí viene

00:17:39.290 --> 00:17:41.690
bueno, lo fundamental de la herramienta.

00:17:41.890 --> 00:17:42.430
Listo.

00:17:42.670 --> 00:17:45.690
Dese cuenta que aquí tengo un HDFS

00:17:45.690 --> 00:17:46.110
input.

00:17:46.810 --> 00:17:49.770
Si el componente es un HDFS

00:17:49.770 --> 00:17:51.570
input o el componente

00:17:51.570 --> 00:17:53.490
es un

00:17:53.490 --> 00:17:55.190
T-Spark

00:17:55.190 --> 00:17:57.570
o en su defecto, tú has cambiado

00:17:57.570 --> 00:17:59.070
en la versión del estudio la

00:17:59.070 --> 00:18:01.270
ejecución estándar a una ejecución sobre

00:18:01.270 --> 00:18:03.390
Spark. Eso lo que va a hacer

00:18:03.390 --> 00:18:05.350
entonces es que va a mandar,

00:18:05.450 --> 00:18:07.250
va a generar un script y lo va a

00:18:07.250 --> 00:18:09.490
mandar para que se ejecute, en este caso,

00:18:09.690 --> 00:18:10.510
hacia MacReduce.

00:18:11.170 --> 00:18:13.210
En pocas palabras, cuando yo conecto

00:18:13.210 --> 00:18:15.290
esto de aquí para adelante,

00:18:16.830 --> 00:18:17.230
todo esto

00:18:17.230 --> 00:18:18.990
que está hacia elante, él va a generar un script

00:18:18.990 --> 00:18:21.190
sobre Java y lo va a mandar a

00:18:21.190 --> 00:18:23.210
ejecutar sobre el Hadoop, en este

00:18:23.210 --> 00:18:24.430
caso, sobre MacReduce.

00:18:25.690 --> 00:18:27.270
¿Qué hace esto? Que te evita

00:18:27.270 --> 00:18:29.210
que tú tengas que escribir ese script.

00:18:29.890 --> 00:18:31.070
Si el componente, vuelvo

00:18:31.070 --> 00:18:33.570
repito, si el componente es T-HDFS

00:18:33.570 --> 00:18:34.030
input,

00:18:34.950 --> 00:18:36.650
si el componente es

00:18:36.650 --> 00:18:38.490
T-Spark, todo lo que

00:18:38.490 --> 00:18:40.170
usted tome de ahí hacia adelante,

00:18:40.390 --> 00:18:42.290
él va a generar un script para mandarlo

00:18:42.290 --> 00:18:43.990
y ejecutarlo con MacReduce.

00:18:44.190 --> 00:18:45.530
Eso es lo que va a hacer él.

00:18:46.790 --> 00:18:48.270
De igual forma, también te funciona,

00:18:48.310 --> 00:18:50.070
que esto no lo tenemos, es que cambies la

00:18:50.070 --> 00:18:51.830
ejecución, es decir, aquí en el job,

00:18:52.270 --> 00:18:54.070
aquí en el job, esta parte de aquí,

00:18:54.730 --> 00:18:55.890
aquí está

00:18:58.490 --> 00:18:58.930
RuneJob,

00:18:59.170 --> 00:18:59.750
en el RuneJob,

00:19:00.090 --> 00:19:02.190
la versión Talent Studio te va a ofrecer,

00:19:02.190 --> 00:19:04.090
dependiendo de lo que hayas comprado,

00:19:04.230 --> 00:19:05.870
te va a ofrecer para que tú digas, o lo

00:19:05.870 --> 00:19:07.910
ejecuto estándar o lo ejecuto sobre Spark.

00:19:09.010 --> 00:19:10.610
Y él te hace la conversión automática.

00:19:11.110 --> 00:19:12.230
Esto es lo principal de la

00:19:12.890 --> 00:19:14.270
herramienta, que me genera

00:19:14.270 --> 00:19:15.910
los scripts para ser ejecutado sobre el

00:19:15.910 --> 00:19:17.190
MacReduce o sobre un sistema Spark.

00:19:17.710 --> 00:19:19.930
Eso es lo fundamental. Ya lo demás, sigue

00:19:19.930 --> 00:19:21.550
siendo lo que es una herramienta de TL.

00:19:22.370 --> 00:19:23.930
Tú le agregas los componentes

00:19:23.930 --> 00:19:25.850
como tú quieras y él te genera el script

00:19:25.850 --> 00:19:28.190
para que se ejecute sobre el clóter de Hadoop o clóter de Spark.

00:19:28.910 --> 00:19:30.190
Para contar, eso es lo que hace la

00:19:30.190 --> 00:19:32.190
herramienta y que ayuda mucho

00:19:32.190 --> 00:19:33.910
para no tener que escribir tanto poder.

00:19:35.910 --> 00:19:36.330
Listo,

00:19:36.710 --> 00:19:38.210
conecta ahora este tema

00:19:38.210 --> 00:19:40.330
por favor hacia

00:19:40.330 --> 00:19:43.590
el HDF Output

00:19:43.590 --> 00:19:44.470
y vamos

00:19:44.470 --> 00:19:45.690
a llamarlo aquí

00:19:47.370 --> 00:19:48.190
Salida Curada.

00:19:51.790 --> 00:19:52.510
Voy a colocar

00:19:52.510 --> 00:19:54.190
a otro The War de este lado.

00:19:56.750 --> 00:19:58.150
Lo voy a comentar con

00:19:58.150 --> 00:20:00.390
Component OK desde el Output

00:20:00.390 --> 00:20:02.170
con Component OK

00:20:02.170 --> 00:20:04.350
y le voy a colocar el mensaje al The War

00:20:04.350 --> 00:20:06.330
Archivo Curado o Limpiado

00:20:06.330 --> 00:20:08.150
de forma correcta.

00:20:09.470 --> 00:20:10.430
De tipo 3.

00:20:12.710 --> 00:20:13.350
Archivo

00:20:15.390 --> 00:20:16.030
Curado

00:20:16.030 --> 00:20:18.350
de forma correcta.

00:20:18.650 --> 00:20:20.070
Esto lo hago para generar

00:20:20.070 --> 00:20:22.130
los 3 o es su efecto

00:20:22.130 --> 00:20:24.370
vigilar los errores.

00:20:24.510 --> 00:20:26.130
Curado de forma correcta.

00:20:28.150 --> 00:20:29.510
Lo que ya no hemos configurado

00:20:29.510 --> 00:20:30.750
se me escapó una

00:20:32.370 --> 00:20:34.470
configuración en el

00:20:34.470 --> 00:20:35.870
HDFS Input, se me

00:20:36.890 --> 00:20:37.370
olvidó.

00:20:38.290 --> 00:20:39.510
Listo, vamos aquí

00:20:39.510 --> 00:20:41.910
se me escapó en este HDFS Input

00:20:41.910 --> 00:20:43.630
doble clic por favor.

00:20:44.410 --> 00:20:45.350
Doble clic.

00:20:46.930 --> 00:20:48.070
Y recordará, vamos a hacerlo

00:20:48.070 --> 00:20:49.990
de forma diferente para que usted escoja

00:20:49.990 --> 00:20:51.170
lo que usted desee.

00:20:52.010 --> 00:20:53.410
Si recordará que el día de ayer

00:20:54.150 --> 00:20:55.130
para recordarlo

00:20:55.130 --> 00:20:57.130
el día de ayer tomamos este

00:20:58.130 --> 00:20:59.490
archivito, buscamos

00:20:59.490 --> 00:21:01.310
el XML y eso lo que hacía

00:21:01.310 --> 00:21:02.650
era que me devolvía, ¿cierto?

00:21:03.350 --> 00:21:05.030
Vamos a hacerlo un poco diferente ahora.

00:21:06.010 --> 00:21:06.930
¿Cómo lo hacemos diferente?

00:21:09.590 --> 00:21:11.550
Ah, no, pero este componente no me va

00:21:11.550 --> 00:21:13.510
a permitir hacer eso.

00:21:15.450 --> 00:21:16.370
Ah, sí, pero si es así.

00:21:17.490 --> 00:21:19.450
¿Qué pasa? Que el esquema

00:21:19.450 --> 00:21:21.190
que quiero está en el

00:21:21.190 --> 00:21:23.370
metadata. Entonces

00:21:23.370 --> 00:21:25.170
donde dice esquema

00:21:25.170 --> 00:21:27.210
hay un combo voz, le da clic ahí

00:21:27.210 --> 00:21:29.370
y le dice repositorio.

00:21:30.390 --> 00:21:31.190
Le dice, bueno aquí

00:21:31.190 --> 00:21:32.370
que cambia el yes.

00:21:33.290 --> 00:21:35.790
Y busca, le aparece un

00:21:35.790 --> 00:21:37.270
text file y un botón

00:21:37.270 --> 00:21:38.910
dele clic en el botón

00:21:38.910 --> 00:21:41.150
y le va a aparecer toda la metadata que tiene

00:21:41.670 --> 00:21:42.150
configurada.

00:21:45.190 --> 00:21:47.050
Y en esa metadata va a buscar

00:21:47.050 --> 00:21:49.330
en el archivo delimitado, producción

00:21:49.330 --> 00:21:51.330
que es lo que tenemos, y da clic en

00:21:51.330 --> 00:21:53.770
metadata. Y eso hace exactamente

00:21:53.770 --> 00:21:55.810
lo mismo de ayer, es decir

00:21:55.810 --> 00:21:57.330
ayer lo que hicimos fue

00:21:57.890 --> 00:21:59.370
está listo.

00:21:59.550 --> 00:22:01.670
Listo, listo, vamos a ver, claro, cómo no.

00:22:02.110 --> 00:22:03.090
Está, vea ese

00:22:03.790 --> 00:22:05.470
HDFS input y se va donde dice

00:22:06.010 --> 00:22:06.490
esquema.

00:22:07.470 --> 00:22:08.830
La parte de esquema.

00:22:09.270 --> 00:22:10.710
Y al ladito está un combo voz.

00:22:11.910 --> 00:22:12.950
Ese combo voz

00:22:12.950 --> 00:22:15.390
lo abre y escoge la

00:22:15.390 --> 00:22:17.670
opción repositorio.

00:22:18.570 --> 00:22:19.290
Aquí le dice

00:22:19.290 --> 00:22:21.290
que si desea guardar, yes.

00:22:22.210 --> 00:22:23.390
Acto seguido le aparece

00:22:23.390 --> 00:22:25.590
un casilla de texto y un botón

00:22:25.590 --> 00:22:27.570
al ladito, le da al botón

00:22:27.570 --> 00:22:29.510
y le va a aparecer el

00:22:29.510 --> 00:22:31.250
repositorio de los elementos

00:22:32.270 --> 00:22:33.510
que están configurados

00:22:33.510 --> 00:22:34.070
en la metadata.

00:22:35.770 --> 00:22:37.650
Ahí va a buscar el archivo de la metadata

00:22:37.650 --> 00:22:39.290
que en este caso estaría en file delimited

00:22:40.350 --> 00:22:41.530
producción y escoge

00:22:41.530 --> 00:22:42.790
la opción metadata.

00:22:46.610 --> 00:22:47.130
Ok.

00:22:48.230 --> 00:22:49.270
Y yes.

00:22:53.150 --> 00:22:54.910
Y si vas aquí en editar esquema,

00:22:55.130 --> 00:22:56.810
debería aparecer el esquema

00:22:56.810 --> 00:22:59.250
que te agregó que es exactamente el de

00:22:59.250 --> 00:23:00.770
producción que tenía ya.

00:23:06.590 --> 00:23:07.210
Bueno, mientras

00:23:07.210 --> 00:23:09.070
algunos van terminando ahí, la idea

00:23:09.070 --> 00:23:11.150
principal es que entienda cómo

00:23:11.150 --> 00:23:12.970
es el funcionamiento y la arquitectura

00:23:12.970 --> 00:23:14.610
de la herramienta a nivel de viz data.

00:23:15.090 --> 00:23:16.650
Si el componente de entrada

00:23:16.650 --> 00:23:18.510
es un HDFS input

00:23:18.510 --> 00:23:20.570
o un TSPAR, lo que hace

00:23:20.570 --> 00:23:22.330
es que en el caso de

00:23:22.330 --> 00:23:24.170
TFS input, el generador

00:23:24.170 --> 00:23:26.430
lo manda a ejecutar contra

00:23:27.450 --> 00:23:27.930
MacReduce.

00:23:28.670 --> 00:23:30.270
Y si es TSPAR,

00:23:30.350 --> 00:23:32.330
pues lo mandaría a ejecutar contra el cluster

00:23:32.330 --> 00:23:34.730
de SPAR que tenga configurado.

00:23:35.830 --> 00:23:36.190
Listo.

00:23:36.450 --> 00:23:38.190
Vamos de manera muy sencilla

00:23:38.190 --> 00:23:39.970
al TMAG. Ya de aquí en adelante,

00:23:40.110 --> 00:23:42.610
pues es lo que hemos aprendido de cualquier herramienta

00:23:42.610 --> 00:23:44.430
que haya visto. Vamos aquí entonces

00:23:44.430 --> 00:23:46.610
al TMAG.

00:23:50.710 --> 00:23:52.690
Agrega entonces una variable

00:23:52.690 --> 00:23:53.850
aquí.

00:23:54.390 --> 00:23:56.050
Manda season

00:23:57.770 --> 00:23:58.890
a este lado.

00:24:01.210 --> 00:24:02.510
Y después que creas

00:24:02.510 --> 00:24:04.270
una variable, no hagas la otra,

00:24:04.710 --> 00:24:05.910
después que creas la primera,

00:24:06.930 --> 00:24:08.490
suelta la segunda para que te de

00:24:08.490 --> 00:24:09.990
la configuración de ese señor.

00:24:09.990 --> 00:24:11.990
Suelta la segunda aquí, suelta aquí

00:24:12.730 --> 00:24:14.370
y haz de cuenta que la entrada

00:24:14.370 --> 00:24:15.990
ya corresponde con la salida.

00:24:17.510 --> 00:24:18.310
O sea, lo mismo que

00:24:18.310 --> 00:24:20.330
entra en nombre, sale

00:24:20.330 --> 00:24:22.150
en salida. No me te va a confiar,

00:24:22.250 --> 00:24:24.210
pero eso es cuando ya por lo

00:24:24.210 --> 00:24:25.950
menos tengo una variable creada.

00:24:26.910 --> 00:24:27.950
Al nombre de variable, acá

00:24:27.950 --> 00:24:29.490
le va a colocar season.

00:24:32.990 --> 00:24:34.010
Y lo único que va a hacer

00:24:34.010 --> 00:24:35.650
en la expresión

00:24:35.650 --> 00:24:37.930
es agregarle a cada una,

00:24:37.930 --> 00:24:39.850
le va a dar punto

00:24:40.830 --> 00:24:41.310
trim.

00:24:43.370 --> 00:24:46.230
Trim para quitar los espacios que están al principio

00:24:46.230 --> 00:24:48.230
y al final. Aquí está trim.

00:24:49.730 --> 00:24:50.210
Ok.

00:24:51.450 --> 00:24:53.030
Y aquí le vamos a dar trim.

00:24:53.710 --> 00:24:55.630
Es claro que para la cantidad de registro

00:24:55.630 --> 00:24:57.770
que tiene ese señor, pues eso

00:24:57.770 --> 00:24:59.930
demora más ejecutándolo sobre un sistema

00:25:03.090 --> 00:25:03.570
evidata.

00:25:03.970 --> 00:25:05.910
Pero en este caso tenemos un cluster

00:25:05.910 --> 00:25:07.930
evidata muy, muy pequeño con un solo data no.

00:25:11.510 --> 00:25:12.050
para lo que queremos

00:25:12.050 --> 00:25:13.910
hacer, pues mucho.

00:25:19.570 --> 00:25:20.250
Pase por favor

00:25:20.250 --> 00:25:22.090
entonces las primeras tres columnas

00:25:22.090 --> 00:25:23.290
de acá, las pasa

00:25:23.950 --> 00:25:25.170
a la salida.

00:25:26.130 --> 00:25:27.990
El season y el clock lo toma de las

00:25:27.990 --> 00:25:29.750
variables que definió.

00:25:32.390 --> 00:25:33.890
Y el área y

00:25:33.890 --> 00:25:42.110
la reducción, la suelta de este lado.

00:25:46.750 --> 00:25:48.370
Ahí faltaría el nombre Eva

00:25:48.370 --> 00:25:50.050
o nuestra para ver.

00:25:50.170 --> 00:25:52.650
Y suelta, ahí está, listo. Perfecto.
Big Data - jhon-megf-20241010-232630

Search

Quick Links

Use Cases

DaDesktop