Talend Big Data Integration y Ecosistema de Talend Videos

                WEBVTT

00:00:00.000 --> 00:00:05.440
como Hadoop Aksa en el menú metadata de repositorio. Y ahora vamos a hacer una

00:00:05.440 --> 00:00:10.460
conexión hacia el sistema de ficheros. ¿Cómo así? Váyase a la conexión del

00:00:10.460 --> 00:00:14.600
clúster por favor y le da clic derecho. En pocas palabras se conecta donde

00:00:14.600 --> 00:00:21.080
dice Hadoop Aksa. Y note que hay varias opciones sobre las cuales

00:00:21.080 --> 00:00:25.200
pues puede usted configurar sobre ese clúster. Una de las opciones es Hive.

00:00:25.360 --> 00:00:30.740
Recordará que a nivel teórico yo le había dicho que Hive es una base de datos que está

00:00:30.740 --> 00:00:35.260
cimentada sobre tecnología de Big Data. En versión 3 hacia abajo se

00:00:35.260 --> 00:00:39.480
cimentaba sobre Hadoop y en versión 3 hacia arriba se cimenta sobre Spark.

00:00:39.980 --> 00:00:46.120
Entonces yo podía crear un Hive que se conecte hacia ese Hadoop. En pocas

00:00:46.120 --> 00:00:53.280
palabras que almacene los datos en ese Hadoop. La otra es un HBase. HBase se

00:00:53.280 --> 00:00:59.260
escapaba aunque no es tan popular. HBase es una base de datos no SQL que

00:00:59.260 --> 00:01:05.040
ejecuta directamente sobre Hadoop. Imagínense un MongoDB pero acá este

00:01:05.040 --> 00:01:09.540
HBase el sistema de almacenamiento lo mantiene el sistema de fichero HDFS.

00:01:10.520 --> 00:01:16.520
Y hay un H Catalog que ese H Catalog en el sistema de lo que es Hadoop es

00:01:16.520 --> 00:01:20.580
como si fuera un diccionario de datos. Es decir guarda los datos a

00:01:20.580 --> 00:01:24.220
vez de tablas de cuáles son los archivos que están en el sistema Hadoop en el

00:01:24.220 --> 00:01:29.900
clóster y que digamos que particiones están en cada uno de los diferentes

00:01:29.900 --> 00:01:34.260
nodos que tengan. Y la última que es la que me interesa es crear una

00:01:34.260 --> 00:01:38.720
conexión hacia el sistema de fichero es decir hacia el sistema HDFS. Entonces lo

00:01:38.720 --> 00:01:42.420
que me interesa en la cuarta vamos entonces a la cuarta que dice crear

00:01:42.420 --> 00:01:51.140
HDFS. Vamos a llamarla entonces HDFS Slash AXA. Vamos a darle aquí Next.

00:01:54.240 --> 00:02:00.340
Y aquí le pregunta sobre la conexión hacia el sistema algunas configuraciones

00:02:00.340 --> 00:02:04.560
por defecto que es las configuraciones que estaban en el HDFS input en el

00:02:04.560 --> 00:02:10.080
cual el separador es Slash N y el digamos el carácter de

00:02:10.080 --> 00:02:13.720
comparación de los archivos que voy a almacenar es punto y coma. Esto es la

00:02:13.720 --> 00:02:17.080
configuración por defecto pero yo la puedo configurar cuando utilice por

00:02:17.080 --> 00:02:22.540
ejemplo algún tipo HDFS input por ejemplo. Entonces déle aquí un cheque

00:02:22.540 --> 00:02:28.340
debería conectarse. No hay problemas listo la conexión es exitosa. El caso

00:02:28.340 --> 00:02:34.000
de Brenda estás por no por ahí no por ahí no. Brenda cierra un momento.

00:02:34.000 --> 00:02:38.700
Cierra donde está. Sí, cierra, cierra, cierra eso.

00:02:39.440 --> 00:02:43.820
Situate en la conexión que creaste de Hadut. Es decir situate en Hadut AXA esa

00:02:43.820 --> 00:02:46.840
que está ahí. Dale clic derecho ahora por favor

00:02:47.860 --> 00:02:52.200
y escoge la cuarta opción que es crear HDFS es decir una conexión hacia

00:02:52.200 --> 00:02:58.140
el sistema de fichero. Llámala ahora HDFS Underscore AXA. Dale Next por

00:02:58.140 --> 00:03:00.920
favor. Dale check para ver de no debería haber ningún error en la

00:03:00.920 --> 00:03:06.360
conexión. Check. Ahí está. Perfecto. Dale OK y al final dale Finish. Entonces

00:03:06.360 --> 00:03:13.280
iremos por ahí por Finish. Y si expande el cluster debería aparecer el

00:03:13.900 --> 00:03:17.780
sistema de ficheros. La conexión en pocas palabras.

00:03:19.260 --> 00:03:22.700
Para probar esta conexión vamos a hacer lo siguiente entonces.

00:03:24.200 --> 00:03:28.000
Vamos a crear sobre la carpeta Hadut. Vamos a crear un nuevo job.

00:03:28.680 --> 00:03:37.200
Crear job. Y este job lo vamos a llamar Job Descargar Fichero

00:03:37.200 --> 00:03:43.560
Underscore Hadut. Descargar Fichero Underscore Hadut.

00:03:49.120 --> 00:03:54.920
Vamos a agregar los siguientes componentes. Vamos a agregar un HDFS

00:03:54.920 --> 00:03:58.340
Get. HDFS Get.

00:03:59.760 --> 00:04:02.800
Y vamos a agregar un T-Mesas Boss.

00:04:08.780 --> 00:04:12.580
Conecte el T-HF Get con el Mesas Boss.

00:04:15.520 --> 00:04:19.640
Y vamos a configurar entonces la conexión del... Vamos a configurar el

00:04:19.640 --> 00:04:23.780
T-HFS Get. Para configurarlo recuerde que hay que darle doble clic al

00:04:23.780 --> 00:04:27.440
componente. Justamente en el gráfico del componente. Dejemos darle doble clic.

00:04:27.660 --> 00:04:31.400
Y ahora como... Presta atención como la conexión la tengo es sobre la

00:04:31.400 --> 00:04:35.100
metadata. Es decir la conexión que ya configuré tengo que hacerlo de esta

00:04:35.100 --> 00:04:39.280
manera. Si se nota en la configuración aparece un property tie.

00:04:40.460 --> 00:04:43.860
Y aparece la configuración built-in. Es decir que la vamos a construir.

00:04:45.020 --> 00:04:49.520
Vamos a darle clic en ese combo Boss y vamos a decirle que la

00:04:49.520 --> 00:04:54.960
configuración la vamos a tomar del repositorio. Dele clic en repositorio y

00:04:54.960 --> 00:05:02.120
le cambio un poco la interfaz. Le aparece un text file. Dele clic ahora

00:05:02.120 --> 00:05:06.300
en el botoncito que está al final que son uno de los tres puntos. Y le va a

00:05:06.300 --> 00:05:10.300
llevar a la metadata para que coja la conexión que ya configuró

00:05:10.300 --> 00:05:19.460
previamente. Entonces aquí está Hadut Cluster. Baja. Sigue bajando y va a

00:05:20.680 --> 00:05:25.580
conectar con la conexión que se llama HDFS AXA. ¿Por qué? Porque lo que quiero

00:05:25.580 --> 00:05:31.980
acceder al sistema de ficheros. Le da clic a HDFS AXA y le da OK.

00:05:32.540 --> 00:05:37.900
Listo. Él hace la configuración necesaria y lo único que usted debe

00:05:37.900 --> 00:05:44.720
hacer es definir cuál es el archivo que va a descargar. Entonces el caso

00:05:44.720 --> 00:05:50.360
de Brenda que teníamos un problemita Brenda asegúrese que acá ah no listo no

00:05:50.360 --> 00:05:53.900
es necesario que venga. No es necesario porque no estamos usando

00:05:53.900 --> 00:05:59.900
barial de contexto que venga. Ahí perdí. Fui yo. Ahora sí vamos a darle en en la

00:05:59.900 --> 00:06:04.720
configuración que dice HDFS Directory en los tres puntitos

00:06:05.360 --> 00:06:08.820
y escoja el archivo que vamos a descargar. En este caso pues

00:06:09.960 --> 00:06:14.240
descarguese producción nuevamente. Es para hacer la prueba. Perdón. Aquí

00:06:14.240 --> 00:06:18.580
le preguntas el directorio. Perdón. Tiene que coger el AXA, no el archivo.

00:06:19.080 --> 00:06:24.360
AXA. Le pide ahora el directorio donde quiere hacer la

00:06:24.360 --> 00:06:28.400
la descarga. Sería local directorio. Entonces voy a

00:06:28.400 --> 00:06:32.440
darle clic aquí en los tres puntos y lo voy a mandar aquí a temporal.

00:06:37.740 --> 00:06:42.000
Aquí especifica la acción. En este caso entonces la acción le ofrecen

00:06:42.000 --> 00:06:46.820
tres. Una que es crear, sobre escribir y agregar. En la PEN lo que va a hacer es

00:06:46.820 --> 00:06:51.260
que va a sumar registros del archivo inicial que tengas al archivo que

00:06:51.260 --> 00:06:55.400
vaya a descargar. En este caso vamos a coger sobre escribir por si las dudas

00:06:55.400 --> 00:06:59.880
y vamos a especificar ahora sí el nombre del archivo que quiero

00:06:59.880 --> 00:07:06.640
descargar. Entonces voy a descargar producción. Se llama production.cv

00:07:06.640 --> 00:07:13.520
y lo voy a descargar con el nombre production.copy

00:07:13.520 --> 00:07:21.500
production.copy o production.score.copy

00:07:21.500 --> 00:07:27.620
ccv. Perfecto.

00:07:28.200 --> 00:07:34.140
Tengo todavía un punto rojo indicando como si hubiese existido un

00:07:34.140 --> 00:07:36.600
problema de configuración. No lo veo

00:07:39.760 --> 00:07:42.900
directamente. Voy a acceder un momento aquí al

00:07:43.460 --> 00:07:45.600
al code para ver si me está marcando algún error.

00:07:47.740 --> 00:07:51.740
No, no tengo ningún error. De pronto es que me tocaría ejecutarlo para ver

00:07:51.740 --> 00:07:55.940
qué raro. Al final configure el message box con el mensaje que usted quiera

00:07:56.460 --> 00:07:59.020
colocando archivo descargado correctamente.

00:07:59.680 --> 00:08:05.140
Por ejemplo, recuerde que en este caso como cuando son string la mayor parte de

00:08:05.140 --> 00:08:08.600
los casos tiene colocar comillas doble. El único caso que hemos utilizado un

00:08:08.600 --> 00:08:12.660
string sin comillas doble es para definir los contextos.

00:08:13.200 --> 00:08:19.040
Archivo descargado correctamente. No entiendo.

00:08:20.220 --> 00:08:23.980
Voy a adelantarme un poquito a ejecutar este señor acá para ver si

00:08:23.980 --> 00:08:28.460
me va a marcar algún error porque ese punto rojo me indica como

00:08:30.620 --> 00:08:35.420
aquí tengo el error. Dice este componente.

00:08:42.680 --> 00:08:47.340
Un momento y leí el error. Este componente tiene una salida.

00:08:51.340 --> 00:08:57.320
Creo que el problema se forma porque no debí conectarlo

00:08:57.320 --> 00:08:59.920
directamente como fila sino como un componente.

00:09:01.120 --> 00:09:06.720
Sí, qué pena. Ahí fue que la línea, por favor, haga lo siguiente, no acepta.

00:09:07.040 --> 00:09:12.520
A ver, el error cuál es. El error es que al conectar la línea con may él

00:09:12.520 --> 00:09:16.360
espera que el hfs get tenga una salida pero en realidad no está

00:09:16.360 --> 00:09:19.340
sacando ningún elemento. Entonces ese es el warning que está.

00:09:19.900 --> 00:09:23.960
Seleccione por favor la fila, dale click en row 1, la borra con

00:09:23.960 --> 00:09:29.320
suprimir y la vuelve a conectar con disparador y coloque on-component

00:09:29.320 --> 00:09:35.800
ok y la conecta, por favor. Sí, efectivamente ya se quita el error.

00:09:36.000 --> 00:09:39.140
Perfecto. Ahora voy a ejecutar entonces.

00:09:40.560 --> 00:09:47.160
A ver, ahora sí, revise que en el run este que vaya a ejecutar esté el

00:09:47.160 --> 00:09:51.400
nombre, el archivo del job que vaya a que sea usted. Bueno, aquí me salió el

00:09:51.400 --> 00:09:55.480
mensaje archivo descargado correctamente y cuando termine busca

00:09:55.480 --> 00:09:59.240
la carpeta escogida y debería estar la copia del fichero. Ahí está la

00:09:59.240 --> 00:10:01.860
copia del fichero.

00:10:03.140 --> 00:10:03.820
Ok.

00:10:06.440 --> 00:10:12.500
Bien, este ejemplo muy sencillo, lo que buscaba era que usted supiera cómo

00:10:12.500 --> 00:10:16.120
podía yo referenciar una conexión, en este caso de Hadoop, cuando la

00:10:16.120 --> 00:10:20.560
conexión está definida en una metadata. Termino este ejemplo de Hadoop

00:10:20.560 --> 00:10:25.900
haciendo una integración con s3. Muchas veces vas a tener archivo que

00:10:25.900 --> 00:10:30.440
puede estar dispersos, entonces tú recordarás que puede haber

00:10:30.440 --> 00:10:35.960
una etapa de ingesta, que la ingesta es que tú tengas los archivos divididos en

00:10:35.960 --> 00:10:39.020
diferentes fuentes y los vas a centralizar en una fuente. Quizás la

00:10:39.020 --> 00:10:44.240
fuente que hayas escogido de centralización sea un HDFS de Hadoop.

00:10:44.480 --> 00:10:48.200
Entonces vamos a hacer el siguiente ejemplo. Vamos a descargar un archivo

00:10:48.200 --> 00:10:52.720
del s3, acto seguido lo vamos a formatear y lo vamos a enviar como

00:10:52.720 --> 00:10:57.900
salida al HDFS. Eso es lo que vamos a hacer.

00:10:57.900 --> 00:11:05.400
Sí, dígame, versionador de los jobs. Sí tiene control de versiones, pero ese

00:11:05.400 --> 00:11:09.800
control de versiones la maneja mejor la versión propietaria. Hagamos algo,

00:11:09.980 --> 00:11:13.240
mañana yo le muestro un ejemplo con la versión propietaria en cómo

00:11:13.240 --> 00:11:17.400
maneja las versiones. Y esas versiones son manejadas tanto a nivel

00:11:17.400 --> 00:11:21.240
local como a nivel de un repositorio de control de versiones en Git.

00:11:22.260 --> 00:11:26.340
Este lo podía manejar previamente, o que haría ser un poco más manual, pero como

00:11:26.340 --> 00:11:30.120
al final va a usar el propietario, yo le muestro mañana un ejemplito con el

00:11:30.120 --> 00:11:33.220
propietario para que vea cómo maneja el control de versiones interesante.

00:11:36.020 --> 00:11:40.360
Listo, gracias por preguntar. Bueno, vamos entonces a terminar con este

00:11:40.360 --> 00:11:46.360
ejemplo y este ejemplo de Hadoop, que todavía no he utilizado Big Data,

00:11:46.500 --> 00:11:50.160
estoy simplemente usando el sistema de ficheros HDFS. ¿Por qué no estoy

00:11:50.160 --> 00:11:54.040
usando Big Data aunque estoy usando Hadoop? Porque la definición clara de

00:11:54.040 --> 00:11:57.680
Big Data al final hoy en día es que proceses con Big Data y todavía no he

00:11:57.680 --> 00:12:01.660
procesado con Big Data. Termino entonces con este ejemplo un poquito más

00:12:02.580 --> 00:12:05.580
complejo y vamos entonces a hacer lo siguiente. Voy a crear aquí un job,

00:12:05.720 --> 00:12:11.120
dice crear job y lo voy a llamar entonces Jot,

00:12:13.260 --> 00:12:16.280
procesar, perdón, no, formatear archivo

00:12:17.000 --> 00:12:21.160
con the record nba. Termino este que va a ser un poco más complejo.

00:12:22.000 --> 00:12:25.080
Jot formatear archivo nba. Le damos finish aquí.

00:12:29.760 --> 00:12:33.180
Aprovecho esto y voy a tratar en lo posible de cada ejemplo que vaya a

00:12:33.180 --> 00:12:36.600
hacer, voy a agregar nuevos componentes para poder ver la mayor cantidad de

00:12:36.600 --> 00:12:41.140
componentes posible. Bien, vamos a adicionar dos componentes aquí

00:12:41.140 --> 00:12:50.120
adicionales. Un componente que se llama un teprayop y un componente que

00:12:50.120 --> 00:13:01.640
se llama teposjop, teprayop y teposjop. ¿Qué hacen estos teprayop y teposjop?

00:13:01.900 --> 00:13:09.820
Bueno, algo interesante a nivel de poder darle un poco más de sentido y

00:13:09.820 --> 00:13:15.040
orden a los job. Si recuerda que cuando el concepto de subjop, listo

00:13:16.120 --> 00:13:21.140
cuando tenemos un teprayop, el primer subjop que se ejecuta es todo lo que

00:13:21.140 --> 00:13:24.200
está aquí en el teprayop. Es decir, vamos a suponer que tú tengas cualquier

00:13:24.200 --> 00:13:27.500
componente aquí, un tefile no la gusta ya para que lo entienda aquí.

00:13:28.880 --> 00:13:31.560
En primer lugar, note que estos componentes no están unidos, por lo

00:13:31.560 --> 00:13:35.340
tanto, estos componentes por defecto, si no tengo configurada la parte de

00:13:35.340 --> 00:13:40.360
multitread, se van a ejecutar de forma secuencial. ¿Por qué sé que hay

00:13:40.360 --> 00:13:44.860
tres subjop? Porque no están unidos. Entonces aquí tengo un componente, dos

00:13:44.860 --> 00:13:49.000
componentes, tres componentes. Al final tengo tres subjop. Pero cuando tengo un

00:13:49.000 --> 00:13:53.180
teprayop, lo que hace internamente talent es que va a ejecutar primero

00:13:53.180 --> 00:13:58.020
siempre este elemento. Entonces tú deberías tener un teprayop para

00:13:58.020 --> 00:14:03.580
iniciar variables o configuraciones específicas. Y el teposjop siempre se va

00:14:03.580 --> 00:14:08.620
a ejecutar al final y este debería ser utilizarlo para conectar, perdón,

00:14:08.740 --> 00:14:12.880
para desconectar o para borrar algunos archivos quizás intermedio que

00:14:12.880 --> 00:14:18.020
hayas definido. Entonces vamos a hacer lo siguiente. Vamos a definir en el

00:14:18.020 --> 00:14:21.460
teprayop todos los elementos de conexión que necesito para este job.

00:14:22.140 --> 00:14:26.140
Para este job voy a necesitar una conexión hacia un sistema de

00:14:26.140 --> 00:14:31.740
fichero HDFS del Clotel de Hadoop y una conexión hacia un S3. Pero una

00:14:31.740 --> 00:14:35.140
característica que tiene los jobs del señor talent es lo siguiente.

00:14:35.240 --> 00:14:38.960
Váyase al primer job que fue subir archivo.

00:14:38.960 --> 00:14:43.640
Subir archivo. Ábralo por favor si es tan amable.

00:14:44.780 --> 00:14:49.200
Y ahora copie los componentes que usted vaya a reutilizar. En este caso me

00:14:49.200 --> 00:14:53.760
interesa este componente de conexión. Entonces voy a darle click,

00:14:53.920 --> 00:14:58.940
voy a copiarlo y lo voy a pegar en este job de acá. Y se me copia tal

00:14:58.940 --> 00:15:03.480
cual como tenga la configuración. Pegar. Y de esa manera pues yo puedo

00:15:03.480 --> 00:15:07.040
algunas configuraciones copiar y pegar sin tener que volverlas a hacer

00:15:07.040 --> 00:15:11.480
nuevamente. Ya esta conexión sé que me funciona por lo tanto no me voy a

00:15:11.480 --> 00:15:15.500
ponerla configurar porque ya habíamos ejecutado ese job y no funcionaba

00:15:16.240 --> 00:15:20.600
correctamente. Voy a proceder ahora a hacer una conexión hacia un S3.

00:15:21.600 --> 00:15:27.900
Entonces voy a colocar aquí TS3. TS3. Y aquí debe haber un

00:15:27.900 --> 00:15:33.320
connection. Aquí está TS3 connection. A alguno le apareció un naranja.

00:15:33.880 --> 00:15:39.280
Vamos a ver qué pasó. Un momento. No, uno solo. Ya un momento por favor.

00:15:40.220 --> 00:15:44.440
En el caso de Jorge Luis le pide que instale, por favor dele doble click al

00:15:44.440 --> 00:15:48.800
TS3 connection. Dale doble click para configurarlo y aquí algunos

00:15:48.800 --> 00:15:53.740
componentes por defecto no tienen, no están descargados los componentes.

00:15:53.860 --> 00:15:57.420
Solamente está el nombre. Básicamente lo que está haciendo esto es que como

00:15:57.420 --> 00:16:01.180
esto está en java, lo que está haciendo esto al final es que le va a

00:16:01.180 --> 00:16:04.540
descargar unos YAR. Entonces dele aquí en instalar por favor

00:16:05.640 --> 00:16:10.000
y dele download e install. Al final lo que hace es descargar los YAR. Disculpe

00:16:10.000 --> 00:16:13.180
¿Quién me estaba comentando de que no pudo copiar? Qué pena que

00:16:14.060 --> 00:16:15.700
interrumpí en el momento.

00:16:23.520 --> 00:16:24.480
Listo, perfecto.

00:16:24.660 --> 00:16:28.740
Listo, perfecto. Ahí está en instalar. Listo, algunos que

00:16:28.860 --> 00:16:33.400
están instalando. Perfecto. No quedamos entonces en la configuración y vamos a

00:16:33.400 --> 00:16:37.460
una conexión por credenciales estáticas. Vamos con un access key y un

00:16:37.460 --> 00:16:40.720
secret key que eso lo vimos el día de ayer en un ejemplito del talent data

00:16:40.720 --> 00:16:44.580
preparation. Entonces vayamos a la carpeta, al producto archivo de

00:16:44.580 --> 00:16:48.200
windows y vamos a buscar las credenciales para conectarnos a un

00:16:48.200 --> 00:16:53.200
s3. Entonces voy aquí a donde dice escritorio.

00:16:53.200 --> 00:17:01.120
Vamos a donde dice recursos. Talent, TBD, credenciales s3.

00:17:01.880 --> 00:17:07.460
Credenciales aquí s3. Copio el access key y lo voy a pegar

00:17:10.740 --> 00:17:15.580
en el access key. Tiene que estar entre las comillas dobles. ¿Por qué?

00:17:15.600 --> 00:17:20.500
Porque es un string. Tengo que pegarlo entre las comillas dobles. Y

00:17:20.500 --> 00:17:26.100
ahora me pide entonces el secret key. Voy a copiarlo.

00:17:27.480 --> 00:17:34.460
El secret key que es desde el más hasta la P.

00:17:35.320 --> 00:17:41.240
Voy a copiarlo y lo voy a colocar en el componente secret key y que debe

00:17:41.240 --> 00:17:43.680
estar dentro de las comillas dobles.

00:17:44.680 --> 00:17:48.800
Entonces dentro de las comillas dobles voy a colocar el elemento.

00:17:49.780 --> 00:17:56.240
Como dato curioso aquí, cuando yo lo agrego y lo vuelvo a abrir, él lo

00:17:56.240 --> 00:18:01.020
encrita con base 64. Perdón, se me escapa el algoritmo de

00:18:01.020 --> 00:18:04.820
encriptación. Es decir que si yo abro aquí no lo voy a poder ver

00:18:04.820 --> 00:18:08.740
nuevamente. Es decir, ahí no aparece, pero ya debió configurarlo ahí.

00:18:09.280 --> 00:18:14.120
No sé si lo borró, no creo que lo haya borrado. El caso Fernanda, por favor,

00:18:14.200 --> 00:18:19.400
dele clic en install. Ok, bajar e instalar. Listo, perfecto,

00:18:19.500 --> 00:18:25.880
Fernanda. Listo, perfecto. Ahora, en el T-Pre-Job, vamos a conectar el T-Pre-Job

00:18:26.800 --> 00:18:35.900
con el T-HFS Connection y conecte el HFS Connection con el TS3 Connection

00:18:35.900 --> 00:18:37.420
con un component ok.

00:18:40.980 --> 00:18:45.320
Significa que el primer sub-joke que se va a ejecutar es lo que está

00:18:45.320 --> 00:18:49.180
conectado al T-Pre-Job. Es decir, que inicialmente va a ser las

00:18:49.180 --> 00:18:55.020
conexiones al HDFS y al TS3. Este señor lo voy a borrar de aquí,

00:18:55.080 --> 00:18:57.060
que eso era para ejemplificar, por favor, si no lo vamos a usar,

00:18:57.180 --> 00:19:02.380
qué pena. Agregue ahora un componente que es TS3

00:19:05.820 --> 00:19:11.420
Closed, TS3 Closed y conecte el T-Pre-Job al TS3 Closed.

00:19:12.300 --> 00:19:16.660
Disparador o un component ok. Vaya al TS3 Closed y lo configura.

00:19:16.660 --> 00:19:19.540
Bueno, por defecto toma la configuración que esté de la conexión,

00:19:19.640 --> 00:19:21.780
entonces no hay problema, ya queda configurado ahí.

00:19:23.120 --> 00:19:27.180
En pocas palabras, este T-Pre-Job y el T-Pre-Job lo que hacen es darme,

00:19:29.380 --> 00:19:33.880
permitir leer de forma, digamos, mucho más documentada y mucho más fácil el job.

00:19:34.480 --> 00:19:37.880
El T-Pre-Job primero lo que hace es que se ejecuta el sub-joke primero y el T-Post-Joke.

00:19:38.000 --> 00:19:41.820
En este caso el T-Pre-Joke hace las conexiones y el T-Post-Joke cierra las conexiones.

00:19:42.100 --> 00:19:46.460
Voy a hacer entonces lo siguiente. Voy a descargar un archivo que está en el

00:19:46.460 --> 00:19:51.940
TS3. Entonces voy a colocar aquí un TS3 Get.

00:19:59.680 --> 00:20:01.280
TS3 Get.

00:20:03.040 --> 00:20:07.020
Listo, entonces en TS3 Get, este que está aquí,

00:20:08.980 --> 00:20:13.860
vamos a decirle que vamos a usar una conexión existente al Get y ya por

00:20:14.180 --> 00:20:20.100
defecto me está tomando la configuración de la conexión que ya había definido anteriormente.

00:20:21.580 --> 00:20:26.960
Listo, aquí ahora en el bucket, este que está aquí, me pide entonces qué elemento

00:20:26.960 --> 00:20:32.180
deseo descargar del S13. Entonces en el bucket por favor coloque Noble Pro,

00:20:33.540 --> 00:20:38.920
ya le escribo acá en grande, dentro de los signos de las comillas dobles,

00:20:38.920 --> 00:20:43.800
va a colocar Noble Pro, acá lo voy a colocar en nuevo aquí, acá.

00:20:46.320 --> 00:20:52.160
El bokeh se llama Noble Pro y ya les digo el archivo que vamos a descargar.

00:20:53.640 --> 00:20:59.800
Un momento por favor, y entro al bokeh que se llama nba underscore, un momento, listo.

00:21:03.360 --> 00:21:11.840
El archivo se llama nba.xml, perdón un momento, le confirmo porque de pronto

00:21:11.840 --> 00:21:18.280
esa versión está errada, un momento, un momento por favor, no, ese es muy pequeño,

00:21:18.940 --> 00:21:27.520
vamos a uno un poquito más grande, listo. En el nombre del fichero, el nombre que va a

00:21:27.520 --> 00:21:33.920
descargar en donde le pide el key es este archivo, que se lo voy a colocar aquí,

00:21:35.140 --> 00:21:42.400
es team under core nba.csv, team nba.csv, y fíjate que este señor lo voy a copiar aquí.

00:21:48.220 --> 00:21:54.920
Listo, aquí entre las comillas dobles lo coloco. Voy a agregar entonces lo siguiente,

00:21:56.340 --> 00:22:03.940
me pregunta ahora dónde quiero ubicar este archivo, entonces le recomiendo que cuando

00:22:03.940 --> 00:22:09.680
voy a colocar de forma manual, porque aquí me toca apuntarlo a un archivo específico,

00:22:10.860 --> 00:22:14.440
no me va a dejar seleccionar la carpeta, me tocó seleccionar un archivo de estos,

00:22:16.260 --> 00:22:21.440
vamos entonces a colocarlo de forma manual, yo creo le aconsejaría como estamos con java,

00:22:21.500 --> 00:22:30.100
cada vez que vaya a colocar una ruta absoluta, por favor, hágalo entonces c2.slash invertido,

00:22:32.520 --> 00:22:39.140
y vamos a llamar el archivo exactamente igual, team.csv, este que está aquí,

00:22:42.260 --> 00:22:47.460
slash, porque si quieres el otro te tocaría hacerlo de esta manera, creo que a veces es

00:22:47.460 --> 00:23:04.440
un poco más engorroso, sería doble slash así, entonces mejor de esta sí, voy a decir sí manual,

00:23:04.960 --> 00:23:09.280
o la otra si no quiere manual haga lo siguiente, que también es viable,

00:23:10.100 --> 00:23:13.700
expande aquí y escoja cualquier archivo que esté en la ruta, por ejemplo va a coger

00:23:13.700 --> 00:23:19.880
producción.csv y me lo va a dejar abrir y después le cambio el nombre, que también es viable,

00:23:20.980 --> 00:23:24.760
entonces ya después que he cogido el archivo, le voy a cambiar aquí a producción,

00:23:24.840 --> 00:23:31.920
le voy a llamar team underscore nva, que también me funcionaría, porque el file chooser está

00:23:31.920 --> 00:23:36.040
configurado para escoger un archivo, el anterior me permitía escoger una carpeta,

00:23:36.100 --> 00:23:38.900
pero este está configurado para escoger un archivo, al final decida cuál es la

00:23:39.090 --> 00:23:42.050
forma para cada quien, pues a veces trabaja de forma diferente.

00:23:47.490 --> 00:23:55.010
Listo, voy a agregar ahora dentro de este yoke ciertos elementos para documentar este yoke,

00:23:55.410 --> 00:24:03.070
una de las formas de documentar es entonces usar una nota, coloque aquí note, de nota en inglés, note,

00:24:05.690 --> 00:24:10.470
y aquí puedes entonces ampliarla aquí si tú quieres y aquí voy a colocar,

00:24:10.870 --> 00:24:29.550
se descarga, se descarga un archivo del s3 llamado team nva.csv y listo,

00:24:31.070 --> 00:24:43.630
aquí voy a ampliarlo, que hay que cogerle el truquito aquí, bueno ya lo cogí,

00:24:47.470 --> 00:24:53.750
bueno aquí está, aquí puede configurar el color, el fondo, el texto, qué más,

00:24:56.670 --> 00:25:01.070
bueno aquí voy a tratar de que no me deja el mouse,

00:25:03.330 --> 00:25:06.850
mejor lo voy a colocar horizontal, porque parece ser que no me está dejando,

00:25:12.010 --> 00:25:13.450
creo que aquí me ha tocado colocar un enter,

00:25:18.630 --> 00:25:23.670
si le coloque un enter acá en el texto y se me perdió el fondo, voy a colocarle un

00:25:23.670 --> 00:25:36.030
fondo cualquiera aquí, qué es este, qué pasó, no me está cambiando el fondo, bueno no sé ahí,

00:25:39.130 --> 00:25:45.970
para que bajara me tocó dar un enter, porque por defecto no justifica con el tamaño de las

00:25:45.970 --> 00:25:49.390
letras que tenga, está un poquito de problema, es como en la máquina virtual con el mouse a

00:25:49.390 --> 00:25:53.470
ver si no llega tarde y parece como que uno lo mueve y no coge la configuración.

00:25:53.610 --> 00:26:00.270
Atención a lo siguiente ahora, yo deseo este archivo descargarlo, pero a su vez

00:26:00.270 --> 00:26:05.150
este archivo lo voy a formatear y lo voy a mandar a Hadoop, significa que carece de sentido

00:26:05.150 --> 00:26:09.950
que este señor, este archivo lo mantenga a nivel local, porque lo va a tener en Hadoop,

00:26:10.050 --> 00:26:16.730
entonces en el t-post job voy a hacer lo siguiente, voy a agregar aquí un componente que

00:26:16.730 --> 00:26:23.490
se llama t-file deleted, la idea es que ya después que yo descargue, procesé, voy a quitar ese

00:26:23.490 --> 00:26:29.130
archivo del sistema local, o sea de la máquina en que lo ejecuté, entonces él se llama t-file

00:26:29.130 --> 00:26:41.930
delete y ahora váyase al t-sclose y entonces aquí tiene, hágalo con un componente ok acá

00:26:45.800 --> 00:26:50.520
y haga lo siguiente, copia la ruta que tiene en el s3 del archivo descargado que ya lo tiene

00:26:50.520 --> 00:27:06.640
aquí en el s3 get, lo copia y lo pega acá. Quiero ahora procesar ese archivo, para poder

00:27:06.640 --> 00:27:13.320
procesar este archivo voy a hacer lo siguiente, necesito entonces recorrer el archivo para

00:27:13.320 --> 00:27:18.220
procesarlo, voy a cambiarlo un poco el formato, voy a coger unas columnas específicas, entonces

00:27:18.220 --> 00:27:27.080
voy a agregar aquí un componente que ya lo hemos visto que se llama el t-file, lo que pasa

00:27:27.080 --> 00:27:33.120
es que, un momento espere un momentico, creo que no me va a dar tiempo, son las 3 y 40,

00:27:33.120 --> 00:27:39.160
lo voy a mandar directamente a Hadoop mejor, lo voy a mandar directamente a Hadoop, entonces voy a

00:27:39.160 --> 00:27:41.900
hacer lo siguiente, no lo voy a formatear, voy a directamente el archivo, lo voy a mandar a Hadoop

00:27:41.900 --> 00:27:46.040
directamente porque no va a dar tiempo, voy a hacer lo siguiente ahora, para mandar un archivo

00:27:46.040 --> 00:27:59.000
recuerde que lo que hace es un put, hdfs, put y aquí note lo siguiente, creo que fue

00:27:59.000 --> 00:28:04.920
Beatriz la que me preguntó, en este caso no me convendría hacerlo multi-tread, porque para poder

00:28:04.920 --> 00:28:08.840
subir el archivo primero tuve que haberlo descargado, entonces necesariamente me toca

00:28:08.840 --> 00:28:14.820
hacer una jerarquía aquí, ahora partiendo de que primero lo voy a descargar y después lo voy

00:28:14.820 --> 00:28:20.700
a subir, lo más conveniente es que yo entonces conecte este componente de aquí, lo conecte

00:28:20.700 --> 00:28:27.220
con un disparador con su shock ok, de tal forma que primero descargue y después intente subir.

00:28:30.000 --> 00:28:39.280
Aquí si no me sirve el multi-tread. Acto seguido voy a configurar el thfcput,

00:28:39.880 --> 00:28:44.100
este de aquí, ya tengo una conexión que la tengo, que viene el t-pre-job,

00:28:44.380 --> 00:28:50.980
entonces voy a usar una conexión existente aquí, voy a configurar la conexión en el

00:28:50.980 --> 00:28:56.640
hfcconnection y aquí si puedo usar perfectamente los botones de configuración, el directorio

00:28:56.640 --> 00:29:00.500
local cual sería, pues el directorio local es donde iba a quedar el archivo descargado que

00:29:00.500 --> 00:29:11.760
es temporal, el directorio de salida va a ser el directorio de AXA, que está en el hdfc y el

00:29:11.760 --> 00:29:22.880
archivo que voy a subir, voy aquí, se va a descargar con el nombre team underscore nba.csv,

00:29:26.420 --> 00:29:32.840
team underscore nba.csv y lo voy a mandar entonces

00:29:36.080 --> 00:29:41.640
acá con el mismo nombre al sistema de ficheros de hdfc, espero que algunos terminen de configurar,

00:29:43.220 --> 00:29:47.600
voy a darle guardar por si de pronto hay algún problema con la máquina virtual antes de

00:29:50.660 --> 00:29:55.340
ejecutar. Bueno y el job aquí como buena práctica de desarrollo, pues que es lo que

00:29:55.340 --> 00:30:04.340
esperamos del job, que suba el archivo team nba en el sistema de hdfc y que borre al final de

00:30:04.340 --> 00:30:17.780
la máquina virtual de windows y me quede en la máquina virtual que sería la de Ubuntu donde

00:30:18.780 --> 00:30:24.380
el trabajo que voy a ejecutar es el que deseo, trabajo, job, formatear archivo nba, listo,

00:30:24.500 --> 00:30:28.360
en este caso el nombre me quedó me quedó corto porque no hizo ningún formateo,

00:30:28.500 --> 00:30:30.940
en realidad lo que hizo fue descargar y subir, voy a ejecutar para ver,

00:30:36.700 --> 00:30:41.140
bueno y está todavía ejecutando, se conectó, ya descargó, ahí está un ok

00:30:43.280 --> 00:30:48.520
y subió acá, entonces voy a comprobar cómo compruebo, voy a darle f5 y debería estar team

00:30:49.260 --> 00:30:55.880
nba, efectivamente aquí está nin con 79 megas que pesa y en temporal no debería existir ese

00:30:55.880 --> 00:31:01.640
archivo porque lo mandé a borrar, temporal perfectamente no está, bueno vamos a ver quién

00:31:01.640 --> 00:31:06.760
tiene errores, noto que tienes un error acá Fernanda, vamos a ver, voy a tu máquina,

00:31:07.460 --> 00:31:12.040
voy a tu máquina, nota que el error te lo está marcando en el file delete verdad,

00:31:13.580 --> 00:31:17.520
significa lo siguiente, por favor si eres tan amable entra tu file delete, estoy en tu pantalla,

00:31:19.360 --> 00:31:24.440
dale doble clic, haz este file delete, justamente en el medio del doble clic,

00:31:24.620 --> 00:31:31.340
bueno ahí el error que pasa es lo siguiente, nota que por defecto el componente tiene

00:31:31.340 --> 00:31:36.540
habilitado fail o un error, o sea que marque un error si falla, es decir que él intentó

00:31:37.280 --> 00:31:42.780
borrar ese archivo y ese archivo no lo encontró en la carpeta ten y por eso te mandó un error,

00:31:43.500 --> 00:31:47.580
veamos lo siguiente, vete a tu carpeta ten un momento, en el explorador de archivos de

00:31:47.580 --> 00:31:54.820
windows, la carpeta ten y efectivamente no está ahí, está rara la situación, vete

00:31:54.820 --> 00:32:01.320
ahora al explorador de archivos y muéstrame los archivos que te quedaron en el HDFS en el

00:32:01.320 --> 00:32:08.340
cron o lo tienes en edge, dale f5 por favor, ahí tampoco hizo nada, vete entonces nuevamente

00:32:08.340 --> 00:32:15.640
a tu job y muéstrame tu TS3, a ver el TS3 get, ahí supuestamente lo descargó,

00:32:17.820 --> 00:32:26.380
está mal, intenta ejecutar para ver, no si es la RSI, vamos a ver, ahí te

00:32:26.380 --> 00:32:35.460
a tu browser y dale f5 a ver, sí efectivamente pero ahí debió marcar, no marcó un error el TS3

00:32:35.460 --> 00:32:41.500
porque había un problema en el nombre del bucket, bueno ahí no lo marcó, perfecto,

00:32:41.600 --> 00:32:51.460
bueno pero funcionó perfectamente, a alguno no le funcionó o me avisa por favor, vamos a ver,

00:32:51.460 --> 00:33:01.520
no existe, ah ok, váyase un momento al TS3 get un momento, dale doble clic al TS3 get, perfecto

00:33:03.600 --> 00:33:10.960
noble pro, listo, váyase al HDFS put un momento, dale doble clic por favor,

00:33:12.660 --> 00:33:18.380
lo que no entiendo por qué lo puso sensible, ahí el error está en que no encontró el

00:33:18.650 --> 00:33:25.190
tim con T mayúscula, cambia de la T a T minúscula un momento y déjelo, bueno cambia los dos lados

00:33:25.190 --> 00:33:29.130
porque si no le queda con la T minúscula que es la T mayúscula del lado derecho,

00:33:30.130 --> 00:33:36.610
lo raro es que no salió error porque estamos en Windows, ejecute para ver si está mal nuevamente,

00:33:36.670 --> 00:33:40.890
váyase a sus problemas de archivos si está mal y dale f5 para ver si copió,

00:33:42.850 --> 00:33:49.750
dale f5 para ver si, si efectivamente se me hace raro porque la base que tengo es Windows,

00:33:49.890 --> 00:33:53.190
ahí tiene que ver algo con el talent que tuvo cargado porque es que Java no es sensible

00:33:53.190 --> 00:33:57.350
cuando el sistema de fichero lo tengo en Windows y lo tengo en Unity, bueno y se

00:33:57.350 --> 00:34:03.910
me hace raro, voy a tener que investigar, bueno listo gracias a usted, no todavía no

00:34:03.910 --> 00:34:08.010
hemos procesado nada con Big Data simplemente estamos haciendo unos pequeños ejemplos para

00:34:08.110 --> 00:34:14.050
empaparnos primero con Hadoop y segundo con el talent como tal, antes de finalizar hay que

00:34:14.050 --> 00:34:18.930
hacer lo siguiente para evitar la configuración que hicimos al inicio que era formatear y

00:34:18.930 --> 00:34:29.210
esos elementos, vayamos por favor entonces a la consola de administración del HyperBig,

00:34:29.390 --> 00:34:35.790
es esta que está abierta aquí y ahora dele click por favor en la máquina virtual

00:34:37.010 --> 00:34:42.810
le va a dar click derecho ahora y hay una opción que dice guardar, eso lo que hace que

00:34:42.810 --> 00:34:47.310
guarda la máquina en el estado justamente en que está, dele ahí guardar

00:34:50.330 --> 00:34:56.310
click derecho hay en guardar, listo aquí le guarda la máquina perfecto

00:34:58.770 --> 00:35:09.950
aquí cerramos acá y por favor bueno aquí ya cerramos esto y apague la máquina virtualista

00:35:09.950 --> 00:35:14.990
porque es que si queda encendida entonces y no la estamos usando al final cobran por el uso

00:35:14.990 --> 00:35:28.750
de esa máquina virtual la apaga por favor después que haya guardado la máquina virtual del HyperBig

00:35:28.750 --> 00:35:34.170
esta es otra máquina virtual sobre Windows, se apague la máquina de Windows y mañana quedo

00:35:34.170 --> 00:35:38.690
pendiente a un pequeño ejemplito que era el de las versiones como la está manejando el talent

00:35:38.690 --> 00:35:39.790
inversión comercial
Talend Big Data Integration y Ecosistema de Talend Videos

Search

Quick Links

Use Cases

DaDesktop