Login Register

Big Data - jhon-megf-20241010-004719

5 videos • 📅 2024-10-09 09:00:00 America/Bahia_Banderas

2024-10-09 10:47:18

2024-10-09 12:28:28

2024-10-10 09:26:29

2024-10-10 09:59:31

2024-10-10 15:02:46

Visit the Big Data course recordings page

                WEBVTT

00:00:00.000 --> 00:00:06.880
Entonces, partiendo este hecho, le voy a graficar entonces lo que tenemos montado aquí actualmente.

00:00:09.260 --> 00:00:13.280
Aquí lo voy a hacer directamente en esta máquina, va a entrar aquí a draw.io.

00:00:19.540 --> 00:00:20.960
Esto lo voy a crear de manera local.

00:00:37.920 --> 00:00:44.220
Para ganar tiempo mientras explico esta arquitectura, porque de pronto puede demorar montando,

00:00:44.220 --> 00:00:50.920
hay un enlace directo al administrador de Hyper-V que está en la parte izquierda inferior,

00:00:50.960 --> 00:00:57.440
el último que está como dos equipos ahí. Ese virtualizador, el hypervisor de Hyper-V,

00:00:57.620 --> 00:01:03.580
déjalo doble clic para abrir la interfaz.

00:01:08.120 --> 00:01:13.500
Y debería aparecer una máquina virtual que dice Ubuntu. Déle doble clic ahí donde dice Ubuntu.

00:01:14.880 --> 00:01:17.960
Para que inicie la máquina.

00:01:20.500 --> 00:01:22.860
Aparece una interfaz y le da por favor iniciar.

00:01:24.760 --> 00:01:31.220
Bueno, esa la deja que vaya iniciando ahí, por favor. Va cargando y nos vamos entonces

00:01:35.560 --> 00:01:36.080
acá.

00:01:43.120 --> 00:01:53.740
Bueno, la deja montando ahí, por favor. Crear nuevo diagrama. Diagrama en blanco.

00:02:07.880 --> 00:02:14.220
Perfecto, ahora sí está listo. Bien, entonces tenemos lo siguiente.

00:02:15.360 --> 00:02:21.120
Nuestra máquina, bueno, que es una máquina virtual, está montada sobre Windows.

00:02:23.820 --> 00:02:25.600
Me quedé sin memoria, ¿qué fue?

00:02:28.040 --> 00:02:30.660
Ahora tengo esto bloqueado. Dejé de revisar un poquito la máquina virtual,

00:02:30.660 --> 00:02:34.220
¿qué pasó? Parecía ser que me bloqueó esto.

00:02:36.700 --> 00:02:44.320
Ahora, porque tengo 15 gigas. Bueno, por favor, vayamos al team mejor y vemos acá

00:02:44.320 --> 00:02:47.620
la arquitectura. Mientras está montando aquí, está amparando mucho para montar,

00:02:47.640 --> 00:02:51.460
no sé qué pasó aquí. Entonces, voy a hacerlo directamente aquí en el team.

00:02:53.180 --> 00:02:57.780
Vaya al team listo. Entonces, inicialmente tenemos aquí un Windows.

00:02:59.200 --> 00:03:04.560
Está montado, la máquina virtual está montado con Windows 10. Sería la máquina

00:03:04.560 --> 00:03:09.140
host que está en la máquina virtual. Sobre esta máquina virtual que está aquí,

00:03:09.980 --> 00:03:14.460
tenemos montado un Hyper-V, que es el hypervisor de Microsoft, Hyper-V.

00:03:18.360 --> 00:03:24.660
Este Hyper-V de este lado, lo que va a hacer es que tiene montado otra máquina virtual,

00:03:25.400 --> 00:03:33.700
aquí, te voy a explicar, que está sobre Ubuntu y sobre esta máquina virtual tengo

00:03:33.700 --> 00:03:40.460
el Hadoop montado. O sea, aquí estaría el Hadoop montado, que es el que vamos a usar.

00:03:41.960 --> 00:03:47.300
Hadoop. Significa que ahora voy a tener montado de este lado el Talent Big Data

00:03:48.720 --> 00:03:54.320
en esta máquina y este Talent Big Data se va a comunicar a este Hadoop de acá.

00:03:54.660 --> 00:04:02.340
Listo. De esa misma forma, entonces, voy a tener montado lo siguiente. Sobre este Windows va

00:04:02.340 --> 00:04:12.620
a estar montado un motor de contenedores llamado Docker, más popular. Sobre este Docker tengo

00:04:14.040 --> 00:04:25.740
montado un Hyper-V, perdón, un Hive. Este Hive viene todo ahí mismo está montado con Hadoop.

00:04:28.100 --> 00:04:32.980
No usa Hadoop de acá, sino este Hive viene montado con el señor Hadoop. Recuerda que Hive puede

00:04:32.980 --> 00:04:39.620
utilizar Hadoop para HDFS y puede progresar ya sea con Macreduce o puede progresar con Spark.

00:04:40.280 --> 00:04:46.300
Entonces la idea es que ahora este Talent se conecte también a este Hive de acá.

00:04:47.680 --> 00:04:52.420
Con este Hive de acá lo que vamos a hacer es un Data Warehouse que nos quede montado sobre

00:04:52.420 --> 00:04:59.460
una infraestructura de Big Data. Esa es la idea que tenemos entonces y esta es la infraestructura

00:04:59.460 --> 00:05:07.220
que vamos entonces a configurar inicialmente. Vamos acá nuevamente a la máquina virtual y

00:05:07.400 --> 00:05:25.520
voy a... Vamos a ver, vamos a ver, no lo veo todavía en el chat. Es como... Será que no te

00:05:25.520 --> 00:05:31.380
agregará un momento. Disculpeme un momento y le comunico a quien. Ok, déjenme, yo también

00:05:31.380 --> 00:05:42.940
le pregunto acá a... Me permita un momento, por favor. Un momento, por favor. Me habló Fueba, ¿verdad?

00:05:49.140 --> 00:05:50.580
Hey, copio.

00:05:52.560 --> 00:05:55.980
Bueno, enviérmelo. Lo que pasa es que hoy Ximena está viajando, entonces...

00:05:57.480 --> 00:06:04.340
Pero y me responde, porque creo que hay que agregarle al curso, pero en realidad no sé...

00:06:05.060 --> 00:06:10.320
No sé cómo hacerlo y tampoco creo que tenga permiso para eso. Esperamos si nos responde en

00:06:10.320 --> 00:06:19.860
un momento. Mientras, por favor, vamos entonces a la parte de la máquina virtual.

00:06:20.120 --> 00:06:25.660
Nos situamos ahí y nos va a pedir que nos lo guiemos. Ahí hay dos usuarios por defecto.

00:06:25.660 --> 00:06:32.220
Vamos al usuario que se llama Hedu y el Power es el mismo del usuario, pero con H minúscula.

00:06:34.520 --> 00:06:40.420
El mismo del usuario, pero con máquina minúscula... Con H minúscula.

00:06:42.600 --> 00:06:46.000
Bien, claro que nada más tiene dos gigas, por eso entonces cuando inicia,

00:06:46.420 --> 00:06:53.600
puede que demore un poco en cargar. Para ir ganando tiempo, porque en realidad son

00:06:53.600 --> 00:07:00.400
muchas temáticas. Vaya abriendo. En la máquina host, en la máquina Windows,

00:07:00.640 --> 00:07:06.240
habrá alguna shell, ya sea con PowerShell o con CMD, Command Line.

00:07:08.860 --> 00:07:14.680
Particularmente, voy a abrir aquí PowerShell. Acá es la máquina Windows para ver si

00:07:14.680 --> 00:07:21.600
tenemos conectividad de las máquinas. Escriba PowerShell. Tengo un poquito lenta.

00:07:22.600 --> 00:07:27.520
Si tengo 15 gigas, está raro. PowerShell, por favor.

00:07:30.720 --> 00:07:37.600
Windows PowerShell, lo deja abierto ahí. Y listo. Vaya por favor y habrá una terminal

00:07:37.600 --> 00:07:43.700
en la máquina virtual de Ubuntu. Se van los punticos, eso que están ahí.

00:07:45.060 --> 00:07:52.420
Y debería aparecer terminal. Debería aparecer una terminal. Aquí está terminal,

00:07:52.520 --> 00:07:54.100
o escribí la palabra terminal como usted quiera.

00:07:56.160 --> 00:08:00.460
Deja esta terminal abierta, porque vamos a hacer un par de configuraciones.

00:08:04.560 --> 00:08:09.880
Listo. Aparte de eso, créese y abra en la máquina host un archivito de texto,

00:08:09.880 --> 00:08:15.720
un notepad. Quiere bloc de notas o notepad más, cualquiera de los dos. Me fui al notepad.

00:08:18.620 --> 00:08:23.300
Para ir apuntando algunas configuraciones, si en algún momento tiene problemas, puede

00:08:23.300 --> 00:08:29.160
ir este archivito de comandos y se los puede llevar a algún lado. Se los puede hacer una

00:08:29.160 --> 00:08:34.980
copia de este archivito de comandos. Bien, verifiquemos, entonces, Red. Como vamos a

00:08:34.980 --> 00:08:42.320
comunicar el Talent Big Data con Hadut. Ven, todavía no me han respondido. Te aviso, Eva,

00:08:42.520 --> 00:08:48.560
cuando me responda. Bien, como el Talent Big Data, quiero comunicarlo con la

00:08:48.560 --> 00:08:55.220
terminal. ¿Qué IP tiene este señor? Creo que le di una IP estática. Del comando ifconfig.

00:08:57.000 --> 00:09:04.260
Del lado de la máquina virtual ifconfig. Lo apunto a este lado, ifconfig.

00:09:11.420 --> 00:09:16.900
A Hadut, el mismo del usuario que está a Hadut, pero con la H minúscula. ¿Quién me habló?

00:09:21.760 --> 00:09:25.460
Qué pena contigo, Eva, que no me han respondido. Es que tengo un correo,

00:09:25.460 --> 00:09:37.520
le mando un correo. Pero no me ha respondido. Espero liso. Todos deberíamos tener la misma

00:09:37.520 --> 00:09:44.240
IP, porque esa IP estática. Entonces, vayamos y verifiquemos la conectividad entre los dos

00:09:44.240 --> 00:09:51.360
puntos. Vamos a hacer un ping desde la shell del host, o sea, de PowerShell. Vamos a hacer

00:09:51.360 --> 00:09:59.640
siguiente comando. Vamos a ver si nos da respuesta. Ping a la 10.0.3.250. Este comando.

00:10:00.980 --> 00:10:13.300
Ping 10.0.3.250. Es decir, escribo aquí, ping 10.0.3.250. Perfecto. Hay respuesta.

00:10:15.260 --> 00:10:21.100
Y por cosas de la vida, este tipo de mensajes se llama ICMP. Puede estar bloqueado en los

00:10:21.100 --> 00:10:26.460
mensajes de uno de los dos puntos. Váyase a la máquina. En la máquina esta, que estoy en PowerShell,

00:10:26.720 --> 00:10:35.320
escriba el comando ipconfig. Es el mismo de arriba, siendo que acá en Windows lo tienen

00:10:35.320 --> 00:10:47.220
como ipconfig. Y esa máquina es la dirección en la 10.0.3.15. Esta que está aquí,

00:10:47.220 --> 00:11:02.520
10.0.3.15. Hagamos entonces un ping desde la máquina virtual a la 10.0.3.15. Y debería haber

00:11:02.520 --> 00:11:09.260
respuesta. Perfecto. ¿Por qué hacemos esto? Porque va a haber comunicación entre la máquina

00:11:09.260 --> 00:11:19.140
virtual y al revés. Aquí damos control C para terminar. Control C. Control C y detiene la

00:11:19.140 --> 00:11:29.120
ejecución. Control C. Control C y la detiene. Perfecto. Listo. Eso confirmamos que hay conectividad

00:11:29.120 --> 00:11:35.260
entre los dos puntos. Necesaria para comunicar el Big Data tanto de ida como de regreso.

00:11:35.940 --> 00:11:48.000
Ok. Vamos entonces a lo siguiente. Vamos al sistema Hadoop. Voy aquí, estos comandos aquí,

00:11:48.440 --> 00:12:03.440
voy a colocar aquí comandos redes. Comandos Hadoop. Primero, recordará que Hadoop se divide

00:12:03.440 --> 00:12:10.140
en dos partes. Una parte de almacenamiento y una parte de procesamiento. Ok. Entonces,

00:12:10.220 --> 00:12:15.980
voy a iniciar con la parte de almacenamiento. En la parte de almacenamiento voy a hacer lo

00:12:15.980 --> 00:12:22.000
siguiente. Ya en esta máquina virtual está montado Hadoop. Carece de sentido explicar

00:12:22.000 --> 00:12:26.940
cómo se montó porque normalmente uno desarrolla y ya tiene la infraestructura. Y normalmente

00:12:26.940 --> 00:12:33.880
pues ya estás con Azure o estás con AWS y ya estos señores tienen montado esta capa.

00:12:33.920 --> 00:12:38.840
Tú lo único que no es que te conecte. Bien. Con esta capa montada vamos a hacer lo siguiente.

00:12:39.140 --> 00:12:43.380
Vamos a formatear el sistema de ficheros para empezar desde cero. Vamos a dar el siguiente

00:12:43.380 --> 00:12:54.720
comando. Los comandos para almacenamiento empiezan por HDFS. O sea, sería HDFS. Lo

00:12:54.720 --> 00:13:00.740
que sea más fácilmente. Vamos a colocar aquí NameNode, que es el nodo principal y

00:13:00.740 --> 00:13:04.960
le voy a dar menos forma. Esto lo escribe por favor en la terminal de la máquina

00:13:04.960 --> 00:13:18.060
virtual. HDFS NameNode menos forma. Es decir, de este lado voy a escribir HDFS, HDFS,

00:13:23.100 --> 00:13:30.360
NameNode menos. Ojo, que esté menos. Hay que ver cómo sale porque creo que el idioma

00:13:30.360 --> 00:13:40.860
ya está en americano y acá está en latinoamericano. No sé. Bueno, voy a dar menos forma. Ahora

00:13:41.540 --> 00:13:44.740
me confirma si puedo copiar y pegar de allá, de la máquina. A ver si me deja

00:13:44.740 --> 00:13:55.260
bien para ver. Perfecto, listo. Voy a comprobar para ver si yo tomo esto que está aquí

00:13:55.260 --> 00:14:05.660
y copio y lo puedo pegar acá. No, no me está dejando. Claro, no nos preocupes.

00:14:05.680 --> 00:14:10.520
Esto lo vamos a hacer solamente una sola vez. Es decir, vamos a dar sistema configurado

00:14:10.520 --> 00:14:15.940
y montado y ya con eso configurado y montado, pues en teoría no creo que tengamos más

00:14:15.940 --> 00:14:23.080
problemas, pero estamos en una carrera en que los sistemas son propensos a fallar y

00:14:23.080 --> 00:14:36.020
lo que uno cree que funcionaba bien, pues se dañó de un momento a otro. Perfecto, listo.

00:14:36.020 --> 00:14:45.060
Primer paso. Ahora vamos a montar Hadoop. Para montar Hadoop vamos a ejecutar dos comandos.

00:14:45.400 --> 00:14:55.020
El primer comando que vamos a ejecutar es este que dice start de iniciar menos dfs.sh.

00:14:55.200 --> 00:15:06.000
Este es el primer click que vamos a ejecutar. Y terminado de ese click de ejecutar le

00:15:06.000 --> 00:15:22.380
es utilizar Hadoop. Entonces, él va a levantar varios demonios ahí. Start dfs.sh. Aquí se me

00:15:22.380 --> 00:15:32.300
está colocando dfs.sh. Terminado la ejecución de ese click, ejecutas el segundo click que

00:15:32.300 --> 00:15:42.840
es start jar.sh. Listo, está montado la arquitectura del name nodes que es el nodo principal o el

00:15:42.840 --> 00:15:48.580
master que no debería llamarse hoy en día master porque maestro hace evocarle la esclavitud.

00:15:49.920 --> 00:15:55.120
Y day nodes que serían los nodos esclavos, que esos nodos esclavos, day nodes donde se van

00:15:55.120 --> 00:16:01.160
a guardar los diferentes ficheros que tengo. Para este caso particular de la infraestructura

00:16:02.340 --> 00:16:09.620
solamente tenemos un data node. O sea, solamente un solo nodo, nada más. Pero al final es dar

00:16:09.620 --> 00:16:13.560
lo mismo si haya tres o cuatro. Al final lo que buscamos es entender cómo funciona el

00:16:13.560 --> 00:16:31.140
talent big data. Listo, terminada esa parte, ejecute start jar.sh y después que termine

00:16:31.140 --> 00:16:38.920
ejecutar comprueba qué servicio montó, qué demonios montó con el comando jps. Por lo regular

00:16:38.920 --> 00:16:47.360
deberíamos mostrarte el comando jps 6 demonios. Day node, jps, secondary day node, resource

00:16:47.360 --> 00:16:55.320
managers y node manager. Son propios de arquitectura. Claro que esto no lo vamos a dejar montado

00:16:55.320 --> 00:16:59.560
aquí y esta máquina virtual la vamos a guardar el estado para que no tengamos que

00:16:59.560 --> 00:17:06.720
montar en cada clase. Ahora a nivel de redes, esos servicios y esos demonios van a montar unos

00:17:06.720 --> 00:17:11.920
servicios y esos se van a exponer sobre unos puertos. Entonces, como comando de redes,

00:17:12.000 --> 00:17:16.480
que esto lo habíamos visto cuando vimos el talent sv, el comando net sapra,

00:17:16.480 --> 00:17:22.320
de los puertos que habría. Vamos a darle comando net stat en su versión más fácil que

00:17:22.480 --> 00:17:35.400
net stat menos punta, net stat menos punta, net stat menos punta. Y eso lo que abre son

00:17:35.400 --> 00:17:46.320
unos puertos para ver. Me interesa en este puerto que es el 9870 y este puerto que es

00:17:46.320 --> 00:17:54.560
9000. Recuerde que esa prefija 0.0.0 indica que cualquier dirección ip se podía comunicar

00:17:54.560 --> 00:18:05.520
a ese servicio. Me interesa que tenga abierto el 9870 y el 9000. Seguramente se los montó,

00:18:05.580 --> 00:18:09.720
no sé si los quiere buscar, simplemente era para colocar el comando y para recordarle

00:18:09.720 --> 00:18:18.880
que cuando empieza con 0.0.0 indica en que cualquier ip se puede comunicar. Caso contrario,

00:18:18.940 --> 00:18:25.540
por ejemplo, con este 127. Aquí está indicando en que solamente en este puerto se puede

00:18:25.540 --> 00:18:33.360
comunicar localmente. Listo, confirmemos para ver si montó bien la infraestructura.

00:18:34.280 --> 00:18:38.760
Váyase al bronco. Sí, qué pena. Vamos a ver quién me habló. Bernardo, vamos a ver qué

00:18:38.760 --> 00:18:44.680
pasa. Dale JPS un momento, Bernardo. Baja un momentito, baja y dale JPS. JPS, un momento.

00:18:45.660 --> 00:18:53.640
Dale gente, por favor. No, no ha montado. Vamos entonces. El comando HDFS, name no,

00:18:53.640 --> 00:19:04.320
menos forma, ya lo ejecutaste. Vamos a ejecutar HDFS, espacio, name de nombre inglés, no de,

00:19:04.420 --> 00:19:11.020
name no de, menos espacio, menos forma. Menos, ahí tiene, menos forma. Entra, por favor.

00:19:11.080 --> 00:19:13.700
De pronto ya lo había hecho, pero para asegurarnos de pronto que no haya ningún

00:19:13.700 --> 00:19:18.680
problema de eso. Ahí lo que hace es que formatea el sistema de fichador HDFS de

00:19:18.680 --> 00:19:22.880
esta máquina. Dale yes. Sí, ya lo había ejecutado ya. Ahora, dele el comando start,

00:19:23.380 --> 00:19:33.300
de iniciar, con iniciar en inglés, start. Start, menos, quite ante el espacio, menos,

00:19:33.560 --> 00:19:42.520
sin espacio, menos def, punto SH, listo. Sí, señor. Listo, él entra, esperemos a que suba

00:19:42.520 --> 00:19:45.700
para ver si ahora que no tengamos ningún error. Ahí está montando el name no,

00:19:45.700 --> 00:19:51.260
no principal, data nodes, que sería los workers o los esclavos.

00:19:54.340 --> 00:19:58.400
Listo, ahí estamos, puede ser posible. Ahí monta tres servicios,

00:19:58.480 --> 00:20:14.480
pero vamos a ejecutar ahora el start, menos yard. El yard, para que terminemos. Sí,

00:20:22.560 --> 00:20:30.480
está bien. Vamos a probar imediatamente si tiene abierto el 98, entra a la siguiente manera.

00:20:31.420 --> 00:20:38.900
Abremos todos el browser de la máquina HOS, la máquina Windows, por favor. Y vamos a

00:20:38.900 --> 00:20:48.840
colocar la siguiente dirección, que sería la máquina HOS, que sería 10.0.3.250, 2.9870,

00:20:49.040 --> 00:20:58.860
que es el que está escuchando el servicio web. Y damos enter. Debería aparecer una interfaz web

00:21:00.080 --> 00:21:08.500
del señor Hadut. Sí, el previso para ver si a todos les apareció. Perfecto, perfecto, listo.

00:21:09.700 --> 00:21:16.340
Bueno, aquí hay muchas características Hadut. Váyase al menú superior, al lado de overview,

00:21:17.260 --> 00:21:23.880
data nodes, y le va a aparecer cuántos nodes de datos tiene. Aquí nada más tiene uno. La

00:21:23.880 --> 00:21:29.960
realidad real tiene muchísimos, en realidad. Y crear una data node es sumamente sencillo,

00:21:30.120 --> 00:21:34.740
a diferencia de montar un clúster, o sea, un elemento más en el node de un clúster de

00:21:34.740 --> 00:21:39.700
base de datos. Bueno, con eso no vamos a trabajar, eso lo hace internamente. Váyase

00:21:39.700 --> 00:21:44.880
donde dice utilities, que es la última opción del menú superior, y hay una opción que dice

00:21:44.880 --> 00:21:50.300
browse de file system, y ahí le va a mostrar entonces los archivos que están en el sistema

00:21:50.300 --> 00:21:55.540
Hadut. Debería aparecer vacío. Catalina, voy a ver que estás apuntando la dirección. Vamos a

00:21:55.540 --> 00:22:00.400
ver. Sí, está listo. Está bien, Catalina. Vete a la última opción que dice utilities,

00:22:01.600 --> 00:22:06.420
en ese mismo menú donde está overview. Le das click a ese combo que tienes ahí,

00:22:07.400 --> 00:22:14.620
acá arriba, acá en el menú de acá arriba. Utilities, y vas donde dice browse de file

00:22:14.620 --> 00:22:20.020
system. Y debería aparecer a todo vacío, porque acabamos de formatear el sistema de

00:22:20.020 --> 00:22:28.180
ficheros. ¿Cómo lo formateamos? Con el HDFS name no menos forma. Listo. Vamos nuevamente a la

00:22:28.180 --> 00:22:35.760
máquina virtual. Si quiere, dele comando clear aquí, clear, para limpiar esa máquina un momento,

00:22:36.260 --> 00:22:45.460
clear. Y vamos a hacer lo siguiente. Comando Hadut, sigo acá. Vamos a crear una carpeta

00:22:45.460 --> 00:22:54.600
donde vamos a organizar nuestros archivos. Para crear una carpeta, le da HDFS. HDFS.

00:22:56.480 --> 00:23:06.040
DFS menos MKDIR. Slash inputs. Lo va a colocar en inglés. Inputs. Esto es lo que hace que crea

00:23:06.040 --> 00:23:15.420
una carpeta dentro del sistema de ficheros. Yo la voy a hacer acá. Ahí está. HDFS. DFS menos

00:23:17.600 --> 00:23:36.020
MKDIR. Menos MKDIR. Input. Perfecto. Agregue el siguiente comando para permisos. HDFS. Sería

00:23:36.020 --> 00:23:41.680
ejecutado sobre el sistema de ficheros, pero son los mismos que tiene a nivel de Linux. HMOD. Le

00:23:41.680 --> 00:23:50.300
va a colocar aquí HMOD. Para cambiar los permisos. 777. Pues todos los permisos. No estamos en

00:23:50.300 --> 00:24:02.040
seguridad. Estamos a nivel académico. Y le da este comando así. Le daría aquí CHMOD. 777.

00:24:04.880 --> 00:24:21.560
Por último, podía dar lo siguiente. HDFS. DFS menos LS. Slash. Eso me va a mostrar la

00:24:21.740 --> 00:24:37.200
estructura directorio que tengo montado en Hadut. HDFS. DFS menos LS. Slash. Perdón. Ahí se me

00:24:37.200 --> 00:24:48.500
fue un... era menos. Se me fue un slash. Y ahí aparece la carpeta inputs que creamos ahora.

00:24:50.860 --> 00:25:05.520
HDFS. El último. Voy a guardar este señor fichero aquí. Lo voy a guardar aquí en C.

00:25:07.380 --> 00:25:14.780
Me voy a guardar en documentos y lo voy a llamar comandos. Martina, que te salió vuestra ver.

00:25:15.440 --> 00:25:19.260
Dale flechita arriba, Martina, por favor. Para ver que ejecutaste flecha arriba.

00:25:20.560 --> 00:25:28.700
Ah, te faltó. Vete con flecha de izquierda. Después del HDFS, agrega DFS. DFS. Enter. Ahora

00:25:28.700 --> 00:25:44.760
sí, enter. Y ahora dale el comando para listar que es el último que es HDFS. DFS menos LS. Slash.

00:25:44.760 --> 00:25:52.800
Listo. Ese mismo comando que tiene ahí, cuando yo doy HDFS menos LS, es lo mismo que hace esta

00:25:52.800 --> 00:25:59.460
página. Por favor, ahora sí, vaya a hacer el browser. Y dele, por favor, enter ahí.

00:26:01.300 --> 00:26:05.480
Y debería aparecer la carpeta inputs que creo ahora.

00:26:09.120 --> 00:26:13.080
Hagamos lo siguiente, entonces. Cerremos esta shell que tengo aquí.

00:26:14.760 --> 00:26:22.120
Voy a cerrar esta ventana, que esta ventana lo que hace es que cierra la conexión, la UI de conexión,

00:26:22.480 --> 00:26:26.880
pero me queda ejecutando acá. O sea, aquí me queda ejecutando la máquina virtual. No

00:26:26.880 --> 00:26:33.040
va a hacer más nada con la máquina virtual. Voy a cerrar este Notepad que lo tenía aquí.

00:26:37.800 --> 00:26:42.580
Y procede ahora, cuando termine de cerrar todos estos elementos, procede a abrir el

00:26:42.580 --> 00:26:52.220
file en Big Data. Yasmín, muéstrame la máquina virtual, por favor.

00:26:55.340 --> 00:26:59.180
Dale flechita arriba, por favor, flecha arriba, flecha arriba. Ahí,

00:26:59.280 --> 00:27:04.740
le dice comando flecha arriba para buscar el comando MKDIR. Sube más, otra flecha arriba,

00:27:05.500 --> 00:27:09.580
sube otra flecha arriba. Flecha abajo, esta flecha abajo, flecha abajo. Creo que

00:27:09.780 --> 00:27:15.880
ya lo viste, flecha abajo. S, déjate un espacio ahí, después de la S, déjate un espacio.

00:27:17.520 --> 00:27:21.260
O sea, el guión, antes del guión, debía haber un espacio. Dale con flecha izquierda,

00:27:21.460 --> 00:27:29.760
hasta que llegue y le das entonces espacio, por favor. No, ahí no. Ahí dale, quita ese

00:27:29.760 --> 00:27:37.720
espacio que hiciste ahí. Más atrás, entre DFS y el menos. Ahí va un espacio, ahí listo. Dale enter.

00:27:39.780 --> 00:27:44.460
Dale flecha arriba hasta que encuentres el CHMOD, el comando CHMOD, flecha arriba, hasta que

00:27:44.460 --> 00:27:54.220
encuentres el CHMOD. Ahí está, enter. Dale flecha arriba hasta que salga el LS. S, enter.

00:27:54.360 --> 00:27:59.960
Perfecto, ahí está. Ahora recarga la página, recarga por favor la página, recarga la página.

00:28:00.300 --> 00:28:07.940
Le hizo tuya. Dale F5 ahí y debería aparecer. Ahí está, input. Eso es lo que tiene. Perfecto.

00:28:07.940 --> 00:28:13.940
Vamos a ver, desde lo que vayamos haciendo, lo vamos a ver directamente aquí. Que esta es la

00:28:13.940 --> 00:28:19.480
conexión que tengo hacia el HADU que tengo montado allá en la máquina virtual. Regálenme

00:28:19.480 --> 00:28:23.060
5 minutos, que me tienen preocupado. Estación Deva, un momento, ve si de pronto Ximena me

00:28:23.060 --> 00:28:27.440
coge el celular. Sé que está viajando, pero no me responde. Un momento, por favor,

00:28:27.440 --> 00:28:38.900
ya vengo, me regala 5 minutos. Bueno, volví nuevamente. Bueno, desafortunadamente no me

00:28:38.900 --> 00:28:44.260
respondió Eva, que la verdad no sé que esta parte no me dedico yo a adicionar y no sé por

00:28:44.260 --> 00:28:49.900
dónde se hace y creo que tampoco tengo permiso de hacerlo para adicionar estudiantes. Esperamos

00:28:49.900 --> 00:28:53.060
a ver de pronto si me responde más tarde y les de un mensaje, pero no, no le llegan los

00:28:54.380 --> 00:29:00.320
mensajes. Bueno, continuamos a ver. Listo, ¿Quién me llamó por ahí? Salió, creo que un

00:29:00.320 --> 00:29:04.300
pequeño warding. Sí, vamos a ver. Creo que salió un pequeño. Dale OK a ese warding ahí que

00:29:04.300 --> 00:29:11.980
está ahí. Vamos a darle aquí OK. Listo, sí, OK. Sale un pequeño warding ahí de una

00:29:11.980 --> 00:29:19.700
librería ahí. Intenta cerrar esa ventana, Bernardo, a ver. Listo. Esa es una librería

00:29:21.540 --> 00:29:27.380
de actualización de repositorios. A ver, ¿Qué pasó ahí? Lo que pasa es que ese es un repositorio

00:29:27.380 --> 00:29:33.000
para agregar nuevos componentes en talent. Usted en el talent studio tiene un repositorio

00:29:33.000 --> 00:29:39.680
que ya está, digamos, cuando instalo ya está definido y ahí puedo agregar más componentes.

00:29:39.980 --> 00:29:46.520
Dale OK, José, por favor. OK y cierra las ventanas. Entonces, acá como talent dejó

00:29:46.520 --> 00:29:54.040
de dar soporte, entonces quitó ese repositorio. Dale OK, José. Cuando tengas tiempo, le

00:29:54.040 --> 00:30:03.120
da OK y cierra todo, por favor. Si deseas, ciérrate la shell de PowerShell para que

00:30:03.120 --> 00:30:09.840
no te cause ruido y cierra la interfaz de Ubuntu. Quedaría ejecutando sobre Hyper-V.

00:30:10.980 --> 00:30:15.740
Listo, ahí cierra esa interfaz. Sigue su ejecución, lo que es que ahora no

00:30:15.740 --> 00:30:21.320
me permite verlo ahí. Bueno, listo, entonces estoy aquí en esa interfaz. Voy a tener nada

00:30:21.320 --> 00:30:27.100
más dos cosas abiertas que es prácticamente el browser y el talent big data. OK, eso es lo

00:30:27.100 --> 00:30:34.480
que va a tener. Bueno, carece de sentido, pues explicar esto porque es la misma interfaz que

00:30:34.480 --> 00:30:40.300
tiene el data integration y parte muy parecida al talent sb. Esos son los mismos componentes,

00:30:40.300 --> 00:30:47.200
la misma job, designer, context, código, exactamente lo mismo. Vamos a lo siguiente,

00:30:47.260 --> 00:30:58.520
vamos a crear aquí un nuevo folder. Crea un folder, por favor. Y vamos a titular este

00:30:58.520 --> 00:31:04.440
folder, entonces Hadoop. Vamos a colocar todos los jobs que tengan que ver inicialmente

00:31:04.440 --> 00:31:11.660
con Hadoop. Todavía aquí no voy a procesar todavía, simplemente voy a almacenar para que

00:31:11.660 --> 00:31:21.580
quede claro. Para que quede claro, voy simplemente a almacenar, no a procesar. Es lo que voy a

00:31:21.580 --> 00:31:29.320
hacer inicialmente. Aquí me quedó un Hadoop. Voy a darle aquí clic derecho y voy a crear el

00:31:29.480 --> 00:31:36.080
primer job. Recordarás que te había dicho que Hadoop se divide en dos elementos, un elemento

00:31:36.080 --> 00:31:43.000
para procesar que es MacReduce y un elemento para almacenar que es HDFS. Entonces, para poder

00:31:43.000 --> 00:31:50.220
procesar con MacReduce, los ficheros tienen que estar metidos en HDFS. Vamos a ver cómo la

00:31:50.220 --> 00:31:58.240
herramienta me permite procesar y hacer transacciones con ficheros en HDFS. Lo primero

00:31:58.240 --> 00:32:06.980
es un ejemplo muy sencillo y vamos a llamarlo, entonces, lo siguiente. Job, underscore, subir,

00:32:09.320 --> 00:32:17.940
archivo, underscore, Hadoop. Este es el primer ejemplo que vamos a hacer. Job, subir, archivo

00:32:17.940 --> 00:32:24.680
a Hadoop. Mirifico para ver. Job, subir, listo. Le damos finish para que nos cree y nos muestre

00:32:24.680 --> 00:32:35.360
el canvas. Listo, está subiendo el canvas, creando. Perfecto, me abrió el canvas. Perfecto, listo.

00:32:37.540 --> 00:32:42.440
Vamos a agregar los siguientes componentes que vamos a trabajar y voy a tratar de hacerlo en

00:32:42.440 --> 00:32:47.320
cada uno de los ficheros. Voy a tratar de agregar algo diferente dentro del talent.

00:32:47.480 --> 00:32:51.680
Significa que esto que voy a hacer te va a funcionar con el data integration o con el

00:32:51.900 --> 00:32:57.420
data, lo que tú quieras. Entonces, voy a tratar de modificar cada uno y agregando muchas cosas.

00:32:57.580 --> 00:33:03.520
Primero vamos entonces a agregar algo que necesito. Primero necesito conectarme al

00:33:03.520 --> 00:33:08.460
sistema HDFS que tenga el Hadoop. Entonces, para eso vamos a buscar el siguiente componente.

00:33:08.460 --> 00:33:18.200
H, perdón, T, HDFS, perdón, acá, listo, T, HDFS. Te conecto aquí, T, así. T, HDFS.

00:33:20.240 --> 00:33:25.860
Y hay uno que se llama connection. Sí, T se llama T, HDFS, connection.

00:33:30.640 --> 00:33:35.620
Voy a agregar ahora un componente que es el que me va a permitir agregar elementos

00:33:35.620 --> 00:33:47.060
al sistema de Hadoop que es T, HDFS. Todos empiezan en el mismo. Y se llama PUT de poner.

00:33:53.100 --> 00:33:57.180
Estos son componentes propios de lo que es Hadoop y ahora va a colocar un componente

00:33:57.420 --> 00:34:03.420
general que se llama T-WAR, de warning, T-WAR.

00:34:08.300 --> 00:34:13.820
Ese no lo habíamos visto. Este T-WAR no manda ninguna salida en consola o muestra algo,

00:34:13.880 --> 00:34:18.140
simplemente es para que agregue este elemento en el archivo log que tengas configurado en

00:34:18.140 --> 00:34:23.080
tu proyecto. O sea, los logs, te acordarás. Tengo la fecha, dice qué fue lo que hice.

00:34:23.080 --> 00:34:28.400
Eso es T-WAR, para eso sirve el T-WAR. Vamos a ver los puntos rojos que nos está indicando

00:34:28.400 --> 00:34:33.480
algún problema de configuración. Vamos al HDFS connection, por favor. Y nos dice que

00:34:33.480 --> 00:34:39.960
ese componente no está instalado. Instalemos ese componente. Bajar todo, aquí lo de aquí,

00:34:40.100 --> 00:34:52.660
bajar todo, instalar. Y creo que automáticamente también bajó el del HDFS, listo. Perfecto,

00:34:52.660 --> 00:34:58.640
dice que bajar e instalar todo. El botón que dice bajar e instalar todo. Listo, sigamos

00:34:58.640 --> 00:35:05.240
entonces. Vamos al HDFS connection y vamos a darle doble clic y vamos entonces a configurar

00:35:05.240 --> 00:35:12.180
ese componente. Perfecto, entonces vamos a lo siguiente. Aquí en las configuraciones

00:35:12.180 --> 00:35:17.960
básicas del componente de conexión, le preguntan la distribución de Hadoop que

00:35:17.960 --> 00:35:22.040
existe. Ya le había dicho que la mayor parte de estas empresas tomaron Hadoop

00:35:22.040 --> 00:35:27.880
open source y le colocaron una capa de ellos propia. Entre esos tengo el MR que es de Amazon

00:35:28.460 --> 00:35:36.520
y aquí está el de Azure, Cloudera, Horton. Y en este caso, como es una configuración que

00:35:36.520 --> 00:35:43.280
es propia, no la de ningún proveedor, voy entonces a escoger la opción que dice Universal.

00:35:44.820 --> 00:35:49.560
Y te pide que instales los componentes necesarios para Universal. Entonces le damos

00:35:49.560 --> 00:35:56.960
aquí instalar. Listo, ahí va a buscar entonces los componentes. Bueno, aquí los baja todos.

00:35:59.140 --> 00:36:04.540
Perfecto. Esto solamente lo descargará una sola vez y lo deslizaremos en n veces. Bajar

00:36:04.540 --> 00:36:09.880
e instalar, por favor. Listo, acto seguido entonces, vamos a configurar donde dice name

00:36:11.080 --> 00:36:18.480
node, name node URI, que es el nodo principal en el Clouder de Hadoop que tengo. Entonces,

00:36:18.480 --> 00:36:23.080
por defecto lo que nada más debería cambiar y por eso fue lo que te comenté, que principalmente

00:36:23.080 --> 00:36:29.840
tengo que tener puertos 98, 70 y 9 mil abiertos. Tienes que tener en cuenta que si tú vas a

00:36:29.840 --> 00:36:35.600
montar tu propia infraestructura, tienes que abrir el firewall en ese puerto. Entonces,

00:36:35.620 --> 00:36:48.460
voy a cambiar la palabra localhost por la dirección IP de mi equipo, que sería 10.0.3.250.

00:36:48.460 --> 00:36:55.120
9 mil. Nada más me quedaría, o sea, quedaría al final 10.10. Mira, te lo voy a colocar

00:36:55.120 --> 00:36:59.080
acá en grande para que veas cómo te va a quedar. Lo único que cambié fue la palabra

00:37:03.540 --> 00:37:09.400
localhost por 10.0.350, que es la máquina virtual, la dirección de la máquina virtual

00:37:09.400 --> 00:37:24.240
que está en Ubuntu. Sigo, acto seguido. Voy a lo siguiente, entonces. Cierro aquí.

00:37:28.780 --> 00:37:38.220
Bajo para ver, aquí me piden elementos de autenticación. En realidad, el Hadoop lo

00:37:38.220 --> 00:37:41.440
que hace es conectarse anónimamente a cualquiera. Evidentemente, ya cuando tuve un ambiente

00:37:41.440 --> 00:37:46.300
de producción in real, pues hay que definir el uso de Hadoop. Y ahí están algunas

00:37:46.300 --> 00:37:50.700
propiedades de Hadoop, pero esas propiedades de Hadoop ya yo las configuré en Ubuntu.

00:37:50.760 --> 00:37:53.400
En pocas palabras, cuando estamos trabajando con esto, te da la infraestructura ya

00:37:53.400 --> 00:37:58.540
de Hadoop y tú lo que haces es utilizarla. Aquí no voy a hacer más nada. Listo.

00:37:59.100 --> 00:38:04.240
Ahora lo que voy a hacer es lo siguiente. Voy a conectar ahora este HDF connection

00:38:04.240 --> 00:38:11.920
con el HDF de Putro. Vamos a darle aquí clic derecho y note que está nada más la opción

00:38:11.920 --> 00:38:15.760
disparador. Entonces, aquí sí voy a explicar algo que no había explicado anteriormente,

00:38:15.800 --> 00:38:20.440
que lo encontraste en el data integration. Ya habíamos visto la opción esta que dice

00:38:21.600 --> 00:38:25.700
onsujocokey, ¿cierto? Si yo no la hago usted ya, mire acá un momento para que pronto

00:38:25.700 --> 00:38:31.260
lo tenga que borrar ya. Si yo cojo la opción onsujocokey significa en que está

00:38:31.260 --> 00:38:39.300
dividiendo estos elementos en dos suyos, suyoc1 y suyoc2. Ahora voy a escoger una opción diferente

00:38:39.300 --> 00:38:48.760
que es clic derecho y hay una opción que dice oncomponentokey y conecto. ¿Qué diferencia hay?

00:38:50.000 --> 00:38:59.380
El onsujocokey divide en varios suyos y el oncomponentokey, bueno en el onsujocokey,

00:38:59.380 --> 00:39:05.980
hay error en el primer suyoc, no se ejecuta el segundo suyoc. Ahora he escogido oncomponentokey,

00:39:05.980 --> 00:39:13.320
lo que quiere decir entonces es que ahora tengo un solo suyoc y solamente el elemento que se

00:39:13.320 --> 00:39:21.280
llama HDFSput se ejecuta siempre y cuando no haya un error en el elemento anterior. O sea,

00:39:21.520 --> 00:39:29.360
siempre y cuando. El componente cuando lo ejecuté no dio ningún error. Esa es la

00:39:29.360 --> 00:39:33.600
misma suyoc y solamente se ejecuta el siguiente siempre y cuando el componente

00:39:33.600 --> 00:39:37.240
no haya tenido error. Voy a hacer lo siguiente ahora, vamos a darle clic derecho aquí,

00:39:38.900 --> 00:39:56.600
disparador y escoge oncomponenterror t1. Y ahí está. Bueno, en este caso ¿qué

00:39:56.600 --> 00:40:02.280
pasaría? Si hay un error de conexión, entonces mandaría en este caso un log y no se mandaría

00:40:02.280 --> 00:40:11.080
a consola ese error que pasó. Eso es lo nuevo que he agregado aquí que son ese que no lo

00:40:11.080 --> 00:40:18.140
había visto en los cursos anteriores. Bueno, en realidad era para cambiar el ejercicio,

00:40:18.560 --> 00:40:22.940
pero hay que entender la diferencia. Si coloco un suyoc me quedan dos suyoc diferentes y

00:40:22.940 --> 00:40:27.300
oncomponent me queda un solo suyoc. Sí, es para entender, de pronto tengas un contexto que

00:40:27.300 --> 00:40:33.440
necesites mejor un suyoc que oncomponent. Ok, para dividirlo. Sí, pero me hubiese fusionado

00:40:33.440 --> 00:40:37.180
exactamente igual si hubiese colocado un suyoc. Ok, para este caso. Bueno, listo,

00:40:37.240 --> 00:40:45.580
ahora vamos al componente que se llama y vamos a confiarlo HDFSput. Este ahora ¿qué pasa?

00:40:45.640 --> 00:40:50.620
Todos los componentes de HDFS tienen que tener una conexión. Como ya yo definí la

00:40:51.200 --> 00:40:57.740
conexión, lo mejor ahora es que yo diga voy a usar una conexión existente. Doy click en usar

00:40:57.740 --> 00:41:03.260
conexión existente y escojo del listado que nada más debe haber una, la primera conexión que

00:41:03.260 --> 00:41:09.540
es la que ya definí. Listo, vamos entonces a lo siguiente ahora. Para este ejemplo vamos a

00:41:09.540 --> 00:41:15.500
explorar el archivo de Windows y vamos a crear una carpeta que tenga aquí, temporal.

00:41:17.060 --> 00:41:21.060
Y en temporal vas a crear una subcarpeta llamada descargas.

00:41:25.180 --> 00:41:29.060
Descargas, ahí confirmo algo para ver si lo agregué. Perfecto Luis, listo.

00:41:31.840 --> 00:41:40.700
En temporal y descarga. Ahora, en el escritorio de la máquina virtual vas a encontrar un

00:41:40.700 --> 00:41:44.960
archivito que dice URL carpeta compartida por los problemas que tuvimos la última vez. Aquí

00:41:45.920 --> 00:41:53.280
toma esa URL por favor y la colocas en el browser.

00:41:58.400 --> 00:42:06.440
Y está la carpeta descarga de la carpeta, perdón, esta es la carpeta TBD, está la

00:42:06.440 --> 00:42:17.880
data y descarga la carpeta que se llama Dataset, por favor, Dataset. Dataset la descargamos.

00:42:21.660 --> 00:42:24.880
Está en el escritorio que se llama URL carpeta compartida.

00:42:43.060 --> 00:42:48.220
Por favor, la descomprime y la pegas todos los archivos que descomprimiste,

00:42:49.920 --> 00:42:54.660
Dataset voy a descomprimirla y los archivos lo voy a pegar en mi temporal.

00:42:56.160 --> 00:43:01.380
Aquí tengo estos archivos que son trageo.csv y lo voy a pegar aquí en mi temp.

00:43:02.880 --> 00:43:07.740
Bueno, listo, te quedo en tu temporal. Perfecto, listo, creo que ya todos tenemos

00:43:07.740 --> 00:43:13.400
falta todavía algunos. Bueno, perfecto.

00:43:17.120 --> 00:43:22.820
Vayamos entonces ahora nuevamente al talent big data y nos quedamos en la configuración del

00:43:22.820 --> 00:43:30.180
hdfs puto. Te pregunta, local directorio donde vamos a tomar como referencia los

00:43:30.180 --> 00:43:35.720
archivos que deseamos subir al hdfs, entonces dale click aquí en el botón y vamos a escoger

00:43:35.720 --> 00:43:40.900
en este caso la carpeta ten. Temporal, escoge la carpeta.

00:43:45.060 --> 00:43:51.740
¿Quién me habló? ¿Quién me habló? Ah, Jasmine, váyase al escritorio por favor,

00:43:51.740 --> 00:43:58.660
al escritorio de la máquina, en el escritorio de la máquina y va a encontrar en el escritorio

00:43:58.660 --> 00:44:02.140
un archivito que se llama url carpeta compartida, por favor ahí lo tienes,

00:44:02.220 --> 00:44:07.420
ahí lo tienes, url compartir, el penúltimo, doble click, tome esa url y la coloca en

00:44:07.420 --> 00:44:12.700
el browser entonces. Váyase a la carpeta tbd, que está en big data que es la segunda,

00:44:14.340 --> 00:44:22.840
descargue el archivo que se llame data set, data set. Descárguese los tres archivos si

00:44:22.840 --> 00:44:28.440
usted quiere o descargue la carpeta como ustedes quieren. Ahora la descomprime y los pega en su

00:44:28.440 --> 00:44:34.640
carpeta temporal en descarga, descomprímalo por favor. Está descargado todavía, está

00:44:34.640 --> 00:44:41.180
descargado todavía, creo que pesa como 50 megabytes, está descargando. Voy a hacer la

00:44:41.180 --> 00:44:46.620
para ver a browser para estar descargando. Ah ya, ya descargó, ya descargó. Data set son 96

00:44:46.620 --> 00:44:52.480
megabytes, no es mucho. Es traer aquí, toma esos archivos y los manda entonces a la carpeta temporal

00:44:52.480 --> 00:44:57.160
que tiene usted ahí. Temporal, listo. Y ahí le falta una su carpeta que es descargas.

00:44:57.640 --> 00:45:08.840
Vamos a utilizar ahora, carpeta, descargas. Vamos al talent, big data y donde dice local

00:45:08.840 --> 00:45:14.160
directorio por favor en el botón, en el botón al final, escoja la carpeta T.

00:45:16.880 --> 00:45:21.200
Temporal, en ese caso usted la llamo temporal. Entra temporal y le da a seleccionar carpeta

00:45:21.200 --> 00:45:27.280
temporal, acceda, doble clic y le da a seleccionar carpeta. Y por ahí vamos, listo,

00:45:27.340 --> 00:45:34.840
por ahí vamos. Ahora, en el HDFS directorio recuerda que habíamos creado una carpeta que

00:45:34.980 --> 00:45:43.540
llama inputs. Debería, como ese señor está en linux allá, entonces tiene que ser slash y

00:45:43.540 --> 00:45:49.380
como el linux es en cilia mayúscula y minúscula, exactamente igual. Inputs,

00:45:49.400 --> 00:45:55.400
todo en minúscula. Segundo me pide el action file, así como el action data. Aquí hay dos,

00:45:56.180 --> 00:45:59.440
crear y sobreescribir. Crear lo que hace es que, bueno, lo que la primera vez,

00:45:59.640 --> 00:46:04.900
segunda vez, si está creado, manda error. Entonces, si usted va a ejecutar varias veces

00:46:04.900 --> 00:46:11.520
este job, escoja sobreescribir. Si no está creado, pues lo crea y si ya está creado,

00:46:11.600 --> 00:46:18.640
pues lo sobreescribe. Y aquí adicione en el file max, esta parte ya, no recuerdo este,

00:46:18.860 --> 00:46:23.700
per, 5 ahora voy a buscar para ver, no recuerdo si es per 5 o cualquiera. Agreguemos aquí una

00:46:23.700 --> 00:46:34.880
fila y en el file max va a colocar el archivo que está en esa carpeta que va a subir. Ese

00:46:34.880 --> 00:46:42.440
es el archivo que se llama, productium.csv. Voy a subir el archivo que se llama productium.csv.

00:46:44.820 --> 00:46:49.420
Productium tiene que coincidir, bueno, como es windows, no hay problema con la mayúscula y

00:46:49.420 --> 00:47:00.540
minúscula, no debería, productium.csv. Y acá en el name, va a colocar el name como quiere

00:47:00.540 --> 00:47:07.640
que se agregue en hadut. En este caso voy a colocar el mismo, productium y productium de

00:47:07.640 --> 00:47:16.140
este lado. Voy a subir otro archivo, el otro se llama, creo que, team nba, team nba.csv.

00:47:17.020 --> 00:47:26.540
Entonces voy a agregar aquí el nombre team nba, team nba, team underscore, me pasa que dice, nba.

00:47:29.420 --> 00:47:43.060
Le puse el guión, .csv. Confirmo para ver, era team nba, sí, ccv. Y voy a colocar el

00:47:43.060 --> 00:47:50.020
mismo nombre para que lo suba, listo, .c, listo, pego aquí. Perfecto, voy a entonces,

00:47:50.020 --> 00:47:58.520
creo que tiene más nada. Bueno, aquí voy a ejecutar directamente. Aquí, no sé qué pasó,

00:47:58.600 --> 00:48:09.960
voy a ejecutar nuevamente. No sé qué pasó ahí. Si no hay ningún error, debió subir esos dos

00:48:09.960 --> 00:48:15.460
archivos, dale ok ahí, Bernardo, ok. Y te vas a la pestaña run yo para lo vuelve a ejecutar

00:48:15.460 --> 00:48:24.980
nuevamente. Está creando el código java ahí, está generando el código java. Debimos colocarle

00:48:24.980 --> 00:48:33.440
más memoria a este talent para que sea un poco más rápido. Bueno, ahora sí va a empezar la

00:48:33.440 --> 00:48:39.100
ejecución en el caso mío. Ahí tengo un pequeño warning de configuración de algo de la versión

00:48:39.100 --> 00:48:47.420
del componente con el hadut. Y listo, en el caso mío funcionó y debería coincidir. Voy al

00:48:47.420 --> 00:48:53.540
browser de HDFS, a la interfaz. Voy a darle click aquí en input y deberían estar los dos

00:48:53.540 --> 00:49:03.440
archivos. El caso tuyo. Martina, listo. Martina, colocaste el nombre en plural,

00:49:03.440 --> 00:49:16.260
y es productium. Vete al HDFput. ¿Me dijiste cuál configuración, la de el HDFput o la de

00:49:17.020 --> 00:49:22.380
connectium? Aquí está. Acá abajo están los nombres que están en la carpeta ten que queden

00:49:22.380 --> 00:49:28.560
coincidir exactamente. Por lo menos el nombre, porque señores Windows. Alejandro, vamos con el

00:49:28.560 --> 00:49:37.180
caso tuyo. ¿Lo subiste? ¿Es qué? Sí, te di un error. Listo, ahora lo siguiente. Alejandro,

00:49:37.340 --> 00:49:42.520
vete a la configuración del HDFconnectium, por favor. Vete a tu HDFconnectium, designer,

00:49:43.300 --> 00:49:57.080
HDFconnectium. Doble click. Y la IP del server es 10.3. Confírmame, .250, 9000. Perfecto,

00:49:57.080 --> 00:50:03.360
ahí está bien. Sí, ¿Por qué salió error ahí? Está bien. Ahora, vete a tu HDFput un momento,

00:50:04.040 --> 00:50:08.980
HDFput. Ahí está el problema. Lo que pasa es que tienes que usar la conexión existente.

00:50:09.160 --> 00:50:13.220
Dale click en la segunda opción donde dice un checkbox. Hay un checkbox, el primer checkbox.

00:50:13.580 --> 00:50:17.160
Dale usar conexión existente. En el primer checkbox, ese que está al lado izquierdo,

00:50:18.160 --> 00:50:23.740
ahí está el mouse. Hay un checkbox que dice usar una conexión existente. Un poquito más

00:50:23.740 --> 00:50:29.740
arriba. Ese, ese que está ahí. Sí, porque no intenta comentarte de manera local. Dale,

00:50:30.000 --> 00:50:37.380
chuléalo, por favor. Y ahora escoge, ahí donde dice component list, la conexión del HDFconnectium.

00:50:38.420 --> 00:50:43.840
En component list, que está vacío, dale click ahí y escoge HDFconnectium. Dale ejecutar.

00:50:44.120 --> 00:50:49.420
Perfecto. Búscate ahora en el browser HDFS y debió subir. Dale F5 ahí, por favor.

00:50:51.400 --> 00:50:57.960
Debió subir los dos archivos. Ah, tú lo subiste directamente al root, no a la carpeta de input.

00:50:58.060 --> 00:51:04.920
Perfecto, no hay ningún problema. No hay ningún problema. Martina, vamos a ver qué pasa contigo.

00:51:04.960 --> 00:51:10.040
Ah, ya lo subiste, perdón. Listo, creo que ya subiste. Héctor, vamos a ver, Héctor,

00:51:10.160 --> 00:51:18.260
qué error marcó. Búscate la carpeta. Vete el HDFput. El HDFput, por favor. Y mírame la

00:51:18.260 --> 00:51:28.560
carpeta local a donde apunta. La carpeta local apunta a cedo punto ten. Creo que ese señor tiene

00:51:28.560 --> 00:51:34.460
un problema con ese bendito slash. Cambian el slash de ten, de ese se llama slash,

00:51:34.640 --> 00:51:39.040
colócalo el backslash. Claro que yo no, a veces me pierdo. Ejecuta nuevamente para ver si

00:51:39.040 --> 00:51:45.640
ese es el root. Sí, el señor es un poquito delegado con eso. Dale F5 ahí. Aquí estás en

00:51:46.420 --> 00:51:56.540
los dos archivos. Listo, perfecto, sigamos entonces. Sí, sigamos, sigamos. Veamos para

00:51:56.540 --> 00:52:03.360
ver entonces, permítame y veo tu pantalla, Jasmine. Vamos a ver. Listo, pero si subió,

00:52:03.860 --> 00:52:09.520
no. Vete a tu, muéstrame tu HDFput antes que te vayas para allá para ver dónde lo mandaste.

00:52:09.520 --> 00:52:19.200
Vete a tu HDFput y lo mandaste a input. Listo, vete ahora a tu browser y muéstrame la interfaz

00:52:19.200 --> 00:52:25.020
del HDFS. Entra a inputs ahí, al lado derecho de la carpeta que está al final, inputs,

00:52:25.220 --> 00:52:37.200
entra la carpeta. Ahí donde está inputs, click ahí y están allá adentro. Bien, vamos a

00:52:37.200 --> 00:52:45.960
ver la descarga de un archivo. Entonces vamos a aplicar con buena práctica. El problema que

00:52:45.960 --> 00:52:51.620
tengo es que esa IP que tengo ahí es fija. Esa IP al dejarla fija ahí va a tener un problema

00:52:51.620 --> 00:52:55.820
cuando estoy en developer y voy a pasar a Cuba o a producción, donde se vio no me puede

00:52:55.820 --> 00:53:01.780
cambiar. Entonces voy a definir los siguientes contextos aquí. Click derecho aquí, crear

00:53:01.780 --> 00:53:08.660
contexto de grupo. Voy a llamarlo AXA. Esto lo hicimos solamente en el caso del

00:53:08.660 --> 00:53:16.540
talent integration, pero bueno, puede usarlo acá. De igual forma, next. Y solamente voy

00:53:16.540 --> 00:53:22.880
a definir un solo ambiente, pero dos variables. Voy a definir la variable que voy a llamar

00:53:22.880 --> 00:53:36.720
y el valor, dirección, under score servidor, under score hadut y el valor dirección under

00:53:36.720 --> 00:53:51.420
score servidor hadut y la dirección es 10.0.3.250. Todo es igual. Dirección servidor hadut y el

00:53:51.420 --> 00:54:07.980
valor 250. Agregue otra variable. Colóquelo ruta under score raíz y aquí coloca slash

00:54:07.980 --> 00:54:14.600
inputs que es la carpeta que definimos allá. Esto para asociar la buena práctica porque

00:54:14.600 --> 00:54:20.400
si dejo esto que estoy en developer, lo dejo pegado de esa forma cuando vaya

00:54:20.400 --> 00:54:24.680
a pasar a QA y después a producción voy a tener unos problemas que me toca modificar

00:54:24.680 --> 00:54:29.920
mucho para cambiar. Simplemente cambio la variable de entorno y fuera list de configuración.

00:54:30.220 --> 00:54:36.240
En la variable de configuración no hay entorno. En el entorno de, nada más tenemos uno que es

00:54:36.240 --> 00:54:50.880
default. Vamos aquí a finish. Perfecto. Por favor, ahora agregue un nuevo job. Sí,

00:54:50.940 --> 00:55:03.020
dígame. Claro. Claro, cómo no. Claro, cómo no. Sí, señor. Next. Aquí tengo

00:55:03.020 --> 00:55:12.260
dos variables. Una que se llama dirección servidor hadut con valor 10.0.3.250 y tengo

00:55:12.260 --> 00:55:23.840
una que se llama ruta raíz con valor slash inputs. Listo. Perfecto. Finish aquí. Ahora,

00:55:23.940 --> 00:55:29.160
note lo siguiente. Yo he usado este componente que se llama HDFS connection y lo estoy

00:55:29.160 --> 00:55:35.520
usando aquí. Cuando es recomendable usar este componente, cuando tú tengas varios

00:55:35.520 --> 00:55:40.820
componentes HDFS y para evitar configurar uno por uno, nada más configuras una conexión

00:55:40.820 --> 00:55:45.340
y listo. Todo el mundo toma la configuración. Pero vamos a ver el caso en que de pronto

00:55:45.340 --> 00:55:49.720
nada más tenga un solo componente. Va a ser lo diferente. Ahora click de derecho

00:55:49.720 --> 00:56:02.080
vamos a crear un nuevo job y lo voy a llamar job descargar, descargar on the record, archivo

00:56:02.080 --> 00:56:14.100
on the record hadut. Job descargar archivo hadut. Vamos a esperar. Voy a cerrar el

00:56:14.100 --> 00:56:28.500
anterior y voy a agregar aquí un archivo que se llama HDFS y este componente es el

00:56:28.500 --> 00:56:36.700
componente get. Este get nos va a permitir obtener o descargar un archivo que esté

00:56:36.700 --> 00:56:44.100
en un sistema de ficheros de hadut. En este caso HDFS se llama el sistema de ficheros.

00:56:45.240 --> 00:56:53.500
THDFS Martina. Listo perfecto. Y aquí voy a agregar dos componentes que fue el primer

00:56:53.500 --> 00:57:07.920
ejemplo que hicimos que es un TMS, TMSG box. Voy a agregar dos de este tipo. Uno aquí

00:57:07.920 --> 00:57:16.640
voy a copiar este componente y lo voy a pegar acá. En este caso no vamos a usar

00:57:16.640 --> 00:57:21.700
Ernesto connection. La idea es hacerlo un poco diferente al anterior. Nada más deja

00:57:22.500 --> 00:57:30.140
por favor nada más el get. Vamos entonces al HDFS get y dese cuenta que tiene la misma

00:57:30.140 --> 00:57:36.560
configuración de un connection. ¿Cuándo debería usar el connection? Cuando esa conexión la vas

00:57:36.560 --> 00:57:43.660
a re-usar en n veces. Entonces como nada más tengo uno solo puedo conectar directamente sin

00:57:43.660 --> 00:57:48.780
HDFS connection. Puedo conectarlo directamente en el componente. Entonces el primer ejemplo lo

00:57:48.780 --> 00:57:54.680
mostrar el HDFS connection que en el mejor de los casos lo vas a usar cuando tengas varios

00:57:54.680 --> 00:58:00.760
tipos componentes HDFS. ¿Para qué? Para que no tenga que configurar cada una de ellas.

00:58:01.240 --> 00:58:09.120
Entonces vamos aquí en distribución. Sería universal. Como he agregado unos contextos

00:58:09.120 --> 00:58:14.700
a nivel de proyectos, vete a la pestaña de context del job que está en la misma

00:58:14.700 --> 00:58:27.580
perspectiva de configuración y le dices aquí donde está la libreta con el chulito y vas a

00:58:28.360 --> 00:58:36.600
importar el contexto que tienes a nivel del proyecto. Vete aquí al room, perdón,

00:58:36.720 --> 00:58:40.100
vete nuevamente a la configuración del componente, el TS get, dale doble clic en el

00:58:40.100 --> 00:58:49.120
HDFS get y vamos entonces a hacer lo siguiente. Te va a quedar, te lo voy a mostrar cómo te

00:58:49.120 --> 00:58:57.880
queda inicialmente. Este señor va a borrar el localhost y te debería quedar de esta manera.

00:58:58.180 --> 00:59:08.140
Aquí borra este localhost, cierra comilla doble, le das aquí más, más comilla doble.

00:59:09.280 --> 00:59:13.700
Vamos a agregar una variable intermedia ahí. ¿Sabes qué hubiese sido mejor práctica? Colocar

00:59:13.700 --> 00:59:19.160
toda la URL completa. No sé para qué coloque esa URL. O sea, HDFS las hubiese sido más

00:59:19.160 --> 00:59:27.280
sencillas. Pero bueno, ya está. Te quedaría de esta forma y entonces copias esto. Lo pegas

00:59:27.280 --> 00:59:34.180
aquí y entre los más vas a colocar la palabra con, con todo el espacio y vas a buscar la

00:59:34.300 --> 00:59:39.140
versión del servidor. Y de esa forma pues puedes cambiar la variable en una sola parte

00:59:39.140 --> 00:59:49.100
y automáticamente todo va a estar. Ahora mira lo que te pide. Te pide el HDFS directorio

00:59:49.100 --> 00:59:53.260
donde va a tomar los archivos que va a descargar. Entonces ya lo habíamos configurado. Borra

00:59:55.240 --> 01:00:00.960
esos signos de comilla doble, borrar los todos y colocas con, controlespacio y buscas

01:00:00.960 --> 01:00:09.920
context-ruta-raíz. Te pide ahora el directorio local y con la, el botón escoge dentro de temporal

01:00:09.920 --> 01:00:15.460
la carpeta descargas. Seleccionar carpeta. En el add-on file coloca sobre escribir,

01:00:15.560 --> 01:00:21.580
por si acaso vamos a ejecutar varias veces, sobre escribir. Y es muy parecido al put.

01:00:21.740 --> 01:00:27.980
Aquí en el file max voy a decir el archivo que está en hadut que voy a descargar. Entonces

01:00:27.980 --> 01:00:39.480
se llama producción, el file max, producción, production.csv y acá lo voy a llamar simplemente

01:00:41.960 --> 01:00:49.640
copy.csv para cambiar el nombre. El file max es el nombre de archivo original y el new name sería

01:00:49.640 --> 01:00:56.520
el nombre del archivo con que quiere que se descargue la copy. Seguimos. Si agregamos

01:00:56.520 --> 01:01:05.840
algo diferente que es muy interesante. Vamos a conectar el HDFS get con el T mesa boss.

01:01:06.960 --> 01:01:14.080
Entonces vamos a hacer lo siguiente, dele clic derecho al T get HDFS get y vamos donde dice

01:01:14.080 --> 01:01:19.080
disparador y vamos a coger un disparador diferente. Vamos a coger un disparador que

01:01:19.080 --> 01:01:28.740
dice run if, o sea ejecuta si. Run if, soltamos de este lado aquí. Significa que ahora se va

01:01:28.740 --> 01:01:34.740
a ejecutar el señor siempre y cuando se cumpla una condición. Run if, clic derecho, disparador,

01:01:35.040 --> 01:01:43.680
echo run if. Dale doble clic al if. Bueno, perdón, al if no es, es a la línea del if,

01:01:43.880 --> 01:01:50.860
a la línea del if doble clic y te aparece una interfaz, un textalia que dice condición. Si

01:01:50.860 --> 01:01:59.220
lo ubicas, run if, lo ejecutas, después le das clic a la línea que tiene el if y sale un

01:01:59.220 --> 01:02:04.940
menú que dice condición. Y vamos a ver una perspectiva que es sumamente importante que no

01:02:04.940 --> 01:02:12.340
lo habíamos visto. Esta perspectiva busque en la parte inferior izquierda. Hay una

01:02:12.340 --> 01:02:21.880
perspectiva que se llama outline. Y ahí le dice todos los componentes que tiene en el job.

01:02:22.780 --> 01:02:30.620
Note lo siguiente ahora, el if está conectado de entrada con el HDFS get y va hacia T mesa

01:02:30.620 --> 01:02:37.740
voz. Entonces, como la entrada viene el get, busque en el outline, expanda las opciones de

01:02:37.920 --> 01:02:45.940
código que ofrece el HDFS get. Expandala aquí, clic y mira que cuando expandes te ofrece un

01:02:45.940 --> 01:02:51.520
conjunto de variables. Te aparece mensaje de error si hay, número de archivos, curren

01:02:51.520 --> 01:02:59.520
status, mensaje de transferencia. Me interesa el archivo que se llama number of file y te dice

01:02:59.520 --> 01:03:05.920
cuando se ejecuta, se ejecuta después del componente. Entonces, tome este señor y lo

01:03:06.200 --> 01:03:11.320
suelta de este lado, clic sostenido y lo suelta de este lado. Ese me va a colocar el número de

01:03:11.320 --> 01:03:17.220
archivos transferidos. Entonces, voy a hacer la comparación aquí al final con Java. Si esto

01:03:17.220 --> 01:03:22.660
es igual a cero, voy a transferir solamente uno, indica que si es igual a cero hay un error.

01:03:22.840 --> 01:03:32.240
Colóclele doble igual cero. Eva aquí me dice la encargada que hay un participante,

01:03:32.240 --> 01:03:36.360
no sé que de más, que va a revisar. Bueno, lo importante es que ya me respondió Eva. Ahora

01:03:36.360 --> 01:03:43.480
vemos cómo hacemos para copiar la máquina mía para que no te atropecen mucho. Listo, vamos,

01:03:43.780 --> 01:03:55.180
sigamos entonces. Ah, el error estaba, según aquí me cuenta, es que estaba Chantal y Chantal

01:03:55.180 --> 01:04:01.300
no estaba en el grupo. Intenta conectarte ahora nuevamente para ver. Por favor, me

01:04:01.300 --> 01:04:09.080
da un momento a ver si solucionamos el problemita de aquí de Eva. Yo miro la ventana. Intenta

01:04:09.080 --> 01:04:10.340
conectarte ahora para ver.