Cómo funciona - Microsoft Lync 2013, con integración de vistas

La mayoría de las nuevas empresas eventualmente necesitan una solución robusta para almacenar grandes cantidades de datos para el análisis. Tal vez se está ejecutando una aplicación de video tratando de comprender usuario dejar o que está estudiando el comportamiento del usuario en su página web como lo hacemos en creíble.

Podría empezar con algunas tablas de la base de datos primaria. Pronto puede crear una aplicación web independiente con una tarea programada cada noche para sincronizar los datos. Antes de que usted lo sepa, usted tiene más datos de los que puede manejar, puestos de trabajo están tomando demasiado tiempo, y se le está pidiendo para integrar los datos de más fuentes. Aquí es donde un viene muy bien. Esto permite a su equipo para almacenar y terabytes de consulta o incluso petabytes de datos de muchas fuentes sin necesidad de escribir un montón de código personalizado.

En el pasado, sólo las grandes empresas como Amazon tenían almacenes de datos porque eran caros, difíciles de instalar, y requiere mucho tiempo de mantener. Con AWS corrimiento al rojo y Ruby, le mostraremos cómo configurar su propia sencilla, barata y almacenamiento de datos escalable. Nosotros le podemos ofrecer que le mostrará la manera de extraer, transformar y cargar (ETL) de datos en corrimiento al rojo, así como la forma de acceder a los datos de una aplicación Rails.

Parte I: La creación de AWS Redshift

Creación de un clúster de corrimiento al rojo

Elegimos la oferta de corrimiento al rojo de AWS porque es fácil de configurar, de bajo costo (es AWS después de todo), y su interfaz es muy similar a la de Postgres por lo que se puede gestionar el uso de herramientas como, un gestor de base de datos PostgreSQL para OSX, y utilizar con Ruby a través de una. Vamos a empezar por la tala en la consola AWS y la creación de un nuevo grupo de corrimiento al rojo. Asegúrese de anotar la información de clúster, ya que lo necesitará más adelante.

Vamos con un único nodo aquí para entornos de desarrollo y control de calidad, pero para la producción, tendrá que crear un clúster de varios nodos para que pueda obtener la importación más rápido y consulta, así como manejar más datos.

Puede cifrar opcionalmente los datos y habilitar otras opciones de seguridad aquí. Usted puede ir con los valores predeterminados que el resto del camino para los propósitos de este tutorial. Tenga en cuenta que usted comenzará a incurrir en gastos una vez que crear el clúster ($ 0.25 por hora para DC1.Large y primeros 2 meses gratis).

Cuando haya terminado, verá una página de resumen para el clúster. Por favor, anote el nombre de host en el punto final.

De manera predeterminada, no se le permite conectarse al clúster. Puede crear uno para su equipo, vaya a Seguridad> Añadir Tipo de conexión> autorizo-AWS completará automáticamente su dirección IP actual para mayor comodidad.

Verificación del clúster

Ahora, vamos a tratar de conectar al clúster mediante. Tendrá que crear un favorito y rellenar la información que utilizó para crear el clúster. Tenga en cuenta que la URL de punto final que obtuvo de la agrupación de corrimiento al rojo contiene el host y el puerto-usted necesidad de ponerlos en campos separados.

Si tiene éxito, verá algo como esto.

Felicidades, usted ha creado su primer almacén de datos! Para su entorno de producción, es posible que desee para reforzar la seguridad o utilizar un clúster de varios nodos de redundancia y rendimiento.

El siguiente paso es configurar corrimiento al rojo para que podamos cargar datos en él. Corrimiento al rojo actúa como Postgres en su mayor parte. Por ejemplo, es necesario crear las tablas antes de tiempo y que necesita para especificar los tipos de datos para cada columna. Hay algunas diferencias que pueden hacerte tropezar. Nos encontramos con problemas al principio porque los tipos de datos por defecto Rails no se asignan correctamente. Los siguientes son algunos ejemplos de los tipos de datos rieles y cómo deben ser asignada a Redshift:

número entero => int
cadena => varchar
Fecha => fecha
datetime => indicación de la hora
booleano => bool
text => varchar (65535)
decimal (precisión, escala) => decimales (precisión, escala)

Tenga en cuenta que la columna ID debe ser del tipo "BIGINT". El tiene más detalles. Así es como hemos mapeado la tabla "usuarios" para la aplicación de ejemplo.

También debe tener en cuenta que no ha correlacionado todos los campos. Usted querrá omitir campos sensibles como "contraseña" o añadir campos en una medida que sea necesario para reducir la complejidad y los costes.

Parte 2: extracción, transformación y carga (ETL)

Crear una S3 Bucket

Tendrá que crear un depósito de S3, ya sea a través de la consola de AWS oa través de su API. Para este ejemplo, hemos creado uno llamado "corrimiento al rojo-rubí-tutorial".

Configuración de la aplicación de ejemplo

Hemos creado una para esta parte. Contiene una tabla de usuarios, algunos datos de la semilla, y una clase Loader que llevará a cabo ETL. El enfoque de alto nivel es dar salida a los datos de usuario a archivos CSV, subir los archivos a un cubo de AWS S3, y luego desencadenar corrimiento al rojo para cargar los archivos CSV.

Vamos a empezar por clonación de la aplicación:

git clone git@github.com: tuesy / desplazamiento hacia el rojo-rubí tutorial.git
Previous Post Next Post