你将学到什么
Presentar las diferentes herramientas tanto comerciales como de Open Source que permiten la manipulación, administración y análisis de datos.
Conocer que es una base de datos y su importancia en los proyectos de ciencia de datos.
Conocer los beneficios que los servicios del cómputo en la nube proveen a los proyectos de ciencia de datos.
课程概况
Cuando se trata de herramientas para el análisis de datos, siempre tenemos las siguientes preguntas: ¿Cuál es la diferencia entre tantas herramientas que existen?¿Cuál es la mejor?¿Cuál deberia aprender?
Las funciones que realizan los científicos de datos incluyen la identificación de preguntas relevantes, la recopilación de datos de diferentes fuentes de datos, la organización de datos, la transformación de datos a la solución y la comunicación de estos hallazgos para tomar mejores decisiones comerciales.
Las herramientas de ciencia de datos o Data Science pueden ser de dos tipos:
Uno para aquellos que tienen conocimientos de programación
Otro para los usuarios comerciales.
Las herramientas para el primer tipo, tienen que ver con el área de las tecnologías de información en donde se busca que la persona tenga conocimientos de algún lenguaje de programación como R o Python y comunmente a estas personas se les denomina científicos de datos.
Las herramientas que son para usuarios comerciales se enfocan en automatizar el análisis de datos; en este tipo, los usuarios tienen conocimientos básicos de un lenguaje de programación, pero un fuerte conocimiento del área de dominio; por lo que se han empezado a llamar ciudadanos cientificos de datos.
Estas herramientas te permitirán tomar las mejores decisiones basadas en el análisis de datos (también conocido como inteligencia de negocios).
课程大纲
Ciencia de Datos; Base de datos; Herramientas para Ciencia de Datos; Cómputo en la Nube.
预备知识
Conocimientos sobre lenguajes de programación (deseable R o Python) y lenguajes para la manipulación de datos (SQL)
常见问题
¿Qué es Ciencia de Datos?
R= Es un campo interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sean estructurados o no estructurados.
¿Qué es una base de datos?
R= Una base de datos es un conjunto de datos pertenecientes a un mismo contexto y almacenados sistemáticamente para su posterior uso.
¿Qué es NonSQL?
R= Es un modelo nuevo para la gestión de datos en donde éstos no requieren estructuras fijas como tablas. Son un enfoque hacia la gestión de datos y el diseño de base de datos que son útiles para grandes conjuntos de datos distribuidos.
¿Qué es R y Python?
R= Python y R son los dos lenguajes de programación más usados para la ciencia de datos: minería y visualización de información compleja. R es un lenguaje potente; Python es versátil y con una curva de aprendizaje corta.
¿Cuáles son las herramientas mas utizables?
R= Actualmente se ha disparado el mercado de herramientas para la aplicación de la ciencia de datos, teniendo opciones comerciales como SAS; Watson de IBM; Oracle Analytics Cloud; SAP Cloud Analytics; DataRobot; etc., pero también en el area del Open Source: Anaconda; Spark; Scikit-learn; TensorFlow; etc.