jueves, 15 de diciembre de 2016

FAMA: Diplomado en Ciencia de los Datos con R

La Fundación para el Avance de las Matemáticas (FAMA) presenta su Diplomado en Ciencia de los Datos con R

DESCRIPCION 

La ciencia de los datos (Data Science por su nombre en inglés) se refiere al conjunto de técnicas estadísticas a utilizar para el entendimiento y posterior modelaje de sets de datos complejos. Es un área de estudio relativamente nueva en el área de Estadísticas, junto con el desarrollo de la computación, en particular, el aprendizaje automático (machine learning en inglés). Con la nueva tendencia de problemas con “Big Data”, la ciencia de los datos se ha vuelto un área importante en la toma de decisiones en ciencias como el mercadeo, finanzas, entre otros. Por esta razón, profesionales con conocimientos de estas herramientas son cada vez más demandados en el ámbito laboral.

El diplomado estará divido en tres módulos: Introducción a la utilización del software R, Métodos de Aprendizaje sin Supervisión y Métodos de Aprendizaje Estadístico con Supervisión.

Cada módulo será de 7 clases de tres horas cada una. 

HORARIO: Martes de 7:00 a 10:00 pm. 

INICIO: 17 de enero de 2017

OBJETIVOS

1.     Conocer los distintos tipos de datos existentes y cómo analizar cada tipo.
2.     Conocer distintos métodos de procesar datos antes de analizarlos.
3.     Aprender técnicas de división de datos y muestreo útiles para modelaje.
4.     Entender diferentes técnicas de regresión utilizadas para predecir.
5.     Aprender métodos de modelaje para clasificación.
6.     Aprender a modelar utilizando el software R.

CONTENIDOS

Módulo I: Programación en R.
I.                 Introducción a R.

a.      ¿Qué es R?
b.      Instalación de R y RStudio.
c.      Lenguaje de Programación de R.
d.      Importancia de los Paquetes.
e.      Tipos de Objetos.
f.       Tipos de Formatos.

II.                Ingreso, Manejo y Exportación de Datos.

a.      Lectura de Datos.
b.      Limpieza de Datos.
c.      Funciones Condicionales.
d.      Acceso a variables dentro de un data frame.
e.      Acceso y creación de submuestras de datos.
f.       Combinación de dos data frames con identificador común.
g.      ¿Cómo exportar datos?
h.      Formato para variables categóricas.

III.              Funciones Simples.

a.      La función apply y sus variaciones.
b.      La función summary.
c.      La función table.

IV.              Introducción a Herramientas Básicas de Gráficos.

a.      La función plot.
b.      Símbolos, Colores y Tamaños dentro de los gráficos.
c.      Múltiples objetos en un mismo gráfico.
d.      Diagramas de Pastel (Pie Charts).
e.      Gráficos de Barras (Bar Charts).
f.       Gráficos de Puntos (Boxplots y Dotplots).

V.               Análisis Exploratorio de los Datos.

a.      Ordenar variables y observaciones.
b.      Estadísticas Descriptivas.
c.      Distribución de Probabilidad de los Datos.
d.      Detección de Observaciones Influenciales.
e.      Detección de Observaciones Atípicas.

VI.              Tópicos Avanzados.

a.      Repetición Códigos automáticamente (Loops).
b.      Introducción a Funciones.
c.      La Covarianza.
d.      El Coeficiente de Correlación.
e.      El Coeficiente de Determinación.





Módulo II: Aprendizaje Estadístico Supervisado.

VII.            Introducción al Aprendizaje Estadístico.

a.      ¿Qué es el aprendizaje estadístico?
b.      Trade-Off entre Precisión de la Predicción e Interpretabilidad.
c.      Precisión de Modelos de Regresión.
d.      Precisión de Modelos de Clasificación.

VIII.           Métodos de Remuestreo.

a.      Validación Curzada (Cross Validation) y su importancia.
b.      Bootstrapping.

IX.              Regresión Lineal.

a.      Regresión Lineal Simple.
b.      Regresión Lineal Múltiple.
c.      Información Cualitativa en Modelos de Regresión Lineal.
d.      Extensiones del Modelo de Regresión Lineal.
e.      Problemas Potenciales del Modelo de Regresión Lineal.

X.                Selección de Modelos Lineales y Regularización.

a.      Métodos de selección de variables explicativas.
b.      Técnicas de Regularización.
c.      Consideraciones en Análisis con Alta Dimensionalidad.

XI.              Árboles de Regresión y Modelos Basados en Reglas.

a.      Árboles de Regresión y Clasificación (Regression and Classification Trees).
b.      Métodos de Agregación de Árboles de Regresión (Bagging and Boosting).
c.      Bosques Aleatorios (Random Forests).
d.      Análisis Discriminantes Lineal y Cuadrático.

XII.             Modelos de Regresión No Lineales.

a.      KNN (K-Nearest Neighbor).
b.      Máquinas de Vectores de Soporte (Support Vector Machine).




Módulo III: Aprendizaje Estadístico No Supervisado.

XIII.           Análisis de Componentes Principales (Principal Component Analysis).

a.      El reto del Aprendizaje Estadístico No Supervisado.
b.      Introducción a Componentes Principales.
c.      Matriz de Covarianzas vs. Matriz de Correlaciones.
d.      Número Óptimo de componentes.
e.      Cálculo valores componentes.
f.       Gráfico de dos componentes.

XIV.           Análisis de Agregación (Cluster Analysis).

a.      Introducción.
b.      Agregación por Jerarquías.
c.      Agregación por K-Means.
d.      Agregación basado en Modelos.
e.      Visualización Gráfica Resultados Clustering.

XV.            Redes Neuronales.

a.      Introducción.
b.      Ajuste de las Redes Neuronales.
c.      Problemas Comunes en Redes Neuronales.

XVI.           Introducción a Minería de Textos (Text Mining).

a.      Introducción.
b.      Tareas Comunes de Preprocesamiento de Datos para Minería de Textos.
c.      Palabras Relevantes vs. Acompañantes.
d.      Derivados de Palabras.
e.      Aplicaciones de la Minería de Textos.

METODOLOGÍA 

De manera de que los estudiantes adquieran las herramientas necesarias, la clase será lo más aplicada posible. El instructor iniciará explicando teóricamente el tema a tratar y luego trabajará en clases con los estudiantes a través de códigos pre-escritos en R para que, de esta manera, luego de la culminación del diplomado, el estudiante pueda aplicar todo lo visto de manera inmediata. Por esta razón, es imprescindible que los estudiantes asistan a cada clase con su computador portátil.

TEXTOS DE REFERENCIA

·        James, Gareth et al. An Introduction to Statistical Learning with Applications in R. Springer, 2013.

·        Hastie, Trevor et al. The Elements of Statistical Learning – Data Mining, Inference and Prediction. Springer, 2009.

·        Clarke, Bertrand et al. Principles and Theory for Data Mining and Machine Learning. Springer. 2009.

·        Kuhn, Max y Johnson, Kjell. Applied Predictive Modeling. Springer. 2013.

·        Kleiber, Christian y Zeileis, Achim. Applied Econometrics using R. Springer. 2008.

·     Griffiths, W. E., Hill, C., y Lim, G. C. Principles of Econometrics. 4th Edition. United States of America: John Wiley & Sons, 2011.

·        Pathak, Manas. Beginning Data Science with R. 1st Edition. Springer. 2014.

·        Zuur, Alain et al. A Beginner’s Guide to R. 1st Edition. Springer. 2009.

INSTRUCTOR: JOSÉ TAMBURINI

Formación Académica:

En 2012 obtuvo su título de Licenciado en Economía (Summa Cum Laude) en la Pontificia Universidad Católica Madre y Maestra (PUCMM).
En 2014 se gradúo del Instituto Tecnológico de Rochester (RIT) obteniendo un Master of Science en Estadísticas Aplicadas con Concentración en Data Mining and Machine Learning.

Experiencia Laboral:

Entre 2012 y 2013 ocupó el cargo de analista de Planificación Financiera en Grupo Ramos. Actualmente, se desempeña como Técnico Asesor de Negociaciones de las Reservas Internacionales en el Banco Central de la República Dominicana.

Desde 2015, se ha desempeñado como profesor de Econometría, Estadísticas y Métodos Cuantitativos en PUCMM.


INFORMACION ADICIONAL: Patricia Mota, (809) 534-8074. email, org.fama@yahoo.com


1 comentario: