La Fundación para el Avance de las Matemáticas (FAMA) presenta su Diplomado en Ciencia de los Datos con R
DESCRIPCION
DESCRIPCION
La ciencia
de los datos (Data Science por su nombre en inglés) se refiere al conjunto de
técnicas estadísticas a utilizar para el entendimiento y posterior modelaje de
sets de datos complejos. Es un área de estudio relativamente nueva en el área
de Estadísticas, junto con el desarrollo de la computación, en particular, el
aprendizaje automático (machine learning en inglés). Con la nueva tendencia de
problemas con “Big Data”, la ciencia de los datos se ha vuelto un área
importante en la toma de decisiones en ciencias como el mercadeo, finanzas,
entre otros. Por esta razón, profesionales con conocimientos de estas
herramientas son cada vez más demandados en el ámbito laboral.
El
diplomado estará divido en tres módulos: Introducción a la utilización del
software R, Métodos de Aprendizaje sin Supervisión y Métodos de Aprendizaje
Estadístico con Supervisión.
Cada módulo será de 7 clases de tres horas cada una.
HORARIO: Martes de 7:00 a 10:00 pm.
Cada módulo será de 7 clases de tres horas cada una.
HORARIO: Martes de 7:00 a 10:00 pm.
INICIO: 17 de enero de 2017
OBJETIVOS
OBJETIVOS
1.
Conocer los distintos tipos de
datos existentes y cómo analizar cada tipo.
2.
Conocer distintos métodos de
procesar datos antes de analizarlos.
3.
Aprender técnicas de división
de datos y muestreo útiles para modelaje.
4.
Entender diferentes técnicas
de regresión utilizadas para predecir.
5.
Aprender métodos de modelaje
para clasificación.
6.
Aprender a modelar utilizando
el software R.
CONTENIDOS
Módulo I: Programación en R.
I.
Introducción
a R.
a.
¿Qué es R?
b.
Instalación
de R y RStudio.
c.
Lenguaje
de Programación de R.
d.
Importancia
de los Paquetes.
e.
Tipos de
Objetos.
f.
Tipos de
Formatos.
II.
Ingreso,
Manejo y Exportación de Datos.
a.
Lectura de
Datos.
b.
Limpieza
de Datos.
c.
Funciones
Condicionales.
d.
Acceso a
variables dentro de un data frame.
e.
Acceso y
creación de submuestras de datos.
f.
Combinación
de dos data frames con identificador
común.
g.
¿Cómo
exportar datos?
h.
Formato
para variables categóricas.
III.
Funciones
Simples.
a.
La función apply y sus variaciones.
b.
La función
summary.
c.
La función
table.
IV.
Introducción
a Herramientas Básicas de Gráficos.
a.
La función
plot.
b.
Símbolos,
Colores y Tamaños dentro de los gráficos.
c.
Múltiples
objetos en un mismo gráfico.
d.
Diagramas
de Pastel (Pie Charts).
e.
Gráficos
de Barras (Bar Charts).
f.
Gráficos
de Puntos (Boxplots y Dotplots).
V.
Análisis
Exploratorio de los Datos.
a.
Ordenar
variables y observaciones.
b.
Estadísticas
Descriptivas.
c.
Distribución
de Probabilidad de los Datos.
d.
Detección
de Observaciones Influenciales.
e.
Detección
de Observaciones Atípicas.
VI.
Tópicos
Avanzados.
a.
Repetición
Códigos automáticamente (Loops).
b.
Introducción
a Funciones.
c.
La
Covarianza.
d.
El
Coeficiente de Correlación.
e.
El
Coeficiente de Determinación.
Módulo II: Aprendizaje Estadístico Supervisado.
VII.
Introducción
al Aprendizaje Estadístico.
a.
¿Qué es el
aprendizaje estadístico?
b.
Trade-Off entre Precisión de la Predicción e Interpretabilidad.
c.
Precisión
de Modelos de Regresión.
d.
Precisión
de Modelos de Clasificación.
VIII.
Métodos de
Remuestreo.
a.
Validación
Curzada (Cross Validation) y su importancia.
b.
Bootstrapping.
IX.
Regresión
Lineal.
a.
Regresión
Lineal Simple.
b.
Regresión
Lineal Múltiple.
c.
Información
Cualitativa en Modelos de Regresión Lineal.
d.
Extensiones
del Modelo de Regresión Lineal.
e.
Problemas
Potenciales del Modelo de Regresión Lineal.
X.
Selección
de Modelos Lineales y Regularización.
a.
Métodos de
selección de variables explicativas.
b.
Técnicas
de Regularización.
c.
Consideraciones
en Análisis con Alta Dimensionalidad.
XI.
Árboles de
Regresión y Modelos Basados en Reglas.
a.
Árboles de
Regresión y Clasificación (Regression and
Classification Trees).
b.
Métodos de
Agregación de Árboles de Regresión (Bagging
and Boosting).
c.
Bosques
Aleatorios (Random Forests).
d.
Análisis
Discriminantes Lineal y Cuadrático.
XII.
Modelos de
Regresión No Lineales.
a.
KNN (K-Nearest Neighbor).
b.
Máquinas
de Vectores de Soporte (Support Vector Machine).
Módulo III: Aprendizaje Estadístico No
Supervisado.
XIII.
Análisis
de Componentes Principales (Principal
Component Analysis).
a.
El reto
del Aprendizaje Estadístico No Supervisado.
b.
Introducción
a Componentes Principales.
c.
Matriz de
Covarianzas vs. Matriz de Correlaciones.
d.
Número
Óptimo de componentes.
e.
Cálculo
valores componentes.
f.
Gráfico de
dos componentes.
XIV.
Análisis
de Agregación (Cluster Analysis).
a.
Introducción.
b.
Agregación
por Jerarquías.
c.
Agregación
por K-Means.
d.
Agregación
basado en Modelos.
e.
Visualización
Gráfica Resultados Clustering.
XV.
Redes
Neuronales.
a.
Introducción.
b.
Ajuste de
las Redes Neuronales.
c.
Problemas
Comunes en Redes Neuronales.
XVI.
Introducción
a Minería de Textos (Text Mining).
a.
Introducción.
b.
Tareas
Comunes de Preprocesamiento de Datos para Minería de Textos.
c.
Palabras
Relevantes vs. Acompañantes.
d.
Derivados
de Palabras.
e.
Aplicaciones
de la Minería de Textos.
METODOLOGÍA
De manera
de que los estudiantes adquieran las herramientas necesarias, la clase será lo
más aplicada posible. El instructor iniciará explicando teóricamente el tema a
tratar y luego trabajará en clases con los estudiantes a través de códigos
pre-escritos en R para que, de esta manera, luego de la culminación del
diplomado, el estudiante pueda aplicar todo lo visto de manera inmediata. Por
esta razón, es imprescindible que los estudiantes asistan a cada clase con su
computador portátil.
TEXTOS DE REFERENCIA
·
James, Gareth et al. An Introduction to
Statistical Learning with Applications in R. Springer, 2013.
·
Hastie, Trevor et al. The Elements of Statistical Learning –
Data Mining, Inference and Prediction. Springer, 2009.
·
Clarke, Bertrand et al. Principles and Theory for Data Mining
and Machine Learning. Springer. 2009.
·
Kuhn, Max y Johnson, Kjell. Applied Predictive Modeling. Springer. 2013.
·
Kleiber, Christian y Zeileis, Achim. Applied Econometrics
using R. Springer. 2008.
· Griffiths, W. E., Hill, C., y Lim, G. C. Principles of
Econometrics. 4th Edition. United States of
America: John Wiley & Sons, 2011.
·
Pathak, Manas. Beginning Data Science with R. 1st
Edition. Springer. 2014.
·
Zuur, Alain et al. A Beginner’s Guide to R. 1st
Edition. Springer. 2009.
INSTRUCTOR: JOSÉ TAMBURINI
Formación Académica:
En 2012 obtuvo su título de Licenciado en Economía (Summa Cum Laude) en
la Pontificia Universidad Católica Madre y Maestra (PUCMM).
En 2014 se gradúo del Instituto Tecnológico de Rochester (RIT)
obteniendo un Master of Science en Estadísticas Aplicadas con Concentración en
Data Mining and Machine Learning.
Experiencia Laboral:
Entre 2012 y 2013 ocupó el cargo de analista de Planificación Financiera
en Grupo Ramos. Actualmente, se desempeña como Técnico Asesor de Negociaciones
de las Reservas Internacionales en el Banco Central de la República Dominicana.
Desde 2015, se ha desempeñado como profesor de Econometría, Estadísticas
y Métodos Cuantitativos en PUCMM.
INFORMACION ADICIONAL: Patricia Mota, (809) 534-8074. email, org.fama@yahoo.com
INFORMACION ADICIONAL: Patricia Mota, (809) 534-8074. email, org.fama@yahoo.com
Cuanto cuesta el curso
ResponderEliminar