SlideShare une entreprise Scribd logo
1  sur  80
Universidad Internacional de La Rioja
Facultad de Empresa, Comunicación y Marketing
Máster Universitario en Inteligencia de Negocio
Métodos de aprendizaje automático para
la mejora estratégica de las ventas online
Trabajo fin de estudio presentado por: María José Cachón Yáñez
Tipo de trabajo: Proyecto de Inteligencia de Negocio
Modalidad: Individual
Director/a: Richard de Jesús Gil Herrera
Fecha: 08/04/2021
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
2
Resumen
El ecommerce o comercio electrónico ha experimentado un crecimiento considerable en los
últimos años y acentuado debido a la crisis de la COVID-19. Las nuevas tecnologías y el entorno
digital han hecho posible acelerar la confianza para comprar online. Este trabajo final de
máster (TFM), trata de estudiar cómo desarrollar un proyecto de inteligencia de negocio que
mediante modelos de inteligencia artificial permita segmentar clientes, así como determinar
aspectos con mayor incidencia en la venta online. Con datos de ecommerce reales,
provenientes de Prestashop y Google Analytics principalmente, se han depurado y procesado
datos de ventas, clientes y origen de las visitas online para llegar a crear 4 modelos. En primer
lugar, 3 modelos diferentes de segmentación de clientes, muy útiles para mejorar la tanto la
segmentación de clientes como personalizar campañas y/o promociones. El cuarto modelo
orientado a predecir el peso de las distintas características de las visitas a la Web, que acaban
en compra y con capacidad de predicción individual que agregaría mucho valor a cualquier
ecommerce. La conclusión principal versa sobre como estos análisis puede mejorar la toma
de decisiones y su trascendente impacto estratégico tanto de conocimiento del cliente final
como en la prescripción de acciones que maximizarán las ventas.
Palabras clave: comercio electrónico, tiendas online, ecommerce, optimización de la
conversión
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
3
Abstract
Ecommerce or electronic commerce has experienced considerable growth in recent years
and has been accentuated by the COVID-19 crisis. New technologies and the digital
environment have made it possible to accelerate the confidence to buy online. This final
master’s thesis (TFM) aims to study how to develop a business intelligence project that,
through artificial intelligence models, allows for the segmentation of customers, as well as
determining aspects with the greatest impact on online sales. With real e-commerce data,
mainly from Prestashop and Google Analytics, we have debugged and processed data on
sales, customers and origin of online visits to create 4 models. Firstly, 3 different customer
segmentation models, very useful to improve customer segmentation and personalize
campaigns and/or promotions. The fourth model oriented to predict the weight of the
different characteristics of the visits to the Web, which end in purchase and with individual
predictive capacity that would add much value to any ecommerce. The main conclusion is
about how these analyses can improve decision making and their transcendent strategic
impact both in terms of knowledge of the end customer and in the prescription of actions
that will maximize sales.
Keywords: e-commerce, online shops, ecommerce, conversion optimization
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
4
Índice de contenidos
Introducción.............................................................................................................................. 9
1.1. Descripción del proyecto........................................................................................... 9
1.1.1. La importancia de la segmentación de clientes ................................................ 9
1.1.2. Evolución del ecommerce en España .............................................................. 12
1.1.3. Factores que influyen en la conversión........................................................... 16
1.1.4. Principales tecnologías usadas para crear una tienda online.......................... 23
1.2. Principal problema identificado y justificación del proyecto .................................. 24
1.3. Objetivos del TFE..................................................................................................... 25
1.3.1. Objetivos generales......................................................................................... 25
1.3.2. Objetivos específicos....................................................................................... 25
2. Alcance y planificación..................................................................................................... 26
2.1. Fase de descubrimiento: evaluación del entorno actual ........................................ 26
2.1.1. Información deseada....................................................................................... 26
2.1.2. Información actual: deficiencias y soluciones alternativas ............................. 26
2.1.3. Habilidades analíticas actuales........................................................................ 28
2.2. Fase de análisis: identificación de gaps................................................................... 29
2.2.1. Capacidad de los informes actuales ................................................................ 29
2.2.2. Proveedores de tecnología necesarias............................................................ 29
2.2.3. Cronología, costes y recursos humanos implicados........................................ 30
2.3. Fase de recomendaciones: alcance y prioridades................................................... 30
3. Análisis y definición.......................................................................................................... 31
3.1. Análisis preliminar de los datos a utilizar................................................................ 31
3.1.1. Descripción de datos....................................................................................... 31
3.2. Análisis histórico y/o limpieza de datos .................................................................. 43
3.3. Modelado propuesto............................................................................................... 44
3.3.1. Disimilitud Gower............................................................................................ 44
3.3.2. RFM Analysis ................................................................................................... 47
3.3.1. RFM Analysis + K-means.................................................................................. 48
3.3.2. Regresión logística........................................................................................... 49
4. Construcción, prueba, implementación y despliegue...................................................... 52
4.1. Construcción del modelo Gower............................................................................. 52
4.1.1. Estimación del modelo.................................................................................... 52
4.1.2. Resultado......................................................................................................... 52
4.2. Construcción del modelo RFM ................................................................................ 57
4.2.1. Estimación del modelo.................................................................................... 57
4.2.2. Resultado......................................................................................................... 58
4.3. Construcción del modelo RFM usando K-means para clustering............................ 60
4.3.1. Estimación del modelo.................................................................................... 60
4.3.2. Resultado......................................................................................................... 60
4.4. Construcción del modelo LOGIT.............................................................................. 64
4.4.1. Estimación del modelo.................................................................................... 64
4.4.2. Resultado......................................................................................................... 64
5. Cronograma del proyecto................................................................................................ 67
5.1. Swimlane de Inteligencia de negocio y gestión del proyecto ................................. 67
5.2. Swimlane de datos, bases de datos e integración de datos.................................... 67
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
5
5.3. Swimlane de la infraestructura ............................................................................... 68
6. Conclusiones.................................................................................................................... 68
7. Limitaciones y prospectiva............................................................................................... 70
Bibliografía .............................................................................................................................. 72
Anexo A................................................................................................................................... 78
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
6
Índice de figuras
Figura 1. Evolución de compradores online en España........................................................... 12
Figura 2. Ramas con mayor negocio online durante covid ..................................................... 14
Figura 4. Perfil de compradores y frecuencia de compras...................................................... 14
Figura 5. Perfil de compradores y gasto promedio................................................................. 15
Figura 6. Perfil de compradores y dispositivos........................................................................ 15
Figura 7. Drivers de compra.................................................................................................... 16
Figura 8. Razones para no comprar online.............................................................................. 17
Figura 9. Conversión por sector en 2019 y 2020..................................................................... 18
Figura 10. Evolución de la conversión en España.................................................................... 18
Figura 11. Razones de abandono de carritos .......................................................................... 19
Figura 12. Conversión de usuarios nuevos vs recurrentes...................................................... 20
Figura 14. Conversión por canales y antigüedad .................................................................... 21
Figura 15. Conversión por dispositivos ................................................................................... 21
Figura 16. Conversión por navegadores.................................................................................. 22
Figura 17. CMS usados en España........................................................................................... 24
Figura 18: Datos, información y conocimiento ....................................................................... 27
Figura 19: Estado de los pedidos de la BBDD1........................................................................ 32
Figura 20: Estado de los pedidos de la BBDD2........................................................................ 33
Figura 21: Conversión cliente nuevo vs recurrente................................................................. 35
Figura 22: Pedidos por género ................................................................................................ 36
Figura 23: Pedidos por extensión de email ............................................................................. 36
Figura 24: Métodos de pago ................................................................................................... 37
Figura 25: Rangos de importe de los pedidos ......................................................................... 37
Figura 26: Rangos de importe de los pedidos ......................................................................... 38
Figura 27: Pedidos por meses ................................................................................................. 38
Figura 28: Pedidos por días..................................................................................................... 39
Figura 29: Pedidos por horas................................................................................................... 39
Figura 30: Pedidos por tipo de usuario ................................................................................... 40
Figura 31: Pedidos por rango del importe............................................................................... 40
Figura 32: Pedidos por método de pago................................................................................. 41
Figura 33: Pedidos por método de pago................................................................................. 41
Figura 34: Pedidos por método de pago................................................................................. 42
Figura 35: Pedidos por fuente de tráfico................................................................................. 42
Figura 36: Pedidos por navegador .......................................................................................... 43
Figura 37: Pedidos por dispositivo .......................................................................................... 43
Figura 38: Elección de variables modelo Gower ..................................................................... 44
Figura 39: Elección de variables modelo RFM......................................................................... 44
Figura 40: Elección de variables modelo logit......................................................................... 44
Figura 41: Dividir dataset modelo Gower ............................................................................... 45
Figura 42: Transformar a factor modelo Gower ..................................................................... 46
Figura 42: Coeficiente silhouette modelo Gower ................................................................... 46
Figura 43: Estimar clústeres modelo Gower ........................................................................... 46
Figura 44: Scoring modelo RFM .............................................................................................. 48
Figura 44: Determinar clústeres RFM+K-means...................................................................... 49
Figura 45: Asignar valores RFM+K-means............................................................................... 49
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
7
Figura 46: Visualizar clústeres RFM+K-means......................................................................... 49
Figura 47: Implementación modelo logit................................................................................ 50
Figura 48: Estimación modelo logit......................................................................................... 51
Figura 49: Estimación modelo logit......................................................................................... 51
Figura 50: Disimilitud de Gower.............................................................................................. 52
Figura 51: Clústeres óptimos modelo Gower.......................................................................... 53
Figura 52: Visualización de Clústeres Gower .......................................................................... 53
Figura 53: Comparativa de clústeres de la variable Día .......................................................... 54
Figura 54: Comparativa de clústeres de la variable Hora........................................................ 54
Figura 55: Comparativa de clústeres de la variable Mes......................................................... 55
Figura 56: Variables del clúster 1 ............................................................................................ 56
Figura 57: Variables del clúster 2 ............................................................................................ 56
Figura 58: Variables del clúster 3 ............................................................................................ 57
Figura 59: Scoring estático modelo RFM................................................................................. 58
Figura 60: Visualización modelo RFM ..................................................................................... 58
Figura 61: Distribución de compras por segmento ................................................................. 59
Figura 62: Distribución de compras por segmento ................................................................. 60
Figura 63: Número de clústeres óptimos para el modelo K-means........................................ 61
Figura 64: Visualización del número de clústeres óptimos para el modelo K-means............. 61
Figura 65: I Características del clúster 1.................................................................................. 62
Figura 66. II Características del clúster 1................................................................................. 62
Figura 67. I Características del clúster 2.................................................................................. 63
Figura 68. II Características del clúster 2................................................................................. 63
Figura 69. Resultado del modelo logit..................................................................................... 64
Figura 70. Significatividad de coeficientes. ............................................................................. 65
Figura 71. Matriz de confusión del modelo logit..................................................................... 66
Figura 72. Predicción individual del modelo logit. .................................................................. 66
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
8
Índice de tablas
Tabla 1. Facturación anual del ecommerce en España............................................................ 13
Tabla 2. Tasa de conversión por sector y dispositivo en España............................................. 22
Tabla 3. Tasa de conversión por sector y día de la semana .................................................... 23
Tabla 4. Licencias Softwares.................................................................................................... 30
Tabla 5. Cronograma............................................................................................................... 30
Tabla 6. Variables para el modelo Gower ............................................................................... 52
Tabla 7. Variables para el modelo RFM................................................................................... 57
Tabla 8. Segmentos de clientes para el Modelo RFM ............................................................. 59
Tabla 9. Variables para el modelo RFM................................................................................... 60
Tabla 10. Variables para el modelo logit................................................................................. 64
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
9
Introducción
El crecimiento del ecommerce es imparable, incluso ante una pandemia mundial que ha
paralizado muchos sectores empresariales con dependencia al offline físico tradicional y que
también ha provocado una redistribución en los hábitos online de los usuarios, que han
tenido impacto positivos y negativos en muchos sectores.
Estudiar a fondo las compras en tiendas online pasa a ser un análisis estratégico de gran
valor para los negocios, ya que podrán estar en capacidad de segmentar y priorizar sus
decisiones, además de predecir qué aspectos intervienen en la venta final, de cara a mejorar
competitivamente.
Por tanto, este documento constituye un análisis y reflexión empresarial que trata de
indagar en métodos de aprendizaje automático, como el clustering y la regresión, ambos
como palanca de maximización de las ventas online, de cara principalmente a ofrecer
aprendizajes y aplicaciones prácticas para negocios que quieren mejorar sus ventas online,
además de una vía muy fructífera de segmentar sus audiencias y públicos objetivos, e
incluso, hacer predicciones individuales sobre ventas de un grupo de características.
1.1.Descripción del proyecto
Para reflexionar sobre la importancia de la segmentación de clientes y de la evolución del
comercio electrónico en España, se han desarrollado distintos conceptos, además de analizar
varios estudios que reflejan el gran estado que atraviesa la disciplina del ecommerce, reflejo
del papel clave que juega a nivel empresarial.
1.1.1. La importancia de la segmentación de clientes
La segmentación de clientes es el proceso de separar a los clientes en grupos en función de su
comportamiento o de la recopilación de otros atributos. Los grupos deben ser homogéneos
dentro de sí mismos y también, deberían ser heterogéneos entre sí. El objetivo general de este
proceso es identificar la base de clientes de alto valor, es decir, los clientes que tienen el mayor
potencial de crecimiento o son los más rentables para el negocio.
La información obtenida a partir de la segmentación de los clientes se utiliza para desarrollar
campañas de marketing a medida y para diseñar la estrategia y la planificación general de
marketing.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
10
Una consideración clave para una empresa sería, si debe o no segmentar a sus clientes y cómo
realizar el proceso de segmentación. Esto dependerá de la filosofía de la empresa y del tipo
de producto o servicio que ofrezca. El tipo de criterio de segmentación que se siga creará una
gran diferencia en la forma en que la empresa opera y formula su estrategia.
Una empresa puede no tener segmentos, es decir, trata a todos sus clientes de manera similar,
no hay diferenciación por lo que las campañas de marketing son masivas. En cambio, otras
empresas tienen 1, 2 o más segmentos, lo cual implica que están enfocándose en grupos y
haciendo distintas campañas y otras gestiones, para cada uno de ellos.
Una vez que la empresa ha identificado su perfil de clientes y el número de segmentos en los
que quiere centrarse, tiene que decidir los factores en los que se basará para segmentar a sus
clientes. En el caso de proyectos ecommerce B2C (business to consumer), algunos de esos
factores pueden ser:
- Datos demográficos: Edad, sexo, educación, etnia, ingresos, empleo, aficiones, etc.
- Recencia, Frecuencia y Monetario (RFM): Periodo de tiempo de la última transacción,
la frecuencia con la que el cliente realiza transacciones y el valor monetario total del
comercio.
- Comportamiento: Comportamiento de compra anterior, preferencias de marca,
acontecimientos de la vida, etc.
- Personal: Creencias, personalidad, estilo de vida, intereses personales, motivación,
prioridades, etc.
- Geográficos: País, código postal, condiciones climáticas, diferenciación por área
urbana/rural, accesibilidad a los mercados, etc.
1.1.1.1. Ley Pareto y segmentación
En el caso de una pequeña empresa, la base de clientes suele ser bastante reducida y se puede
llegar a ella de forma individual. Sin embargo, a medida que la empresa crece, no podrá llegar
del mismo modo a todos y cada uno de los clientes. En este punto, la empresa tendrá que
utilizar un enfoque basado en datos para construir una estrategia adecuada.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
11
Para una tienda de tamaño medio o grande (Khandelwal, 2021), también es imperativo que
invierta no sólo en la adquisición de nuevos clientes, sino también en la retención de clientes.
Muchas empresas obtienen la mayor parte de sus ingresos del segmento de clientes más
valiosos. Dado que los recursos de los que dispone una empresa son limitados, es crucial
encontrar a estos clientes y dirigirse a ellos, como también es importante encontrar a los que
están inactivos o que corren un alto riesgo de perder el contacto con la empresa, para poder
responder a sus intereses y expectativas, de cara a reactivarlos con campañas personalizadas.
Para ello, las empresas utilizan la técnica de la segmentación de clientes.
El principio de Pareto, utilizado con frecuencia en los negocios y la economía, puede aplicarse
también a la comprensión del flujo de ingresos de una empresa. Según el principio de Pareto,
el 80% de los resultados son consecuencia del 20% de todas las causas de un acontecimiento
(Khandelwal, 2021).
Se puede decir que el 20% de los clientes aportan el 80% de los ingresos totales de una
empresa, por eso es importante encontrar a este conjunto de personas haciendo análisis
específicos.
1.1.1.2. Segmentación de clientes
La segmentación de clientes tiene muchas ventajas potenciales ya que, ayuda a una empresa
a desarrollar una estrategia eficaz para dirigirse a sus clientes, lo cual tiene un impacto directo
en:
- el ciclo de desarrollo del producto
- la gestión de presupuestos
- el contenido promocional dirigido a los clientes.
Por ejemplo, una empresa puede fabricar un producto de gama alta, un producto económico
o un producto alternativo barato, en función de si el producto está destinado a sus clientes de
mayor rendimiento, a los compradores frecuentes o al segmento de clientes de bajo valor.
También puede afinar las características del producto para satisfacer las necesidades
específicas de sus clientes.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
12
La segmentación de los clientes también puede ayudar a una empresa a entender en qué se
parecen sus clientes, qué es importante para ellos y qué no lo es. A menudo, esta información
puede utilizarse para desarrollar contenidos relevantes personalizados para diferentes bases
de clientes. Muchos estudios han descubierto que los clientes aprecian esa atención
individualizada y son más propensos a responder y comprar el producto, también llegan a
respetar la marca y a sentirse vinculados a ella. Esto, sin duda, puede dar a la empresa una
gran ventaja sobre sus competidores.
Por último, esta técnica también puede ser utilizada por las empresas para:
- probar los precios de sus diferentes productos
- mejorar el servicio al cliente
- realizar ventas adicionales y cruzadas de otros productos o servicios.
1.1.2. Evolución del ecommerce en España
Respecto a la evolución del ecommerce en España, se va a tratar de analizar los aspectos
clave que hacen de este canal digital, uno de los más rentables y potentes
Algunos aspectos que reseñar en el contexto del ecommerce en España, como se puede
observar en la figura 1, se centran en:
- Evolución de compradores y facturación
- Hábitos de compra: sectores, gasto medio, dispositivos
- El proceso de compra: motivaciones, influencias, métodos de pago
Figura 1. Evolución de compradores online en España
Fuente: (IAB SPAIN, 2020)
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
13
Por un lado, el porcentaje de usuarios en España que cada año confían en el canal online
para hacer sus compras oscila entre un 67% y 73% (IAB SPAIN, 2020), datos que no han
empeorado con la irrupción de la pandemia, que mantienen una evolución estable e incluso,
creciente.
Unido a esto, como se muestra en la tabla 1, el ecommerce se encuentra en un momento de
crecimiento titánico respecto a facturación en España en los últimos 20 años (CNMC, 2021),
dato que correlaciona perfectamente con la cifra de compradores.
Tabla 1. Facturación anual del ecommerce en España1
2001 127
2005 1.547
2010 7.317
2015 20.000
2017 30.000
02018 39.243
2019 48.800
Fuente: (CNMC, 2021)
Respecto a la pandemia en si, tal y como se desprende de la figura 2, sectores asociados a
turismo y viajes han sufrido auténticos desplomes en su facturación (CNMCData, 2021), sin
embargo, en el otro lado se encuentran sectores como supermercados o marcas de ropa,
que, en algunos casos, han llegado a duplicar su facturación, como se puede comprobar.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
14
Figura 2. Ramas con mayor negocio online durante covid
Fuente: (CNMCData, 2021)
Respecto a aspectos relativos a hábitos de los compradores, la figura 4 muestra que mitad
de los usuarios compra al menos 1 vez cada 15 o 30 días (IAB SPAIN, 2020) en ciertos
espectros de edad la frecuencia de compra se va a 3,5 al mes, datos superiores a años
anteriores.
Respecto al gasto efectuado, la cantidad promedia asciende a 68€ por persona en cada
compra (IAB SPAIN, 2020)
Figura 4. Perfil de compradores y frecuencia de compras
Fuente: (IAB SPAIN, 2020)
Por último, respecto a los dispositivos utilizados por los compradores online, en las figuras 5
y 6 se destaca un insight de valor relacionado con la edad: de 55 a 70 años confían más en el
ordenador, los de menor edad hacen que crezca el uso del Smartphone para comprar.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
15
Figura 5. Perfil de compradores y gasto promedio
Fuente: (IAB SPAIN, 2020)
Figura 6. Perfil de compradores y dispositivos
Fuente: (IAB SPAIN, 2020)
Con este repaso al panorama nacional relativo al ecommerce, se puede confirmar la gran
salud que goza el canal y la importancia de trazar modelos que ayuden a las empresas a
optimizar sus tiendas online para vender más.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
16
1.1.3. Factores que influyen en la conversión
1.1.3.1. Aspectos generales
Otro punto clave para entender el trabajo pasa por realizar un análisis previo qué permita
clarificar aquellos factores o aspectos que son fundamentales para que un usuario haga una
compra en una tienda online.
Por un lado, como se ve en la figura 7, existen distintos drivers (IAB SPAIN, 2020) entre los
que destacan la existencia de ofertas, la confianza en el sitio o marca, el precio o el plazo de
entrega del pedido.
Figura 7. Drivers de compra
Fuente: (IAB SPAIN, 2020)
La percepción sobre los plazos de entrega aceptables se sitúa en 3,4 días (IAB SPAIN, 2020),
lo que supone un verdadero reto respecto a las estrategias de operaciones y logística de las
compañías.
De manera adicional, cabe destacar que 3 de cada 4 compradores busca información y
finaliza la transacción en el canal online, por lo que el contenido encontrado en la red es
fundamental para ayudar a tomar la decisión. Otro detalle interesante radica en medios que
pueden influenciar la compra, como puede ser la presencia en buscadores o marketplace, e
incluso, el estado de la página web de la marca, con la información recabada, la compra final
puede acabar online u offline (IAB SPAIN, 2020).
Sin embargo, si se lleva a cabo un análisis más prematuro, se puede ahondar en aquellos
motivos o razones para no comprar en el canal online, lo cual también puede ser ilustrativo
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
17
de los miedos y motivaciones de los compradores que les empujan a no dar el paso a
comprar a través de internet, en un estudio realizado por el INE (INE, 2020)
Figura 8. Razones para no comprar online
Fuente: (INE, 2020)
A pesar de ser un estudio anterior a la pandemia, la naturaleza humana se deja ver en los
motivos para desconfiar: amantes de lo tangible, miedo a la inseguridad, falta de
conocimientos u otros. Asimismo, de cara a tener unas cifras de referencia respecto a
conversión por sector, tanto el estudio de la IAB (IAB SPAIN, 2020) como el efectuado por
Flat101 (Flat 101, 2019) ponen de relieve datos para tener un rango de tasas de conversión
del que poder comparar y mejorar.
En el caso del estudio de IAB (IAB SPAIN, 2020), se puede observar en la figura 9 la
comparación semestral entre 2019 y 2020, pandemia incluida, en cuyas cifras destaca un
repunte creciente de la conversión en el sector de la comida a domicilio.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
18
Figura 9. Conversión por sector en 2019 y 2020
Fuente: (IAB SPAIN, 2020)
En el caso del estudio de Flat101 (Flat 101, 2019) como se refleja en la figura 10, el evolutivo
de años anteriores sobre la tasa de conversión general, de todos los sitios analizados en su
estudio, se puede observar una contracción de la conversión en un 4% de 2018 a 2019.
Figura 10. Evolución de la conversión en España
Fuente: (Flat 101, 2019)
Por último, mencionar otro punto importante en ecommerce: el abandono de los carritos de
la compra. ¿Por qué un usuario que ya ha añadido los productos para comprarlos finalmente
abandona? (Baymard, 2020)
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
19
Este será, sin duda, un aspecto de gran impacto para la conversión de la tienda online, por lo
que merece la pena tenerlo en cuenta, tal y como se desprende de la figura 11
Figura 11. Razones de abandono de carritos
Fuente: (Baymard, 2020)
Sin duda se antoja revelador:
- Costes extras demasiado altos
- Obligar a los usuarios a crear una cuenta en el sitio web, para comprar
- Entrega muy tardía
- Proceso de compra largo o complejo
- Desconfianza en la seguridad del sitio
- Errores del sitio
1.1.3.2. Usuarios nuevos vs recurrente
Un aspecto fundamental para la conversión es identificar si los compradores son usuarios
recurrentes o usuarios nuevos, como se refleja en la figura 12.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
20
Figura 12. Conversión de usuarios nuevos vs recurrentes
Fuente: (Flat 101, 2019)
Este hecho impacta de forma directa en la lealtad y acciones relativas a propiciar que los
usuarios vuelvan a la tienda, siempre y cuando los productos ofertados tengan esa
naturaleza.
1.1.3.3. Canales
En la figura 13, la distribución de la conversión respecto a los canales deja claro que el canal
orgánico sigue siendo el que lidera los proyectos de ecommerce españoles.
Figura 13. Conversión por canales
Fuente: (Flat 101, 2019)
1.1.3.4. Antigüedad
Otro elemento de valor es considerar la antigüedad que tiene el proyecto dado que la
conversión también estará influida por los años que lleve activo, en la figura 14 se muestra el
impacto de la antigüedad en los canales.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
21
Figura 14. Conversión por canales y antigüedad
Fuente: (Flat 101, 2019)
Este dato muestra que en los primeros años los canales de pago son más fuertes y una vez se
estabiliza el proyecto, se invierte la captación de tráfico hacia el canal orgánico, por la
naturaleza del impacto de acciones a corto o a largo plazo, de cada estrategia.
1.1.3.5. Dispositivos
En la figura 15 se puede observar la información relativa a los dispositivos, donde se extrae
que el ordenador sigue liderando la conversión, aunque el dispositivo móvil es el único que
sigue creciendo año a año.
Figura 15. Conversión por dispositivos
Fuente: (Flat 101, 2019)
1.1.3.6. Navegadores y sistemas operativos
Otro factor que afecta a la conversión y a cómo se visualiza la tienda online es el navegador,
y en segunda instancia, el sistema operativo que utiliza el usuario. En la figura 16 se resumen
los datos de eficiencia de la conversión desde el punto de vista del navegador.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
22
Figura 16. Conversión por navegadores
Fuente: (Flat 101, 2019)
1.1.3.7. Sector
Como dato sectorial, también se puede usar como referencia el estudio mencionado (Flat
101, 2019), para tener una idea de la tasa de conversión que cada sector ostenta, en
promedio, resumido en la tabla 2.
Tabla 2. Tasa de conversión por sector y dispositivo en España
Fuente: (Flat 101, 2019)
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
23
1.1.3.8. Días de la semana
Del mismo modo, la conversión sectorial segmentada por día de la semana puede ser de
ayuda para el análisis y usarse como referencia. En la tabla 3 se puede acceder a los datos
de conversión por día de la semana y por actividad.
Tabla 3. Tasa de conversión por sector y día de la semana
Fuente: (Flat 101, 2019)
1.1.4. Principales tecnologías usadas para crear una tienda online
Un CMS (por sus siglas en inglés Content Management Systems), es una plataforma que
permite crear contenidos para páginas web sin una gran dependencia de conocimientos
avanzados de programación, algo que permite que una mayor facilidad de uso y de
administración (ecommerce-nation.es, 2018)
Normalmente la elección del CMS es una de las decisiones más importantes para una tienda
online, e implica distintas cuestiones que hay que abordar:
• Escalabilidad
• Interfaz accesible e intuitiva
• Compatibilidad
• Optimizado para motores de búsqueda
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
24
• Seguridad
• Soporte
En España, los datos aportados por Builtwith (builtwith.com, 2021) ponen de manifiesto
aquellas opciones más usadas y las múltiples opciones que existen, resumidas en la figura 17.
Figura 17. CMS usados en España
Fuente: (builtwith.com, 2021)
1.2.Principal problema identificado y justificación del proyecto
Dada la situación de crecimiento que se arrastra en el área de comercio electrónico en
España, las pocas barreras de entrada que existen en el ecommerce y el gran auge que ha
supuesto de forma indirecta el confinamiento producto de la pandemia, los negocios han de
seguir esforzándose por mejorar su rendimiento a. nivel de ventas en un entorno restringido
y de alta competencia.
El proyecto planteado consiste en 2 líneas claras de aplicación de aprendizaje automático en
ecommerce:
- Comparar distintos métodos de clustering que ayude a llevar a cabo segmentaciones
útiles que puedan potenciar un negocio, ya sea enfocando mejor promociones y
campañas de marketing, como identificando los segmentos de usuarios más valiosos
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
25
para el negocio, con el fin último de incrementar o maximizar las ventas de cualquier
tienda por el canal online.
- Llevar a cabo un modelo de regresión logit múltiple, para ahondar en los factores o
características que mayor peso tienen en la compra final.
En ese sentido, se ha solicitado información cualitativa y cuantitativa a distintas empresas
españolas que han cedido sus datos de ventas y clientes online para que, a través de técnicas
de inteligencia de negocio, puedan extraerse realidades demostrables que intervengan en la
generación de estrategias de marketing, segmentación u optimización del canal digital,
análisis predictivos y que tengan impacto en la cuenta de resultados.
Estos datos comprenden, entre otros:
- Datos de tráfico: visitas, sesiones nuevas, tiempo en página, rebote
- Datos de comercio electrónico: tasa de conversión, transacciones, ingresos
- Datos de clientes: nombre, método de pago, ciudad, género, nº de pedidos
- Datos de pedidos: estado del pedido, importe, gastos de envío
La selección y estudio de sitios de comercio electrónico, será heterogéneo lo cual implicaría
un proceso de análisis más pormenorizado y del que se podrán extraer análisis secundarios
1.3.Objetivos del TFE
1.3.1. Objetivos generales
El objetivo principal del presente TFM es desarrollar un proyecto de inteligencia de negocio
qué permita segmentar pedidos y clientes acorde a los factores que por técnica de
inteligencia artificial, se determiné que tengan más peso en la conversión final de los
clientes.
Se pretende que este TFM sirva como una herramienta de toma de decisiones que puedan
utilizar las empresas para maximizar sus estrategias de ventas.
1.3.2. Objetivos específicos
- Estudiar los datos actuales de la empresa y analizar sus pros y contras.
- Analizar los datos de que dispone la empresa y validar qué datos se necesitan para
poder implementar el modelo de Inteligencia de Negocio.
- Analizar los aspectos que intervienen en la venta online de las empresas con tiendas
online.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
26
- Proponer distintos modelos de segmentación de clientes como parámetros de
distinción que permita realizar evaluaciones rápidas de los clientes y diseñar
estrategias personalizadas.
- Proponer un modelo de datos que permita hacer predicciones acerca de los factores
que más impactan en la venta final en tiendas online.
2. Alcance y planificación
2.1.Fase de descubrimiento: evaluación del entorno actual
2.1.1. Información deseada
Este trabajo tiene como cometido dos puntos clave:
- Lograr definir modelos de clusterización para distintos ecommerce, de cara a una
mejor toma de decisiones en campañas de marketing, en perfilado de público
objetivo.
- Lograr definir al menos un modelo de regresión para distintos ecommerce, de cara a
una mejor priorización de esfuerzos orientados a maximizar las ventas.
Para conseguirlo, en ambos casos, se ha de utilizar un proceso de limpieza de los datos, se
han de fusionar distintas fuentes de datos para enriquecer los datasets y se han de comparar
los resultados de cada modelo, cuando ha sido posible.
2.1.2. Información actual: deficiencias y soluciones alternativas
En la actualidad, los datos obtenidos a partir de las empresas colaboradoras proceden de
dos fuentes principales: Google Analytics y Prestashop. Pero la extracción de estos presenta
varias debilidades o deficiencias que se enumeran a continuación:
- Los datos de Google Analytics accesibles a través de la plataforma no son granulares
por lo que no se puede llegar a los datos a nivel de sesión, tan solo se puede llegar a
datos agregados por minutos. La única alternativa valida a ésto, hubiese sido
conectar Google Analytics a Google BigQuery para ir volcando la información a diario
y poder segmentar hasta el nivel de la visita.
- Asimismo, solo aquellos ecommerce que han implementado enhanced ecommerce
en Google Analytics podrán disfrutar de métricas específicas de productos y otras
agrupaciones por nombre de producto, categoría, sku, etc.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
27
- Los datos que proporciona Prestashop a nivel de pedidos están comprendidos entre
dos fechas, por lo que no se dispone del historial completo de pedidos ni tampoco de
pedidos a nivel cliente.
- Los pedidos de los clientes solo pueden ser descargados de forma individual, por lo
que a pesar de contar con un dataset que fusiona información de pedidos e
información de clientes, el análisis no incluye los artículos comprados por los clientes,
aspecto que es una limitación a la hora de testar modelos de recomendación y otras
reglas de asociación.
- La integración entre ambos tipos de datos no siempre es posible por lo que no en
todos los casos se puede trazar un análisis conjunto del origen de la visita, la fuente,
el tiempo que pasó en el sitio web, las páginas que visitó, con el pedido realizado, su
importe, etc. De hecho, solo en uno de los conjuntos de datos recibido existe
trazabilidad entre datos de Prestashop y Google Analytics, al contar con un sistema
de recopilación de datos propio y un CRM que enriquece la extracción.
En este sentido, se considera una debilidad contar con una configuración estándar de ambas
herramientas y se entiende una limitación para el alcance de los análisis previstos, cualquier
ecommerce dispuesto a explotar sus datos y extraer conocimiento de estos (Sinnexus, n/d)
debe considerar una infraestructura tecnológica que responda a una estrategia de
explotación inteligente y eficiente de los datos.
Como solución alternativa se plantea proponer a las empresas de aquellos ecommerce
sujetos del análisis implementar y configurar ambas fuentes de datos convenientemente de
forma que la inteligencia de negocio pueda actuar como un factor estratégico y propiciando
una ventaja competitiva.
Figura 18: Datos, información y conocimiento
Fuente: (Sinnexus, n/d)
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
28
2.1.3. Habilidades analíticas actuales
Se ha hecho uso de 2 bases de datos de ecommerce diferentes
- La BBDD1, compuesta de dos datasets:
o Clientes (86.633 registros)
§ ID Cliente
§ Tratamiento (de aquí se extrae el género)
§ Nombre y apellidos
§ Correo electrónico (de aquí se extrae la extensión de dominio)
§ Ventas
§ Suscripción a boletín (si o no)
§ Fecha de alta
o Pedidos (22.631 registros)
§ ID Pedido
§ Referencia del pedido
§ Cliente nuevo (si o no)
§ Nombre y apellidos
§ Importe del pedido
§ Método de pago
§ Compra finalizada (si o no)
§ Estado del pedido
§ Fecha del pedido
- La BBDD2, compuesta de dos datasets:
o Pedidos (9.268 registros)
§ Id
§ Referencia
§ Nuevo cliente
§ Nombre cliente
§ Importe pedido
§ Pago
§ Estado
§ Fecha
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
29
o Analítica (4.948 registros)
§ Referencia
§ Fuente/Medio
§ Navegador
§ Categoría de dispositivo
2.2. Fase de análisis: identificación de gaps
2.2.1. Capacidad de los informes actuales
Como ya se ha mencionado existe una desvinculación de fuentes que hace menos eficiente
la explotación de datos y se puede entender e interpretar este hecho como una oportunidad
para implantar infraestructuras basadas en análisis de datos y más concretamente,
orientadas a explotar la inteligencia de datos de todas las fuentes mencionadas.
De cara a su extracción y fusión, se hace necesario el uso de bases de datos que faciliten el
acceso, procesamiento y descarga de datos.
Por otro lado, los datos proporcionados por la plataforma de ecommerce Prestashop
tampoco son tratados ni enriquecidos de ningún modo, por lo que se deben procesar para
limpiar duplicidades, campos vacíos y otras incongruencias.
En concreto, aquellas observaciones que, no podían reclasificarse de ningún modo, han sido
eliminados para evitar discrepancias.
2.2.2. Proveedores de tecnología necesarias
Para la realización del estudio y presente trabajo se hace necesario el uso de tecnologías de
índole estadístico como es RStudio, cuyo fin es llevar a cabo análisis estadísticos y
visualización de datos a través de gráficas.
Asimismo, como se ve en la tabla 4, se hacen uso de herramientas complementarias que
actuarán como apoyo a RStudio, para las pruebas de extracción de datos con Google
Analytics, como Query Explorer de Google, así como Genderize para terminar de inferir los
géneros a partir de los nombres.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
30
Tabla 4. Licencias Softwares
SOFTWARE PRECIO DE LICENCIA PROVEEDOR
R STUDIO Software libre No aplica
Prestashop Versión gratuita Prestashop
Genderize.io 10$ Genderize.io
Google Analytics Versión gratuita Google
Google Query Explorer Versión gratuita Google
2.2.3. Cronología, costes y recursos humanos implicados
Las fases llevadas a cabo a grandes rasgos son las que se detallan en la tabla 5, una
descomposición del problema por tareas principales, para acotar la ejecución y avanzar de
forma progresiva.
Tabla 5. Cronograma
HITO W1 W2 W3 W4 W5
Recopilación de datos
Transformación / Exploración
Limpieza
Evaluación Modelos
Testeo Modelos
2.3.Fase de recomendaciones: alcance y prioridades
Los ecommerce participantes recibirán los resultados de los análisis llevados a cabo en este
trabajo como agradecimiento por colaborar cediendo sus datos para este estudio.
El alcance de este proyecto es:
- Realizar un modelo de clusterización mediante Disimilitud de Gower, aportando el
dataset limpio y trabajado, de cara a obtener los clústeres óptimos y poder analizar
las características de cada uno. Este modelo se realizará con la BBDD1.
- Realizar un análisis RFM (recency, frequency and monetary), de cara a definir los
segmentos de negocio en base a los datos de los pedidos. Este modelo se realizará
con la BBDD1.
- Realizar un modelo de RFM pero con segmentación basada en K-Means para valorar
los resultados en comparación con los anteriores métodos. Este modelo se realizará
con la BBDD1.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
31
- Realizar un modelo de regresión logística para estudiar el grado de afectación en las
ventas, de los distintos factores o atributos. Este modelo se realizará con la BBDD2.
En resumen, los 3 primeros modelos basados en técnicas clúster, se llevarán a cabo con la
BBDD1, por existir un mayor número de registros y características susceptibles de ser
clusterizadas. El último modelo se realizará con la BBDD2 en la que se cuenta con
características del tráfico como el dispositivo o el navegador, aspectos que pueden incidir en
la conversión como ya se ha explicado en la introducción del trabajo.
3. Análisis y definición
3.1.Análisis preliminar de los datos a utilizar
El análisis concienzudo de los datos ofrece una visión profunda y global de los mismos, así
como pone de relieve la distribución de estos cuando estudiamos los estadísticos habituales.
Para los 4 modelos previstos se usarán 2 bases de datos:
- La base de datos de partida que se usará para los 3 primeros modelos consta de 2
ficheros: Clientes (86.633 registros) y Pedidos (22.631 registros) de las cuales se
infiere la variable “Converted” que establece con un valor binario (tomando valor 1 si
la compra se ha realizado o y valor 0 de lo contrario). Los Pedidos son del último año
y los datos de Clientes son históricos, es decir, desde que existe el ecommerce.
- Para el último modelo, de regresión, se tomará una base de datos de 4948 pedidos
de los que también se conocen datos adicionales (canal de la visita, navegador,
dispositivo,etc.).
En este análisis preliminar, se hace referencia también a aquellas variables creadas nuevas a
partir de las existentes en los datos de origen
3.1.1. Descripción de datos
A continuación, se hace una descripción más certera de los datos, de cara a poner un punto
de partida al dataset antes de iniciar los modelados.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
32
3.1.1.1. Variable dependiente
Se considera la variable dependiente si un pedido ha llegado a buen término o no, por tanto
la variable “Converted” se categoriza como 1, para las compras finalizadas y como 0, para las
compras que no se han realizado (incluye este aspecto devoluciones o faltas de stock).
Para la BBDD1 la distribución de los pedidos sigue el siguiente patrón:
Figura 19: Estado de los pedidos de la BBDD1
Para la BBDD2 la distribución de los pedidos sigue el siguiente patrón:
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
33
Figura 20: Estado de los pedidos de la BBDD2
3.1.1.2. Variables independientes
Entre las variables independientes que contribuirán a construir los modelos, se encuentran
tanto variables categóricas como numéricas.
3.1.1.2.1. Variables categóricas
Las variables categóricas son aquellas cuyos valores corresponden con categorías por lo que
se indica cuáles estarán presentes en el estudio.
Para la BBDD1:
ORIGINALES
- ClienteID
- PedidoID
- Referencia Pedido
- Tratamiento
- Nuevo
- Nombre
- Apellidos
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
34
- Email
- Método de pago
- Estado
- Boletín
- Fecha Alta Cliente
- Fecha Pedido
TRANSFORMADAS
- Nombre corto
- Género
- Extensión del email
- Mes del pedido
- Día del pedido
- Hora del pedido
- Rango de importe
- Rango de antigüedad
Para la BBDD2:
- ClienteID
- Referencia Pedido
- Nuevo
- Inicial de Nombre y apellidos
- Método de pago
- Estado
- Fecha Pedido
- Fuente/Medio
- Navegador
- Dispositivo
TRANSFORMADAS
- Día de la semana del pedido
- Hora del pedido
- Rango de importe
- Fuente
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
35
3.1.1.2.2. Variables continuas
Para ambas bases de datos, la variable continua es:
- Importe
TRANSFORMADAS
- Años de antigüedad
3.1.1.3. Principales insights identificados en el análisis inicial
El análisis inicial ha arrojado distintos puntos clave que se enumeran y explican a
continuación para las 2 bases de datos utilizadas.
Para la BBDD1:
- Cliente nuevo: esta variable representa un valor binario que indica si el pedido lo ha
realizado un cliente existente o uno nuevo. La figura 21 representa el estado o punto
de partida de las ventas con esta característica donde se puede observar un 37% de
compras provenientes de usuarios nuevos, frente a un 61% de clientes ya existentes
Figura 21: Conversión cliente nuevo vs recurrente
- Género: esta variable representada en la figura 22, se ha categorizado en 3 posibles
valores Male, Female y Unknown, utilizando el campo de origen “Tratamiento”, en el
que aparece qué tratamiento quiere recibir el cliente en comunicaciones (Sr., Sra,
etc.), se ha hecho un segundo filtro utilizando el software generize.io de cara a inferir
el género en la gran cantidad de nombres en los que no existía tratamiento.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
36
La distribución de pedidos basada en el género deja entrever una estadística
bastante contundente:
Figura 22: Pedidos por género
- Extensión de email: de cara a explorar nuevas variables se ha extraído la extensión
del correo electrónico por si esta información fuera susceptible de tener algún peso
específico en los modelos y clusterizaciones. Se observa en la figura 23 que, de
partida, la gran mayoría de correos provienen de los proveedores habituales como
Gmail, Hotmail, Yahoo! y el resto son ya dominios personalizados.
Figura 23: Pedidos por extensión de email
- Método de pago: representado en la figura 24, grafica la forma de pago que ha
utilizado el cliente a todos los niveles, por lo que pueden existir métodos
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
37
fraccionados o a plazos, carritos de la compra virtuales o incluso pagos en efectivo
que se recogen en tienda. También es interesante observar métodos que están en el
final de la lista como Bizum o PayPal, lo cual puede ser una pista del tipo de usuario
que visita esta tienda y su relación con la tecnología.
Figura 24: Métodos de pago
- Importe: para ilustrar como se distribuyen los importes de los pedidos a lo largo de
todo el dataset se puede observar la figura 25, donde se ha construido una variable
que genera rangos para tratar de visualizar mejor los datos. El gráfico deja intuir
dónde en qué importes se concentran los pedidos, siendo los pedidos hasta 100
euros los mayoritarios.
Figura 25: Rangos de importe de los pedidos
- Suscripción al boletín: un aspecto que a priori no tiene por qué incidir en la compra
es la suscripción al boletín, no obstante, se ha añadido esta característica para
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
38
estudiarla junto al resto mostrada en la figura 26 y ver si tiene alguna incidencia. Los
no suscritos pueden ser clientes nuevos o no, por lo que es interesante considerar la
inclusión de la variable en el espectro general de datos que el modelo analizará.
Figura 26: Rangos de importe de los pedidos
- Pedidos por meses: al tratarse de un dataset predominantemente de ventas, el
gráfico de la figura 27 muestra en qué meses existe mayor actividad de pedidos,
diferenciando la conversión y la no conversión, señalando el gráfico que abril es en el
que más pedidos no se han finalizado. También se observa una mayor incidencia de
ventas en dos bloques de meses: los meses de noviembre y diciembre, por un lado, y
los de mayo, junio y julio por otro. La temática de la tienda puede ser un
condicionante para este comportamiento.
Figura 27: Pedidos por meses
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
39
- Pedidos por días: el análisis aterrizado a periodicidad semanal deja entrever algo que
se puede presuponer: mayores ventas de lunes a viernes. La figura 28 muestra que
en fin de semana se observa una menor actividad en lo que se refiere a pedidos.
Figura 28: Pedidos por días
- Pedidos por horas: llegar a segmentar los pedidos por periodicidad horaria deja
observar tendencias que pueden ser de gran ayuda para llevar a cabo
segmentaciones y enfocar campañas a las horas apropiadas. El gráfico de la figura 29
muestra una mayor tracción durante la jornada laboral, desde las 10 hasta las 19
horas se concentra la mayor parte de pedidos, observando el total de ventas del
dataset.
Figura 29: Pedidos por horas
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
40
Para la BBDD2:
- Cliente nuevo: esta variable representada en la figura 30, muestra si el pedido lo ha
realizado un cliente existente o uno nuevo. El punto de partida de las ventas con esta
característica muestra más de un 87% de compras provenientes de usuarios nuevos.
Figura 30: Pedidos por tipo de usuario
- Rango de importe de pedidos: la figura 31 muestra en qué rangos se concentran los
importes de los pedidos, por lo que se puede observar que la muestra nos deja casi
un 70% de pedidos inferiores a 70€.
Figura 31: Pedidos por rango del importe
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
41
- Método de pago: en la figura 32 se muestra con qué métodos de pago se han
realizado los pedidos y se puede observar que las observaciones se concentran en
Redsys, Adyen, PayPal, Bizum y Pagantis, como métodos más usados.
Figura 32: Pedidos por método de pago
- Día de la semana: la periodicidad semanal deja entrever mayores ventas de lunes a
miércoles. La figura 33 refleja que en fin de semana se observa una menor actividad
en lo que se refiere a pedidos, incluyendo jueves y viernes.
Figura 33: Pedidos por método de pago
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
42
- Hora del día: el gráfico de la figura 34 muestra una mayor tracción a las 11 y 12 de la
mañana, seguido de horarios entre las 17:00 y las 20:00. Una buena lectura de estos
datos puede ayudar a hacer campañas flash en esas franjas.
Figura 34: Pedidos por método de pago
- Fuente por la que llegó a la tienda: según la figura 35, el canal que predomina en las
compras realizadas es el de Buscadores, el 53% viene de anuncios de texto y el 18%
de resultados orgánicos del buscador. Por detrás le siguen canales como el directo o
el de referidos
Figura 35: Pedidos por fuente de tráfico
- Navegador utilizado: respecto al navegador desde el que llegan a la tienda online, en
la figura 36 se puede observar que Chrome y Safari son los que concentran más del
75% de pedidos.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
43
Figura 36: Pedidos por navegador
- Dispositivo utilizado: respecto al dispositivo desde el que llegan a la tienda y
compran, según la figura 37, el Mobile supera el 60% y desktop es de casi un 32%,
dejando un porcentaje residual a las tabletas.
Figura 37: Pedidos por dispositivo
3.2.Análisis histórico y/o limpieza de datos
Partiendo de la BBDD1, los pedidos comprenden entre mayo de 2020 a mayo de 2021, se
procedió a elegir las variables que van a ser incluidas en cada modelo.
Así, para el cálculo de disimilitudes de Gower fueron las variables que se muestran en el código
de R de la figura 38.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
44
Figura 38: Elección de variables modelo Gower
Para ambos análisis RFM, en la figura 39 se muestran las variables.
Figura 39: Elección de variables modelo RFM
Partiendo de la BBDD2, los pedidos comprenden entre enero de 2020 a mayo de 2021, se
procedió a elegir las variables que van a ser incluidas en el modelo logit, tal como muestra la
figura 40.
Figura 40: Elección de variables modelo logit
3.3.Modelado propuesto
3.3.1. Disimilitud Gower
La distancia es una medida numérica para medir la proximidad o la similitud entre
observaciones. Existen muchas métricas de distancia, y una de ellas es bastante útil para el
proyecto: la distancia de Gower (Filaire, towardsdatascience.com, 2018).
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
45
Esta distancia se calcula como la media de las disimilitudes parciales entre observaciones,
donde cada disimilitud parcial (la distancia de Gower) se sitúa entre 0 y 1.
Por otro lado, el cálculo de las disimilitudes parciales depende del tipo de variable
introducida en el modelo a evaluar, esto implica que se hará una estandarización específica a
cada característica:
- Para variables numéricas, la disimilitud parcial es la relación entre la diferencia
absoluta de las observaciones y el rango máximo de todas las observaciones.
- Para una característica cualitativa la disimilitud parcial es igual a 1 sólo si las
observaciones y_i e y_j tienen un valor diferente. En caso contrario, es igual a cero.
El componente necesario para llevar a cabo este modelo es el coeficiente silhouette, que se
encarga de contrastar la distancia media a los elementos del mismo clúster con la distancia
media a los elementos de otros clústeres. Los objetos con un valor de silueta alto se
consideran bien agrupados, mientras que los objetos con un valor bajo pueden ser valores
atípicos.
3.3.1.1. Implementación
Para implementar el modelo se han seguido los siguientes pasos:
- Dividir el dataset para evitar problemas de computación
Figura 41: Dividir dataset modelo Gower
- Transformar las variables categóricas a factor y ejecutar el modelo
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
46
Figura 42: Transformar a factor modelo Gower
- Coeficiente silhouette para identificar el número de clúster óptimo
Figura 42: Coeficiente silhouette modelo Gower
- Estimación del número de clúster
Figura 43: Estimar clústeres modelo Gower
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
47
3.3.2. RFM Analysis
El análisis RFM (recencia, frecuencia, monetario) una técnica basada en el comportamiento
de los compradores, que se utiliza para segmentar a los clientes examinando su historial de
transacciones (Wicaksono, 2019).
Como por ejemplo:
- cuanto más reciente es la compra, más receptivo es el cliente a las promociones
- cuanto más frecuente es la compra del cliente, más comprometido y satisfecho está
- el valor monetario diferencia a los que gastan mucho de los que compran poco
3.3.2.1. Implementación
A continuación se explica cómo se calcula la puntuación del RFM para cada cliente:
- Se asigna una puntuación de recurrencia a cada cliente en función de la fecha de la
compra más reciente. La puntuación se genera agrupando los valores de recurrencia
en un número de categorías (por defecto es 5). Por ejemplo, si se utilizan cuatro
categorías, los clientes con las fechas de compra más recientes reciben una
clasificación de recencia de 4, y aquellos con fechas de compra en el pasado lejano
reciben una clasificación de recencia de 1.
- La clasificación de la frecuencia se asigna de forma similar. A los clientes con alta
frecuencia de compra se les asigna una puntuación más alta (4 o 5) y a los de menor
frecuencia se les asigna una puntuación de 1.
- La puntuación monetaria se asigna en función de los ingresos totales generados por
el cliente en el periodo considerado para el análisis. A los clientes con mayores
ingresos/importe de los pedidos se les asigna una puntuación más alta, mientras que
a los que tienen menores ingresos se les asigna una puntuación de 1.
- Se genera una cuarta puntuación, la puntuación RFM, que es simplemente las tres
puntuaciones individuales concatenadas en un único valor.
Los clientes con las puntuaciones RFM más altas son los más propensos a responder a una
oferta. Para el presente proyecto se utiliza RStudio para llevar a cabo el análisis.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
48
Figura 44: Scoring modelo RFM
3.3.1. RFM Analysis + K-means
Este modelo persigue el mismo método que el explicado en el punto anterior pero añade
una innovación: los clústeres se calcularán usando la técnica del K-means (G, 2020)
K-means es un algoritmo de aprendizaje automático no supervisado (clusterización) que
hace agrupamientos o clústeres basándose en sus características. Esto lo lleva a cabo usando
la mínima suma de distancias cuadráticas entre los objetivos y el centro de su clúster. Los
pasos que sigue este modelo son:
- Se elige el número de clústeres y con ello, se establecen los centros de cada grupo.
- Cada objeto u observación es asignado al centro que esté más próximo a él.
- El centro de cada grupo se actualiza con un nuevo centro, usando la posición
promedia de los objetos del grupo.
Para calcular la segmentación RFM usando K-means, se mantienen los valores de recencia,
frecuencia y monetario del modelo RFM, pero se hace uso de un método de identificación
del número de clústeres óptimo, para que sea el modelo el que determine las agrupaciones
y no un scoring estático.
De este modo, cada clúster representa el centro de los datos pertenecientes a cada clúster,
siendo un método que es sensible a valores extremos o también conocidos como outliers
(Bagnato, 2020).
3.3.1.1. Implementación
Se hace uso de la librería Factoextra para los siguientes pasos:
- Partiendo del dataset ya procesado para el análisis RFM, se omite el scoring y se ha
de determinar el número de clústeres, con distintos métodos nos salen entre 2 y 4
clústeres como valores posibles, pero son 2 los grupos óptimos.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
49
Figura 44: Determinar clústeres RFM+K-means
- Utilizar la función K-means para asignar los resultados a cada agrupación
Figura 45: Asignar valores RFM+K-means
- Visualizar los clústeres gráficamente
Figura 46: Visualizar clústeres RFM+K-means
- Se agrupan los segmentos para obtener las métricas RFM por cada clúster
- Se asigna el clúster a los datos originales para poder agrupar las características
- Se visualizan las características de cada grupo
- Se comparan características entre grupos para identificar los segmentos de cara a
definir campañas personalizadas
3.3.2. Regresión logística
La Regresión Logística (Rodrigo, 2016), es un modelo de aprendizaje supervisado que
permite estimar la probabilidad de una variable cualitativa binaria en función de una o varias
variables continuas o categóricas. O dicho de otra forma, permite predecir el resultado de
una variable categórica o binaria (0 o 1) en función de otras que actúan como predictores.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
50
Para calcular la regresión logística, se lleva a cabo el procesamiento y limpieza de los datos
para que todas las variables tengan la clase oportuna y no existan valores NA.
3.3.2.1. Implementación
La implementación del modelo incluye los siguientes pasos:
- Limpieza de datos para su posterior procesamiento
- Análisis descriptivo u visualización de las variables que se utilizarán para tener un
punto de partida respecto a las ventas producidas en el dataset.
Figura 47: Implementación modelo logit
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
51
- El modelo logit se prueba en dos direcciones:
o usando todas las variables disponibles en el dataset y luego eliminando una a
una para ver qué modelos son más representativos y tienen una accuracy
mayor
o usando pocas variables y probando a añadir más, para testar qué
combinación de variables devuelve una accuracy mayor.
En la figura 48 se indican los pasos seguidos con la estimación de mayor accuracy
Figura 48: Estimación modelo logit
- Prueba individual del modelo con datos nuevos para obtener un porcentaje de
probabilidad de ventas, para las características añadidas en el predictor.
Figura 49: Estimación modelo logit
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
52
4. Construcción, prueba, implementación y despliegue
En este punto se desarrolla la fase de construcción, prueba e implementación de los
modelos, de cara a obtener los resultados esperados según los datos de cada una de las
bases de datos. Se desarrollarán los modelos de Gower, RFM, RFM con clusterización con K-
means y el modelo de regresión logística.
4.1.Construcción del modelo Gower
4.1.1. Estimación del modelo
Para la construcción del modelo se utilizó la base de datos transformada previamente y se
utilizaron tanto variables categóricas como numéricas.
Tabla 6. Variables para el modelo Gower
VARIABLE TIPO
Cliente_Nuevo Cliente nuevo si o no
Boletín Suscrito si o no
Método_Pago Forma de pagar
Género Male, Female o Unknown
Ext_Mail Extensión del email
Mes_pedido En qué mes se hizo el pedido
Día_pedido En qué día de la semana se hizo el pedido
Hora_pedido A qué hora se hizo el pedido
Rango_antig Rango de antigüedad en años
Rango_importe Rango de importe de la compra
Cliente Cliente si o no
4.1.2. Resultado
El modelo efectuado sobre el dataset train ofrece el output que se refleja en la figura 50.
Figura 50: Disimilitud de Gower
A través del cual , como se ve en la figura 51, se han seleccionado 3 clústeres
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
53
Figura 51: Clústeres óptimos modelo Gower
Cuyo resultado se puede ver en la figura 52, una visualización con las observaciones
clasificadas en 3 clústeres
Figura 52: Visualización de Clústeres Gower
Ahora comparando las características, se puede observar donde están las diferencias
respecto a clientes y son datos susceptibles de ser utilizados en campañas de segmentación,
retención y fidelización:
- Día en el que se realiza la compra: de la figura 53 se puede extraer de estos
resultados que el clúster 1 está formado por compras mayoritariamente de los
jueves, el clúster 2 de los martes, el clúster 3 de los lunes
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
54
Figura 53: Comparativa de clústeres de la variable Día
- Hora en la que se realiza la compra: de la figura 54 se puede extraer de estos
resultados que el clúster 1 está formado por compras mayoritariamente a las 13:00,
el clúster 2 corresponde a las 12:00, el clúster 3 destaca por compras a las 17:00
Figura 54: Comparativa de clústeres de la variable Hora
- Mes en el que se realiza la compra: el clúster 1 está formado por compras
mayoritariamente en mayo, el clúster 2 corresponde a julio, el clúster 3 destaca por
compras en diciembre, tal como refleja la figura 55.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
55
Figura 55: Comparativa de clústeres de la variable Mes
Ahora, analizando las características por grupo, se puede observar donde están las
oportunidades susceptibles de ser utilizados en campañas específicas:
- Clúster 1: de la figura 56 se extrae que clientes que ya han comprado anteriormente,
suscritos a la newsletter, son mayoría hombres que al menos llevan 1 año
registrados. Los importes de las compras se concentran más en importes hasta 100
euros. La gran mayoría de usuarios utilizan Gmail como servicio de mail.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
56
Figura 56: Variables del clúster 1
- Clúster 2: la figura 57 muestra clientes que ya han comprado anteriormente, no
están suscritos a la newsletter, mayoría hombres que llevan 10 años registrados. Los
importes de las compras se concentran más en importes hasta 50 euros. La gran
mayoría de usuarios utilizan Hotmail como servicio de mail.
Figura 57: Variables del clúster 2
- Clúster 3: la figura 58 refleja clientes nuevos, no habían comprado anteriormente, no
están suscritos a la newsletter, mayoría hombres que llevan menos de 1 año
registrados. Los importes de las compras se concentran más en importes hasta 50
euros. La gran mayoría de usuarios utilizan Gmail como servicio de mail.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
57
Figura 58: Variables del clúster 3
4.2.CONSTRUCCIÓN DEL MODELO RFM
4.2.1. Estimación del modelo
Para la construcción del modelo se utiliza la base de datos transformada previamente y se
se utilizan tan solo las variables que se indican a continuación:
Tabla 7. Variables para el modelo RFM
VARIABLE TIPO
ClienteID Identificador de Cliente
PedidoID Identificador de Pedido
Importe Importe del pedido
Fecha_Pedido Fecha en la que se hizo el pedido
Además de esto, el modelo necesita incorporar la fecha presente para hacer los cálculos de
recencia y frecuencia a partir de las fechas de los pedidos.
Por otra parte, una vez se calculan los scoring para cada criterio del modelo, se deben
establecer los valores altos y bajos para su posterior segmentación en distintos clústeres.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
58
Figura 59: Scoring estático modelo RFM
4.2.2. Resultado
Una vez conducido el análisis RFM se obtiene, mediante funciones de visualización, un
resumen de los distintos atributos del modelo y su posterior clusterización.
Por ejemplo, un gráfico tipo heatmap que representa frecuencia, recencia y valor monetario
Figura 60: Visualización modelo RFM
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
59
El modelo también enfrenta las distintas métricas para ver su relación gráficamente que
pueden ser consultadas en el anexo A.
Respecto a los clústeres, se han calculado en base a las puntuaciones obtenidas en el paso
anterior y con ellos, se puede clasificar los distintos segmentos:
Tabla 8. Segmentos de clientes para el Modelo RFM
Segmento ¿Cómo son?
Champions Compran recientemente, compran a menudo y gastan lo máximo
Loyal Customers Gastan buen dinero. Responden a las promociones
Potential Loyalist Clientes recientes, gastan una buena cantidad, compran más de una vez
New Customers Compra recientemente, pero no a menudo
Promising Compradores recientes, pero no han gastado mucho
Need Attention Valores de recencia, frecuencia y monetarios por encima de la media
About to sleep Valores de recencia, frecuencia y monetarios por debajo de la media
At risk Gastaba mucho dinero, compraba a menudo, pero hace mucho tiempo
Can’t lose them Hizo grandes compras y a menudo, pero hace mucho tiempo
Hibernating Gastan poco, baja frecuencia, compraron hace mucho tiempo
Lost Puntuaciones de recencia, frecuencia y monetarias más bajas
Others Otras casuísticas
Una vez hecho el recuento de pedidos de cada segmento, el negocio ya cuenta con una
información clave del estado de sus ventas, para poder trabajar en maximizarlas atacando a
los distintos segmentos.
Figura 61: Distribución de compras por segmento
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
60
4.3.Construcción del modelo RFM usando K-means para clustering
4.3.1. Estimación del modelo
Para la construcción del modelo se utilizó la misma base de datos transformada previamente
con las variables que se indican a continuación:
Tabla 9. Variables para el modelo RFM
VARIABLE TIPO
ClienteID Identificador de Cliente
PedidoID Identificador de Pedido
Importe Importe del pedido
Fecha_Pedido Fecha del pedido
Además de esto, el modelo necesita incorporar la fecha presente para hacer los cálculos de
recencia y frecuencia a partir de las fechas de los pedidos.
Por otra parte, en vez de calcular los scoring para cada criterio, en esta variante se utiliza el
modelo K-Means que indicará los clústeres óptimos y se podrá comparar con el modelo
anterior.
4.3.2. Resultado
El modelo se ha construido sobre los datos numéricos del RFM score, para calcular los
clústeres con técnicas no supervisadas, tal y como se ve en la figura 62, donde se puede
repasar el código R utilizado.
Figura 62: Distribución de compras por segmento
El número de clústeres óptimos identificados y visualizados en la figura 63, finalmente son 2
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
61
Figura 63: Número de clústeres óptimos para el modelo K-means
La visualización de los clústeres de la figura 64, diferenciada con color, deja más clara la
agrupación que hace el modelo
Figura 64: Visualización del número de clústeres óptimos para el modelo K-means
Los principales resultados obtenidos tras inspeccionar las características del dataset en cada
clúster:
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
62
- Clúster 1: tal y como reflejan las figuras 65 y 66, predominan clientes nuevos, pero la
presencia de clientes antiguos es también elevada. Se observan usuarios no
registrados en el boletín de la empresa, mayoritariamente de género masculino,
usuarios de Gmail, con gastos en sus compras más habituales inferiores a 50€,
realizadas en su mayoría a través de PayPal. Son clientes con menos de 1 año de
antigüedad, cuyas compras se concentran en mayo y diciembre.
Figura 65: I Características del clúster 1.
Figura 66. II Características del clúster 1.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
63
- Clúster 2: en las figuras 67 y 68 se puede observar que en este clúster predominan
clientes nuevos, pero la presencia de clientes antiguos es también elevada. Se
observan usuarios en su mayoría no registrados en el boletín de la empresa, género
masculino en su mayoría, usuarios de Hotmail, con gastos en sus compras más
habituales entre 50€ y 100€, realizadas en su mayoría a través de la pasarela de pago
del ecommerce. Son clientes entre 5 y más de 10 años de antigüedad, cuyas compras
también se concentran en mayo y diciembre.
Figura 67. I Características del clúster 2.
Figura 68. II Características del clúster 2.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
64
4.4.CONSTRUCCIÓN DEL MODELO LOGIT
4.4.1. Estimación del modelo
Para la construcción del modelo se utilizó la BBDD2 transformada previamente y se
utilizaron tanto variables categóricas como numéricas.
Tabla 10. Variables para el modelo logit
VARIABLE TIPO
Nuevo Cliente nuevo si o no
Pago Forma de pagar
Día_pedido En qué día de la semana se hizo el pedido
Hora_pedido A qué hora se hizo el pedido
Rango_importe Rango de importe de la compra
Cliente Cliente si o no
Fuente Canal digital por el que accede a comprar
Navegador Navegador utilizado para comprar
Dispositivo Dispositivo utilizado para comprar
4.4.2. Resultado
Después de llevar a cabo el desarrollo del modelo se puede visualizar en la figura 69 el
resumen de la regresión y sus principales residuos:
Figura 69. Resultado del modelo logit.
Respecto a los coeficientes se observa significatividad en varias variables en el output del
modelo accesible en la figura 70.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
65
Figura 70. Significatividad de coeficientes.
La lectura o interpretación que puede realizarse es la siguiente:
- Cliente Nuevo SI: los clientes nuevos tienen más probabilidad de compra que los
antiguos
- Pago Contra Reembolso: el pago contra reembolso tiene impacto negativo en la
compra final, es más probable que se realice la compra con otros métodos.
- Fuente Direct: el tráfico directo tiene menos probabilidades de comprar
- Fuente Landing: el tráfico desde Landing tiene menos probabilidades de comprar
- Fuente Organic: el tráfico SEO tiene más probabilidades de comprar
- Fuente Referral: el tráfico referral tiene menos probabilidades de comprar
- Dispositivo Mobile: el tráfico desde mobile tiene más probabilidades de comprar
Comparar la distribución de compradores con la que clasifica el modelo, deja ver que existen
pocas observaciones mal clasificadas, a través de la matriz de confusión, esto indica que el
modelo puede ser bueno.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
66
El nivel de Accuracy alcanzado por el modelo es de 97,59%, como se puede ver en la figura
71, con el detalle de la matriz de confusión.
Figura 71. Matriz de confusión del modelo logit.
Por último, en la figura 72 cabe destacar el poder de predicción individual que puede tener
el modelo para explorar las probabilidades de compra de un grupo de características en
concreto.
Figura 72. Predicción individual del modelo logit.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
67
La interpretación del resultado sería el siguiente:
“Los usuarios nuevos que han accedido a la tienda a través de un anuncio de Google Ads,
con el dispositivo Tablet, y que han elegido el método de pago Contra Reembolso, tienen un
66,10% de probabilidades de finalizar la compra.”
5. Cronograma del proyecto
5.1.Swimlane de Inteligencia de negocio y gestión del proyecto
El desarrollador del proyecto asociado al TFM, ha tenido reuniones con los dueños de los
distintos ecommerce que han cedido sus datos para los análisis, de cara a perfilar el actual
trabajo como posible herramienta de segmentación y creación de campañas más enfocadas.
Las actividades llevadas a cabo en esta fase comprenden:
- Planificación de recursos
- Resolución de problemas
- Comunicación entre las partes y coordinación entre personas involucradas
Asimismo, se llevará a cabo un documento de conclusiones consensuado entre ambas
partes, que actuará como resumen ejecutivo de los análisis realizados, los objetivos
cubiertos, los tiempos estimados y las conclusiones de negocio, para que el propietario del
ecommerce pueda identificar con claridad los segmentos y las posibles acciones de
marketing disponibles.
5.2.Swimlane de datos, bases de datos e integración de datos
La extracción de datos y sus diferentes fuentes se llevará a cabo de estas formas:
- Accediendo a Google Analytics
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
68
- Accediendo a datos de Pedidos y Clientes en el backend de Prestashop
- Los proporcionarán los dueños de ecommerce
Posteriormente a su modelado, se entregarán:
- Datos de pedidos con clusterización por el método 1
- Datos de pedidos con clusterización por el método 2
- Datos de pedidos con clusterización por el método 3
- Documento de conclusiones, con insights y next steps para campañas de marketing
5.3.Swimlane de la infraestructura
En esta fase se revisa y se verifica que se cuentan con todas las herramientas y licencias
necesarias para llevar a cabo el proyecto, incluso accesos a internet para descargar la
información:
- Herramienta de análisis de datos: RStudio 1.4.1103 sobre R-4.0.4
- Herramienta de búsqueda y documentación: Google, Medium, DataCamp
6. Conclusiones
Para cualquier tienda online o ecommerce, utilice el sistema o la tecnología que sea, es de
vital importancia el análisis de datos. Por un lado tener la capacidad de segmentar a los
clientes, le coloca en una posición aventajada para tomar decisiones. Por otro lado, estar en
disposición de analizar qué factores intervienen en la compra final para tratar de
potenciarlos, es otro aspecto que puede influir de manera directa en la priorización de
acciones de mejora y por ende, en la obtención de resultados.
El reto que presenta este proyecto es utilizar los datos de ecommerce para poder tomar
mejores decisiones en dos direcciones: enfocar mejor las campañas de marketing para los
distintos tipos de clientes y optimizar esfuerzos en aquellas características que tienen
impacto en la venta final.
Cualquier director de marketing o dueño de un ecommerce podrá tomar mejores decisiones
con el conocimiento que aportan los modelos presentados, siempre y cuando la recopilación
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
69
e integración de datos tenga una trazabilidad en los distintos activos o herramientas de
datos (datos del CMS, datos de Google Analytics, datos de CRM, etc.)
Como objetivo principal del presente TFM se propuso desarrollar un proyecto de inteligencia
de negocio qué permita segmentar pedidos y clientes acorde a los factores que, determinen
los aspectos que tengan más peso en la conversión final de los clientes.
En ese sentido, se han analizado los datos e informes actuales, constatando que una de las
dos empresas colaboradoras no tiene ningún tipo de integración entre sus datos y la
segunda, se encuentra en un punto muy básico de integración de estos. De hecho, ambas
empresas disponen de datos de calidad que les permitirían crear integraciones más
estratégicas, incluso dar pasos para construir sus propios data warehouses.
A propósito de dicho objetivo, se ha realizado una segmentación de clientes aplicando
técnicas de aprendizaje no supervisado basado en primer lugar, en el modelo de disimilitud
de Gower y otro modelo basado en K-means. Como resultado, el primero modelo ha
arrojado 3 clústeres con diferentes características y el segundo, 2 clústeres. Asimismo,
Se ha realizado un modelo adicional de segmentación que no usa aprendizaje automático
sino un sistema de scoring centrado en cuándo se hacen las compras, cuánto se gastan y con
qué frecuencia hacen las compras. Como resultado se ha obtenido una clasificación de
clientes por su potencial de valor para la compañía, identificando segmentos que están
próximos a perder su lealtad u otros cuya inactividad refleja el nulo retorno que ofrecen a
nivel de negocio.
Para los tres modelos de segmentación, se considera que la incorporación de la información
sobre los clústeres pudiese permitir a las empresas a analizar diferencias entre segmentos y
trabajar en su retención o aumento de satisfacción, así como en la maximización de
beneficios, creando campañas personalizadas de mayor valor.
Asimismo, se ha logrado un modelo de regresión logística que identifica qué factores tienen
mayor peso en la compra final. Sin duda, entender qué canales, dispositivos o navegadores
son determinantes en la conversión final, basando el modelo en datos pasados, da una idea
de rendimiento de la conversión, para priorizar o hacer más fuerza en aquellos factores que
inciden en la compra. Como resultado, este modelo ofrece una interpretabilidad muy alta,
pudiendo utilizarse como una herramienta de predicción individual de alto valor para la
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
70
empresa, además de poder potenciar aquella combinación de variables que mejor funcionan
en la conversión final.
Ambos grupos de modelos se convierten en sendas herramientas que permiten orientar el
negocio a la maximización de ventas, una usando la segmentación y otra usando la
priorización. En cualquiera de las dos, una tienda online que abrace estas técnicas, será más
efectiva, tendrá menores costes y hará un uso de los datos inteligente, puesto que se estará
enfocando en personalizar la experiencia de sus distintos clientes, por un lado, y por otro,
estará haciendo hincapié en lo que ya funciona en su tienda para amplificarlo sin modificar
significativamente sus costes.
7. Limitaciones y prospectiva
Una vez finalizado el trabajo y analizando los aspectos desarrollados, se establecen las
principales limitaciones halladas:
1. La descarga de datos ha sido manual y no ha existido ninguna extensión, API o
aplicativo que facilite o posibilite la automatización de la descarga o su
almacenamiento en bases de datos que actúen como Data Warehouse
2. No disponer de los mismos tipos de datos para proyectos de ecommerce diferentes.
Esto significa que no existe una cultura del dato en todas las organizaciones y a la
hora de extraer los datos de distintas fuentes, existe una dificultad añadida si no hay
un trabajo previo de las empresas por llegar a la granularidad necesaria de los datos.
3. Idealmente se hace necesario un desarrollo en el gestor de contenidos o CMS, que
posibilite integrar los datos de clientes y pedidos, con los datos de Google Analytics
con Ecommerce Mejorado, así como otros datos adicionales como pueden ser los
existentes en un CRM. Esa trazabilidad posibilitará la automatización o el volcado
periódico a bases de datos como BigQuery.
4. La cantidad de datos que se disponen de los clientes y los pedidos también puede
actuar como una limitación o hándicap ya que, los análisis posteriores pueden perder
profundidad y no dar una información más rica, si se cuentan con datos básicos
(nombre, importe, fecha de pedido) que si se ha conseguido ampliar mínimamente
(género, antigüedad como cliente, edad, etc.).
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
71
5. La existencia de características de datos poco balanceados puede hacer menos útiles
ciertos segmentos, es decir, si el perfil de usuarios de una característica mayoritaria,
dicha característica no será del todo importante para agrupar. Ejemplo: 95% de
usuarios de género masculino.
Con una implementación similar a la indicada en el punto anterior, los siguientes pasos
de estos análisis pueden ser:
a. Automatización de los análisis
b. Creación de distintos Dashboards dinámicos enfocados a distintos
departamentos de las organizaciones
c. Incorporar análisis basados en Forecast, para tener una herramienta
predictiva y que permita activar medidas de minimización de costes y/o de
maximización de ingresos.
Por último, resaltar que los proyectos de Inteligencia de Negocio son una oportunidad para
la mejora tanto en beneficio como en posicionamiento en el mercado de los ecommerce. Es
una forma de adaptarse a las tendencias y patrones de los usuarios, así como en adoptar
novedades tecnológicas, de la forma más eficiente posible, respecto a la gran cantidad de
datos que se generan constantemente.
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
72
BIBLIOGRAFÍA
Bagnato, J. I. (2 de Junio de 2020). aprendemachinelearning.com. Obtenido de
aprendemachinelearning.com:
https://www.aprendemachinelearning.com/deteccion-de-outliers-en-python-
anomalia/
Baymard. (20 de Diciembre de 2020). baymard.com. Obtenido de baymard.com:
https://baymard.com/lists/cart-abandonment-rate
Beck, M. (16 de Diciembre de 2019). Can You Predict If a Customer Will Make a Purchase on
a Website? Obtenido de towardsdatascience.com:
https://towardsdatascience.com/can-you-predict-if-a-customer-will-make-a-
purchase-on-a-website-e6843ec264ae
Bello, E. (1 de Marzo de 2021). iebschool.com. Obtenido de iebschool.com:
https://www.iebschool.com/blog/que-es-un-cms-e-commerce/
Bow, C. (11 de Octubre de 2018). An introduction to regression analysis for marketers.
Obtenido de blog.markgrowth.com: https://blog.markgrowth.com/an-introduction-
to-regression-analysis-for-marketers-e4ece9dce43a
Bow, C. (10 de Marzo de 2018). E-Commerce EDA and segmentation with R. Obtenido de
kaggle.com: https://www.kaggle.com/chrisbow/e-commerce-eda-and-segmentation-
with-r
builtwith.com. (12 de Julio de 2021). builtwith.com. Obtenido de builtwith.com:
https://trends.builtwith.com/shop/country/Spain
chaudhury, j. (20 de Julio de 2020). Linear Regression on Ecommerce Customer Dataset.
Obtenido de medium.com: https://medium.com/@jayramchaudhury20/linear-
regression-on-ecommerce-customer-dataset-752bce43e0de
CNMC. (1 de Abril de 2021). Disponibles datos telecomunicaciones de abril 2021 . Obtenido
de data.cnmc.es: http://data.cnmc.es/datagraph/
CNMCData. (8 de Enero de 2021). El comercio electrónico superó en España los 12.000
millones de euros en el segundo trimestre de 2020. Obtenido de cnmc.es:
https://www.cnmc.es/prensa/ecommerce-2T-20210108
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
73
comunica-web.com. (2 de Julio de 2020). Plataformas ecommerce más utilizadas en España
(2020). Obtenido de comunica-web.com: https://comunica-
web.com/blog/marketing-digital/plataformas-ecommerce/
DataFlair Team. (26 de Septiembre de 2017). Predictive and Descriptive Analytics in R –
Grasp the entire concept thoroughly! Obtenido de data-flair.training: https://data-
flair.training/blogs/r-predictive-and-descriptive-analytics/
ecommerce-nation.es. (4 de Diciembre de 2018). ecommerce-nation.es. Obtenido de
ecommerce-nation.es: https://www.ecommerce-nation.es/todo-lo-que-necesitas-
saber-para-elegir-tu-cms-para-ecommerce/
Filaire, T. (16 de Julio de 2018). Clustering on mixed type data. Obtenido de
towardsdatascience.com/: https://towardsdatascience.com/clustering-on-mixed-
type-data-8bbd0a2569c3
Filaire, T. (16 de Julio de 2018). towardsdatascience.com. Obtenido de
towardsdatascience.com: https://towardsdatascience.com/clustering-on-mixed-
type-data-8bbd0a2569c3
Flat 101. (12 de Diciembre de 2019). flat101.es. Obtenido de flat101.es:
https://www.flat101.es/estudio-sobre-la-conversion-en-negocios-digitales-
espanoles-2019/
G, D. (28 de Septiembre de 2020). rpubs.com. Obtenido de rpubs.com:
https://rpubs.com/DessiG/671942
Gaggin, A. (s.f.). Applying machine learning to sales prediction . Obtenido de rstudio:
https://rstudio-pubs-
static.s3.amazonaws.com/105869_f6e7f8d4e0434c40bd939a3d1e792af9.html
Garcés, E. (25 de Marzo de 2019). Data Science & Machine Learning with Google Analytics.
Obtenido de linkedin.com: https://www.linkedin.com/pulse/data-science-machine-
learning-google-analytics-part-1-eduardo-garc%C3%A9s/
Gondaliya, A. (14 de Enero de 2015). Predictive analysis in eCommerce part-3 . Obtenido de
r-bloggers.com: https://www.r-bloggers.com/2015/01/predictive-analysis-in-
ecommerce-part-3/amp/
Granda, X. (17 de Diciembre de 2019). e-Commerce Purchase Prediction . Obtenido de
nycdatascience.com: https://nycdatascience.com/blog/student-works/e-commerce-
purchase-prediction/
Mª José Cachón Yáñez
Métodos de aprendizaje automático para la mejora estratégica de las ventas online
74
Guntupalli, N. (27 de Enero de 2018). Predicting Conversion of Website Users in R. Obtenido
de rpubs.com: https://rpubs.com/neerajkumar990/353129
Herviawan, M. H. (31 de Octubre de 2017). Customer Segmentation using RFM Analysis (R).
Obtenido de kaggle.com: https://www.kaggle.com/hendraherviawan/customer-
segmentation-using-rfm-analysis-r
Hong, F. (21 de Octubre de 2015). Machine learning on Google Analytics (part 2). Obtenido
de liip.ch: https://www.liip.ch/en/blog/8160
IAB SPAIN. (15 de Julio de 2020). PRESENTACIÓN ONLINE DEL ESTUDIO ANUAL DE
ECOMMERCE 2020. Obtenido de iabspain.es: https://iabspain.es/presentacion-
online-del-estudio-anual-de-ecommerce-2020/
INE. (1 de Junio de 2020). ine.es. Obtenido de ine.es:
https://www.ine.es/ss/Satellite?L=es_ES&c=INECifrasINE_C&cid=1259952923622&p
=1254735116567&pagename=ProductosYServicios%2FINECifrasINE_C%2FPYSDetalle
CifrasINE
Jain, S. (05 de Marzo de 2019). Clustering using categorical data. Obtenido de kaggle.com:
https://www.kaggle.com/general/19741
Jalalian, S. (17 de Agosto de 2019). Prediction of Online Shopper’s Intention . Obtenido de
fsocietysj.com: https://fsocietysj.com/prediction-of-online-shoppers-intention/
Josue, A. (31 de Enero de 2020). PREDICTIONS OF A COMPANY’S FUTURE SALES USING
LINEAR REGRESSION. Obtenido de rpubs.com:
https://rpubs.com/Josue90/predict_sales
Kassambara, A. (17 de 10 de 2018). PARTITIONAL CLUSTERING IN R: THE ESSENTIALS.
Obtenido de datanovia.com: https://www.datanovia.com/en/lessons/k-medoids-in-
r-algorithm-and-practical-examples/
Kassambara, A. (2 de Junio de 2020). K-MEANS CLUSTERING VISUALIZATION IN R: STEP BY
STEP GUIDE. Obtenido de datanovia.com: https://www.datanovia.com/en/blog/k-
means-clustering-visualization-in-r-step-by-step-guide/
Khandelwal, R. (3 de Enero de 2021). Customer Segmentation in Online Retail. Obtenido de
towardsdatascience.com: https://towardsdatascience.com/customer-segmentation-
in-online-retail-1fc707a6f9e6
TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce
TFM sobre Modelos de Aprendizaje Automático en Ecommerce

Contenu connexe

Tendances

We’ve analysed the SEO of over 100 eCom sites - this is what we’ve learned!
We’ve analysed the SEO of over 100 eCom sites - this is what we’ve learned!We’ve analysed the SEO of over 100 eCom sites - this is what we’ve learned!
We’ve analysed the SEO of over 100 eCom sites - this is what we’ve learned!DanielCartland
 
How to Implement Machine Learning in Your Internal Linking Audit - Lazarina S...
How to Implement Machine Learning in Your Internal Linking Audit - Lazarina S...How to Implement Machine Learning in Your Internal Linking Audit - Lazarina S...
How to Implement Machine Learning in Your Internal Linking Audit - Lazarina S...LazarinaStoyanova
 
Brighton SEO 2023 - ML Lessons For Total Search.pdf
Brighton SEO 2023 - ML Lessons For Total Search.pdfBrighton SEO 2023 - ML Lessons For Total Search.pdf
Brighton SEO 2023 - ML Lessons For Total Search.pdfMaxFlajsner1
 
Switching domain 3 months before an IPO - Lucia Lecesne - BrightonSEO April 2022
Switching domain 3 months before an IPO - Lucia Lecesne - BrightonSEO April 2022Switching domain 3 months before an IPO - Lucia Lecesne - BrightonSEO April 2022
Switching domain 3 months before an IPO - Lucia Lecesne - BrightonSEO April 2022Lucia Lecesne
 
THE FUTURE OF RETAIL 2018: ARTIFICIAL INTELLIGENCE
THE FUTURE OF RETAIL 2018: ARTIFICIAL INTELLIGENCETHE FUTURE OF RETAIL 2018: ARTIFICIAL INTELLIGENCE
THE FUTURE OF RETAIL 2018: ARTIFICIAL INTELLIGENCEAshish Mathur
 
Screaming Frog + Xpath: BrightonSEO April 2019
Screaming Frog + Xpath: BrightonSEO April 2019Screaming Frog + Xpath: BrightonSEO April 2019
Screaming Frog + Xpath: BrightonSEO April 2019Sabine Langmann
 
The Value of Featured Snippets (BrightonSEO 2023).pdf
The Value of Featured Snippets (BrightonSEO 2023).pdfThe Value of Featured Snippets (BrightonSEO 2023).pdf
The Value of Featured Snippets (BrightonSEO 2023).pdfNiki Mosier
 
Data science & data scientist
Data science & data scientistData science & data scientist
Data science & data scientistVijayMohan Vasu
 
How to Create A Corporate Social Responsibility (CSR) Strategy (And Why it Ma...
How to Create A Corporate Social Responsibility (CSR) Strategy (And Why it Ma...How to Create A Corporate Social Responsibility (CSR) Strategy (And Why it Ma...
How to Create A Corporate Social Responsibility (CSR) Strategy (And Why it Ma...RebekahDunne
 
Cómo analizar enlazado interno en un proyecto SEO #TerritorioDSM #TeritorioTr...
Cómo analizar enlazado interno en un proyecto SEO #TerritorioDSM #TeritorioTr...Cómo analizar enlazado interno en un proyecto SEO #TerritorioDSM #TeritorioTr...
Cómo analizar enlazado interno en un proyecto SEO #TerritorioDSM #TeritorioTr...MJ Cachón Yáñez
 
Delimit Your Data With Google Sheets - #WTSfest 2020
Delimit Your Data With Google Sheets - #WTSfest 2020Delimit Your Data With Google Sheets - #WTSfest 2020
Delimit Your Data With Google Sheets - #WTSfest 2020HannahRamptonButler
 
Topic 1 Introduction to web analytics
Topic  1   Introduction to web analytics Topic  1   Introduction to web analytics
Topic 1 Introduction to web analytics Jigsaw Academy
 
A beginner's guide to machine learning for SEOs - WTSFest 2022
A beginner's guide to machine learning for SEOs  - WTSFest 2022A beginner's guide to machine learning for SEOs  - WTSFest 2022
A beginner's guide to machine learning for SEOs - WTSFest 2022LazarinaStoyanova
 
[Brighton SEO] Audience Intelligence & SEO: How to integrate data sources to ...
[Brighton SEO] Audience Intelligence & SEO: How to integrate data sources to ...[Brighton SEO] Audience Intelligence & SEO: How to integrate data sources to ...
[Brighton SEO] Audience Intelligence & SEO: How to integrate data sources to ...Rory Hope
 
BrightonSEO slide deck Oct 2022 - Levi Williams-Clucas - Review Generation an...
BrightonSEO slide deck Oct 2022 - Levi Williams-Clucas - Review Generation an...BrightonSEO slide deck Oct 2022 - Levi Williams-Clucas - Review Generation an...
BrightonSEO slide deck Oct 2022 - Levi Williams-Clucas - Review Generation an...Levi Williams-Clucas
 
Canonicalization for SEO BrightonSEO April 2023 Patrick Stox
Canonicalization for SEO BrightonSEO April 2023 Patrick StoxCanonicalization for SEO BrightonSEO April 2023 Patrick Stox
Canonicalization for SEO BrightonSEO April 2023 Patrick StoxAhrefs
 
How to rethink the traditional SEO workspace to promote team wellbeing and pr...
How to rethink the traditional SEO workspace to promote team wellbeing and pr...How to rethink the traditional SEO workspace to promote team wellbeing and pr...
How to rethink the traditional SEO workspace to promote team wellbeing and pr...Varn
 
Data Studio for SEOs: Reporting Automation Tips - Weekly SEO with Lazarina Stoy
Data Studio for SEOs: Reporting Automation Tips - Weekly SEO with Lazarina StoyData Studio for SEOs: Reporting Automation Tips - Weekly SEO with Lazarina Stoy
Data Studio for SEOs: Reporting Automation Tips - Weekly SEO with Lazarina StoyLazarinaStoyanova
 
DataCamp investor pitch deck April 2017
DataCamp investor pitch deck April 2017DataCamp investor pitch deck April 2017
DataCamp investor pitch deck April 2017Jonathan Cornelissen
 
BrightonSEO March 2021 | Dan Taylor, Image Entity Tags
BrightonSEO March 2021 | Dan Taylor, Image Entity TagsBrightonSEO March 2021 | Dan Taylor, Image Entity Tags
BrightonSEO March 2021 | Dan Taylor, Image Entity TagsDan Taylor
 

Tendances (20)

We’ve analysed the SEO of over 100 eCom sites - this is what we’ve learned!
We’ve analysed the SEO of over 100 eCom sites - this is what we’ve learned!We’ve analysed the SEO of over 100 eCom sites - this is what we’ve learned!
We’ve analysed the SEO of over 100 eCom sites - this is what we’ve learned!
 
How to Implement Machine Learning in Your Internal Linking Audit - Lazarina S...
How to Implement Machine Learning in Your Internal Linking Audit - Lazarina S...How to Implement Machine Learning in Your Internal Linking Audit - Lazarina S...
How to Implement Machine Learning in Your Internal Linking Audit - Lazarina S...
 
Brighton SEO 2023 - ML Lessons For Total Search.pdf
Brighton SEO 2023 - ML Lessons For Total Search.pdfBrighton SEO 2023 - ML Lessons For Total Search.pdf
Brighton SEO 2023 - ML Lessons For Total Search.pdf
 
Switching domain 3 months before an IPO - Lucia Lecesne - BrightonSEO April 2022
Switching domain 3 months before an IPO - Lucia Lecesne - BrightonSEO April 2022Switching domain 3 months before an IPO - Lucia Lecesne - BrightonSEO April 2022
Switching domain 3 months before an IPO - Lucia Lecesne - BrightonSEO April 2022
 
THE FUTURE OF RETAIL 2018: ARTIFICIAL INTELLIGENCE
THE FUTURE OF RETAIL 2018: ARTIFICIAL INTELLIGENCETHE FUTURE OF RETAIL 2018: ARTIFICIAL INTELLIGENCE
THE FUTURE OF RETAIL 2018: ARTIFICIAL INTELLIGENCE
 
Screaming Frog + Xpath: BrightonSEO April 2019
Screaming Frog + Xpath: BrightonSEO April 2019Screaming Frog + Xpath: BrightonSEO April 2019
Screaming Frog + Xpath: BrightonSEO April 2019
 
The Value of Featured Snippets (BrightonSEO 2023).pdf
The Value of Featured Snippets (BrightonSEO 2023).pdfThe Value of Featured Snippets (BrightonSEO 2023).pdf
The Value of Featured Snippets (BrightonSEO 2023).pdf
 
Data science & data scientist
Data science & data scientistData science & data scientist
Data science & data scientist
 
How to Create A Corporate Social Responsibility (CSR) Strategy (And Why it Ma...
How to Create A Corporate Social Responsibility (CSR) Strategy (And Why it Ma...How to Create A Corporate Social Responsibility (CSR) Strategy (And Why it Ma...
How to Create A Corporate Social Responsibility (CSR) Strategy (And Why it Ma...
 
Cómo analizar enlazado interno en un proyecto SEO #TerritorioDSM #TeritorioTr...
Cómo analizar enlazado interno en un proyecto SEO #TerritorioDSM #TeritorioTr...Cómo analizar enlazado interno en un proyecto SEO #TerritorioDSM #TeritorioTr...
Cómo analizar enlazado interno en un proyecto SEO #TerritorioDSM #TeritorioTr...
 
Delimit Your Data With Google Sheets - #WTSfest 2020
Delimit Your Data With Google Sheets - #WTSfest 2020Delimit Your Data With Google Sheets - #WTSfest 2020
Delimit Your Data With Google Sheets - #WTSfest 2020
 
Topic 1 Introduction to web analytics
Topic  1   Introduction to web analytics Topic  1   Introduction to web analytics
Topic 1 Introduction to web analytics
 
A beginner's guide to machine learning for SEOs - WTSFest 2022
A beginner's guide to machine learning for SEOs  - WTSFest 2022A beginner's guide to machine learning for SEOs  - WTSFest 2022
A beginner's guide to machine learning for SEOs - WTSFest 2022
 
[Brighton SEO] Audience Intelligence & SEO: How to integrate data sources to ...
[Brighton SEO] Audience Intelligence & SEO: How to integrate data sources to ...[Brighton SEO] Audience Intelligence & SEO: How to integrate data sources to ...
[Brighton SEO] Audience Intelligence & SEO: How to integrate data sources to ...
 
BrightonSEO slide deck Oct 2022 - Levi Williams-Clucas - Review Generation an...
BrightonSEO slide deck Oct 2022 - Levi Williams-Clucas - Review Generation an...BrightonSEO slide deck Oct 2022 - Levi Williams-Clucas - Review Generation an...
BrightonSEO slide deck Oct 2022 - Levi Williams-Clucas - Review Generation an...
 
Canonicalization for SEO BrightonSEO April 2023 Patrick Stox
Canonicalization for SEO BrightonSEO April 2023 Patrick StoxCanonicalization for SEO BrightonSEO April 2023 Patrick Stox
Canonicalization for SEO BrightonSEO April 2023 Patrick Stox
 
How to rethink the traditional SEO workspace to promote team wellbeing and pr...
How to rethink the traditional SEO workspace to promote team wellbeing and pr...How to rethink the traditional SEO workspace to promote team wellbeing and pr...
How to rethink the traditional SEO workspace to promote team wellbeing and pr...
 
Data Studio for SEOs: Reporting Automation Tips - Weekly SEO with Lazarina Stoy
Data Studio for SEOs: Reporting Automation Tips - Weekly SEO with Lazarina StoyData Studio for SEOs: Reporting Automation Tips - Weekly SEO with Lazarina Stoy
Data Studio for SEOs: Reporting Automation Tips - Weekly SEO with Lazarina Stoy
 
DataCamp investor pitch deck April 2017
DataCamp investor pitch deck April 2017DataCamp investor pitch deck April 2017
DataCamp investor pitch deck April 2017
 
BrightonSEO March 2021 | Dan Taylor, Image Entity Tags
BrightonSEO March 2021 | Dan Taylor, Image Entity TagsBrightonSEO March 2021 | Dan Taylor, Image Entity Tags
BrightonSEO March 2021 | Dan Taylor, Image Entity Tags
 

Similaire à TFM sobre Modelos de Aprendizaje Automático en Ecommerce

Analitica web para la Empresa
Analitica web para la EmpresaAnalitica web para la Empresa
Analitica web para la EmpresaAlvaro Alfonso
 
Sesión Nº 3 Guía de Plan marketing-online para pymes
Sesión Nº 3 Guía de Plan marketing-online para pymesSesión Nº 3 Guía de Plan marketing-online para pymes
Sesión Nº 3 Guía de Plan marketing-online para pymesPaola Meza Maldonado
 
Manual sobre Plan marketing Online para Pymes
Manual sobre Plan marketing Online para PymesManual sobre Plan marketing Online para Pymes
Manual sobre Plan marketing Online para PymesPaola Meza Maldonado
 
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...Pedro Arcos Méndez
 
Sistemas de informacion de caja trujillo con mipe
Sistemas de informacion de caja trujillo con mipeSistemas de informacion de caja trujillo con mipe
Sistemas de informacion de caja trujillo con mipeJim Kenny
 
Fundamentos de sistemas_de_informacion_(modulo_1)
Fundamentos de sistemas_de_informacion_(modulo_1)Fundamentos de sistemas_de_informacion_(modulo_1)
Fundamentos de sistemas_de_informacion_(modulo_1)Jorge A
 
E comerce
E comerceE comerce
E comercegusarx
 
Plan de Marketing Online
Plan de Marketing OnlinePlan de Marketing Online
Plan de Marketing OnlineWebasesor
 
Emblue Mail. Tutorial Plan marketing online-
Emblue Mail. Tutorial Plan marketing online-Emblue Mail. Tutorial Plan marketing online-
Emblue Mail. Tutorial Plan marketing online-EmBlueMail
 
Plan marketing-online-100609120847-phpapp01
Plan marketing-online-100609120847-phpapp01Plan marketing-online-100609120847-phpapp01
Plan marketing-online-100609120847-phpapp01Albert Estevez
 
Plan marketing-online-100609120847-phpapp01
Plan marketing-online-100609120847-phpapp01Plan marketing-online-100609120847-phpapp01
Plan marketing-online-100609120847-phpapp01Albert Estevez
 
Plan de Negocio para la PYME e fectuando
Plan de Negocio para la PYME e fectuandoPlan de Negocio para la PYME e fectuando
Plan de Negocio para la PYME e fectuandoJohanna Sanchez
 
Rivera_Cervantes_MiguelAngel_S11.pdf
Rivera_Cervantes_MiguelAngel_S11.pdfRivera_Cervantes_MiguelAngel_S11.pdf
Rivera_Cervantes_MiguelAngel_S11.pdfMiguelAngelRiveraCer1
 
Análisis de la Administración de la Fuerza de Ventas
Análisis de la Administración de la Fuerza de VentasAnálisis de la Administración de la Fuerza de Ventas
Análisis de la Administración de la Fuerza de VentasOmar Sánchez
 
El Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceEl Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceAlex Rayón Jerez
 
sistema de investigación de mercado sim
sistema de investigación de mercado simsistema de investigación de mercado sim
sistema de investigación de mercado simJhonatanEspinoza12
 

Similaire à TFM sobre Modelos de Aprendizaje Automático en Ecommerce (20)

Analitica web para la Empresa
Analitica web para la EmpresaAnalitica web para la Empresa
Analitica web para la Empresa
 
Sesión Nº 3 Guía de Plan marketing-online para pymes
Sesión Nº 3 Guía de Plan marketing-online para pymesSesión Nº 3 Guía de Plan marketing-online para pymes
Sesión Nº 3 Guía de Plan marketing-online para pymes
 
Manual sobre Plan marketing Online para Pymes
Manual sobre Plan marketing Online para PymesManual sobre Plan marketing Online para Pymes
Manual sobre Plan marketing Online para Pymes
 
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
Análisis del uso de algoritmos de Minería de Datos y Machine Learning para Ma...
 
Consumidor convencional digital
Consumidor convencional digitalConsumidor convencional digital
Consumidor convencional digital
 
Sistemas de informacion de caja trujillo con mipe
Sistemas de informacion de caja trujillo con mipeSistemas de informacion de caja trujillo con mipe
Sistemas de informacion de caja trujillo con mipe
 
Fundamentos de sistemas_de_informacion_(modulo_1)
Fundamentos de sistemas_de_informacion_(modulo_1)Fundamentos de sistemas_de_informacion_(modulo_1)
Fundamentos de sistemas_de_informacion_(modulo_1)
 
E comerce
E comerceE comerce
E comerce
 
Plan de Marketing Online
Plan de Marketing OnlinePlan de Marketing Online
Plan de Marketing Online
 
Emblue Mail. Tutorial Plan marketing online-
Emblue Mail. Tutorial Plan marketing online-Emblue Mail. Tutorial Plan marketing online-
Emblue Mail. Tutorial Plan marketing online-
 
Plan marketing-online
Plan marketing-onlinePlan marketing-online
Plan marketing-online
 
Plan marketing-online
 Plan marketing-online Plan marketing-online
Plan marketing-online
 
Emblue Mail. Tutorial Plan marketing online
Emblue Mail. Tutorial Plan marketing onlineEmblue Mail. Tutorial Plan marketing online
Emblue Mail. Tutorial Plan marketing online
 
Plan marketing-online-100609120847-phpapp01
Plan marketing-online-100609120847-phpapp01Plan marketing-online-100609120847-phpapp01
Plan marketing-online-100609120847-phpapp01
 
Plan marketing-online-100609120847-phpapp01
Plan marketing-online-100609120847-phpapp01Plan marketing-online-100609120847-phpapp01
Plan marketing-online-100609120847-phpapp01
 
Plan de Negocio para la PYME e fectuando
Plan de Negocio para la PYME e fectuandoPlan de Negocio para la PYME e fectuando
Plan de Negocio para la PYME e fectuando
 
Rivera_Cervantes_MiguelAngel_S11.pdf
Rivera_Cervantes_MiguelAngel_S11.pdfRivera_Cervantes_MiguelAngel_S11.pdf
Rivera_Cervantes_MiguelAngel_S11.pdf
 
Análisis de la Administración de la Fuerza de Ventas
Análisis de la Administración de la Fuerza de VentasAnálisis de la Administración de la Fuerza de Ventas
Análisis de la Administración de la Fuerza de Ventas
 
El Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligenceEl Big Data en la dirección comercial: market(ing) intelligence
El Big Data en la dirección comercial: market(ing) intelligence
 
sistema de investigación de mercado sim
sistema de investigación de mercado simsistema de investigación de mercado sim
sistema de investigación de mercado sim
 

Plus de MJ Cachón Yáñez

Encuentra tu sitio en Google (con tu proyecto inmobiliario)
Encuentra tu sitio  en Google  (con tu proyecto inmobiliario)Encuentra tu sitio  en Google  (con tu proyecto inmobiliario)
Encuentra tu sitio en Google (con tu proyecto inmobiliario)MJ Cachón Yáñez
 
Estudio sobre Migraciones #SOB23
Estudio sobre Migraciones #SOB23Estudio sobre Migraciones #SOB23
Estudio sobre Migraciones #SOB23MJ Cachón Yáñez
 
Cómo aprender (SEO) #SherpaDay
Cómo aprender (SEO) #SherpaDayCómo aprender (SEO) #SherpaDay
Cómo aprender (SEO) #SherpaDayMJ Cachón Yáñez
 
SEO Orientado a Resultados #DigitalZAC 2022
SEO Orientado a Resultados #DigitalZAC 2022SEO Orientado a Resultados #DigitalZAC 2022
SEO Orientado a Resultados #DigitalZAC 2022MJ Cachón Yáñez
 
Claves SEO para Ecommerce #RMC22
Claves SEO para Ecommerce  #RMC22Claves SEO para Ecommerce  #RMC22
Claves SEO para Ecommerce #RMC22MJ Cachón Yáñez
 
Analisis de Contenidos SEO: método Triple A #SEOnderground 2022
Analisis de Contenidos SEO: método Triple A #SEOnderground 2022Analisis de Contenidos SEO: método Triple A #SEOnderground 2022
Analisis de Contenidos SEO: método Triple A #SEOnderground 2022MJ Cachón Yáñez
 
SEOWars: Rstudio aplicado a SEO #sob22
SEOWars: Rstudio aplicado a SEO #sob22SEOWars: Rstudio aplicado a SEO #sob22
SEOWars: Rstudio aplicado a SEO #sob22MJ Cachón Yáñez
 
Expediente Xpath #SEOnderground 2021
Expediente Xpath  #SEOnderground 2021Expediente Xpath  #SEOnderground 2021
Expediente Xpath #SEOnderground 2021MJ Cachón Yáñez
 
"La intención es lo que cuenta" en SEO en 2021
"La intención es lo que cuenta" en SEO en 2021"La intención es lo que cuenta" en SEO en 2021
"La intención es lo que cuenta" en SEO en 2021MJ Cachón Yáñez
 
Control de Calidad con Screaming Frog - #doyouseo 2020
Control de Calidad con Screaming Frog  - #doyouseo 2020Control de Calidad con Screaming Frog  - #doyouseo 2020
Control de Calidad con Screaming Frog - #doyouseo 2020MJ Cachón Yáñez
 
3 cosas muy chulas con Screaming frog #SEODay
3 cosas muy chulas con Screaming frog  #SEODay3 cosas muy chulas con Screaming frog  #SEODay
3 cosas muy chulas con Screaming frog #SEODayMJ Cachón Yáñez
 
SEO en 2020 con una idea de 2006 #VamosTalegón
SEO en 2020 con una idea de 2006 #VamosTalegónSEO en 2020 con una idea de 2006 #VamosTalegón
SEO en 2020 con una idea de 2006 #VamosTalegónMJ Cachón Yáñez
 
Análisis de precios de tu competencia con Screaming Frog #SEOGirona
Análisis de precios de tu competencia con Screaming Frog #SEOGironaAnálisis de precios de tu competencia con Screaming Frog #SEOGirona
Análisis de precios de tu competencia con Screaming Frog #SEOGironaMJ Cachón Yáñez
 
Análisis de Contenidos y Competencia: Screaming Frog y Xpath #SeoDay
Análisis de Contenidos y Competencia: Screaming Frog y Xpath #SeoDayAnálisis de Contenidos y Competencia: Screaming Frog y Xpath #SeoDay
Análisis de Contenidos y Competencia: Screaming Frog y Xpath #SeoDayMJ Cachón Yáñez
 
Estrategias SEO en Gestion de Stocks para Ecommerce #CEMD2020
Estrategias SEO en Gestion de Stocks para Ecommerce  #CEMD2020Estrategias SEO en Gestion de Stocks para Ecommerce  #CEMD2020
Estrategias SEO en Gestion de Stocks para Ecommerce #CEMD2020MJ Cachón Yáñez
 
Usando Safecont para mejorar proyectos SEO #AIToolDay
Usando Safecont para mejorar proyectos SEO #AIToolDayUsando Safecont para mejorar proyectos SEO #AIToolDay
Usando Safecont para mejorar proyectos SEO #AIToolDayMJ Cachón Yáñez
 
Acelerar ya no es suficiente #RMC19
Acelerar ya no es suficiente #RMC19Acelerar ya no es suficiente #RMC19
Acelerar ya no es suficiente #RMC19MJ Cachón Yáñez
 
SEO que hiciste el ultimo verano #DSMValencia 2019
SEO que hiciste el ultimo verano #DSMValencia 2019SEO que hiciste el ultimo verano #DSMValencia 2019
SEO que hiciste el ultimo verano #DSMValencia 2019MJ Cachón Yáñez
 

Plus de MJ Cachón Yáñez (20)

Encuentra tu sitio en Google (con tu proyecto inmobiliario)
Encuentra tu sitio  en Google  (con tu proyecto inmobiliario)Encuentra tu sitio  en Google  (con tu proyecto inmobiliario)
Encuentra tu sitio en Google (con tu proyecto inmobiliario)
 
Estudio sobre Migraciones #SOB23
Estudio sobre Migraciones #SOB23Estudio sobre Migraciones #SOB23
Estudio sobre Migraciones #SOB23
 
Cómo aprender (SEO) #SherpaDay
Cómo aprender (SEO) #SherpaDayCómo aprender (SEO) #SherpaDay
Cómo aprender (SEO) #SherpaDay
 
SEO Orientado a Resultados #DigitalZAC 2022
SEO Orientado a Resultados #DigitalZAC 2022SEO Orientado a Resultados #DigitalZAC 2022
SEO Orientado a Resultados #DigitalZAC 2022
 
Claves SEO para Ecommerce #RMC22
Claves SEO para Ecommerce  #RMC22Claves SEO para Ecommerce  #RMC22
Claves SEO para Ecommerce #RMC22
 
Analisis de Contenidos SEO: método Triple A #SEOnderground 2022
Analisis de Contenidos SEO: método Triple A #SEOnderground 2022Analisis de Contenidos SEO: método Triple A #SEOnderground 2022
Analisis de Contenidos SEO: método Triple A #SEOnderground 2022
 
SEOWars: Rstudio aplicado a SEO #sob22
SEOWars: Rstudio aplicado a SEO #sob22SEOWars: Rstudio aplicado a SEO #sob22
SEOWars: Rstudio aplicado a SEO #sob22
 
Expediente Xpath #SEOnderground 2021
Expediente Xpath  #SEOnderground 2021Expediente Xpath  #SEOnderground 2021
Expediente Xpath #SEOnderground 2021
 
12 meses 12 cambios SEO
12 meses 12 cambios SEO12 meses 12 cambios SEO
12 meses 12 cambios SEO
 
"La intención es lo que cuenta" en SEO en 2021
"La intención es lo que cuenta" en SEO en 2021"La intención es lo que cuenta" en SEO en 2021
"La intención es lo que cuenta" en SEO en 2021
 
Control de Calidad con Screaming Frog - #doyouseo 2020
Control de Calidad con Screaming Frog  - #doyouseo 2020Control de Calidad con Screaming Frog  - #doyouseo 2020
Control de Calidad con Screaming Frog - #doyouseo 2020
 
3 cosas muy chulas con Screaming frog #SEODay
3 cosas muy chulas con Screaming frog  #SEODay3 cosas muy chulas con Screaming frog  #SEODay
3 cosas muy chulas con Screaming frog #SEODay
 
SEO en 2020 con una idea de 2006 #VamosTalegón
SEO en 2020 con una idea de 2006 #VamosTalegónSEO en 2020 con una idea de 2006 #VamosTalegón
SEO en 2020 con una idea de 2006 #VamosTalegón
 
The last SERP #DSM20
The last SERP #DSM20The last SERP #DSM20
The last SERP #DSM20
 
Análisis de precios de tu competencia con Screaming Frog #SEOGirona
Análisis de precios de tu competencia con Screaming Frog #SEOGironaAnálisis de precios de tu competencia con Screaming Frog #SEOGirona
Análisis de precios de tu competencia con Screaming Frog #SEOGirona
 
Análisis de Contenidos y Competencia: Screaming Frog y Xpath #SeoDay
Análisis de Contenidos y Competencia: Screaming Frog y Xpath #SeoDayAnálisis de Contenidos y Competencia: Screaming Frog y Xpath #SeoDay
Análisis de Contenidos y Competencia: Screaming Frog y Xpath #SeoDay
 
Estrategias SEO en Gestion de Stocks para Ecommerce #CEMD2020
Estrategias SEO en Gestion de Stocks para Ecommerce  #CEMD2020Estrategias SEO en Gestion de Stocks para Ecommerce  #CEMD2020
Estrategias SEO en Gestion de Stocks para Ecommerce #CEMD2020
 
Usando Safecont para mejorar proyectos SEO #AIToolDay
Usando Safecont para mejorar proyectos SEO #AIToolDayUsando Safecont para mejorar proyectos SEO #AIToolDay
Usando Safecont para mejorar proyectos SEO #AIToolDay
 
Acelerar ya no es suficiente #RMC19
Acelerar ya no es suficiente #RMC19Acelerar ya no es suficiente #RMC19
Acelerar ya no es suficiente #RMC19
 
SEO que hiciste el ultimo verano #DSMValencia 2019
SEO que hiciste el ultimo verano #DSMValencia 2019SEO que hiciste el ultimo verano #DSMValencia 2019
SEO que hiciste el ultimo verano #DSMValencia 2019
 

Dernier

triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticJamithGarcia1
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxLuisAngelYomonaYomon
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfJC Díaz Herrera
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptMelina Alama Visitacion
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfJC Díaz Herrera
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfJC Díaz Herrera
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaJoellyAlejandraRodrg
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirluis809799
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfJC Díaz Herrera
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxMiguelPerz4
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfJC Díaz Herrera
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024AndrsReinosoSnchez1
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfJC Díaz Herrera
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfJC Díaz Herrera
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosMarycarmenNuez4
 

Dernier (20)

triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de CyclisticAnálisis de datos en acción: Optimizando el crecimiento de Cyclistic
Análisis de datos en acción: Optimizando el crecimiento de Cyclistic
 
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docxAA CUADRO DE TEORIA DEL CASO. (1) (1).docx
AA CUADRO DE TEORIA DEL CASO. (1) (1).docx
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdfReservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
Reservas de divisas y oro en México en sexenio de AMLO (2018-2024).pdf
 
presentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.pptpresentacion de conjuntos para primaria.ppt
presentacion de conjuntos para primaria.ppt
 
Familias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdfFamilias_más_ricas_de_AL_en_la_historia.pdf
Familias_más_ricas_de_AL_en_la_historia.pdf
 
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdfPosiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
Posiciones_del_sionismo_en_los_imperios globales de la humanidad (2024).pdf
 
Qué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problemaQué es un Histograma estadístico teoria y problema
Qué es un Histograma estadístico teoria y problema
 
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudirTriptico-del-Bullying qué es, cómo detectarlo, donde acudir
Triptico-del-Bullying qué es, cómo detectarlo, donde acudir
 
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdfFamilias más ricas de países de AL en inicio de su hegemonía (2024).pdf
Familias más ricas de países de AL en inicio de su hegemonía (2024).pdf
 
Tipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptxTipos de Educacion en diferentes partes del mundo.pptx
Tipos de Educacion en diferentes partes del mundo.pptx
 
Posiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdfPosiciones del IDH a nivel global en México (1982-2024).pdf
Posiciones del IDH a nivel global en México (1982-2024).pdf
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024Listas de Fundamentos de Programación 2024
Listas de Fundamentos de Programación 2024
 
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdfPosiciones de México en el PNB PPA per cápita (1982-2024).pdf
Posiciones de México en el PNB PPA per cápita (1982-2024).pdf
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdfLos más ricos administradores de fondo de cobertura (1968-2024).pdf
Los más ricos administradores de fondo de cobertura (1968-2024).pdf
 
Partes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicosPartes y elementos de una iglesia básicos
Partes y elementos de una iglesia básicos
 

TFM sobre Modelos de Aprendizaje Automático en Ecommerce

  • 1. Universidad Internacional de La Rioja Facultad de Empresa, Comunicación y Marketing Máster Universitario en Inteligencia de Negocio Métodos de aprendizaje automático para la mejora estratégica de las ventas online Trabajo fin de estudio presentado por: María José Cachón Yáñez Tipo de trabajo: Proyecto de Inteligencia de Negocio Modalidad: Individual Director/a: Richard de Jesús Gil Herrera Fecha: 08/04/2021
  • 2. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 2 Resumen El ecommerce o comercio electrónico ha experimentado un crecimiento considerable en los últimos años y acentuado debido a la crisis de la COVID-19. Las nuevas tecnologías y el entorno digital han hecho posible acelerar la confianza para comprar online. Este trabajo final de máster (TFM), trata de estudiar cómo desarrollar un proyecto de inteligencia de negocio que mediante modelos de inteligencia artificial permita segmentar clientes, así como determinar aspectos con mayor incidencia en la venta online. Con datos de ecommerce reales, provenientes de Prestashop y Google Analytics principalmente, se han depurado y procesado datos de ventas, clientes y origen de las visitas online para llegar a crear 4 modelos. En primer lugar, 3 modelos diferentes de segmentación de clientes, muy útiles para mejorar la tanto la segmentación de clientes como personalizar campañas y/o promociones. El cuarto modelo orientado a predecir el peso de las distintas características de las visitas a la Web, que acaban en compra y con capacidad de predicción individual que agregaría mucho valor a cualquier ecommerce. La conclusión principal versa sobre como estos análisis puede mejorar la toma de decisiones y su trascendente impacto estratégico tanto de conocimiento del cliente final como en la prescripción de acciones que maximizarán las ventas. Palabras clave: comercio electrónico, tiendas online, ecommerce, optimización de la conversión
  • 3. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 3 Abstract Ecommerce or electronic commerce has experienced considerable growth in recent years and has been accentuated by the COVID-19 crisis. New technologies and the digital environment have made it possible to accelerate the confidence to buy online. This final master’s thesis (TFM) aims to study how to develop a business intelligence project that, through artificial intelligence models, allows for the segmentation of customers, as well as determining aspects with the greatest impact on online sales. With real e-commerce data, mainly from Prestashop and Google Analytics, we have debugged and processed data on sales, customers and origin of online visits to create 4 models. Firstly, 3 different customer segmentation models, very useful to improve customer segmentation and personalize campaigns and/or promotions. The fourth model oriented to predict the weight of the different characteristics of the visits to the Web, which end in purchase and with individual predictive capacity that would add much value to any ecommerce. The main conclusion is about how these analyses can improve decision making and their transcendent strategic impact both in terms of knowledge of the end customer and in the prescription of actions that will maximize sales. Keywords: e-commerce, online shops, ecommerce, conversion optimization
  • 4. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 4 Índice de contenidos Introducción.............................................................................................................................. 9 1.1. Descripción del proyecto........................................................................................... 9 1.1.1. La importancia de la segmentación de clientes ................................................ 9 1.1.2. Evolución del ecommerce en España .............................................................. 12 1.1.3. Factores que influyen en la conversión........................................................... 16 1.1.4. Principales tecnologías usadas para crear una tienda online.......................... 23 1.2. Principal problema identificado y justificación del proyecto .................................. 24 1.3. Objetivos del TFE..................................................................................................... 25 1.3.1. Objetivos generales......................................................................................... 25 1.3.2. Objetivos específicos....................................................................................... 25 2. Alcance y planificación..................................................................................................... 26 2.1. Fase de descubrimiento: evaluación del entorno actual ........................................ 26 2.1.1. Información deseada....................................................................................... 26 2.1.2. Información actual: deficiencias y soluciones alternativas ............................. 26 2.1.3. Habilidades analíticas actuales........................................................................ 28 2.2. Fase de análisis: identificación de gaps................................................................... 29 2.2.1. Capacidad de los informes actuales ................................................................ 29 2.2.2. Proveedores de tecnología necesarias............................................................ 29 2.2.3. Cronología, costes y recursos humanos implicados........................................ 30 2.3. Fase de recomendaciones: alcance y prioridades................................................... 30 3. Análisis y definición.......................................................................................................... 31 3.1. Análisis preliminar de los datos a utilizar................................................................ 31 3.1.1. Descripción de datos....................................................................................... 31 3.2. Análisis histórico y/o limpieza de datos .................................................................. 43 3.3. Modelado propuesto............................................................................................... 44 3.3.1. Disimilitud Gower............................................................................................ 44 3.3.2. RFM Analysis ................................................................................................... 47 3.3.1. RFM Analysis + K-means.................................................................................. 48 3.3.2. Regresión logística........................................................................................... 49 4. Construcción, prueba, implementación y despliegue...................................................... 52 4.1. Construcción del modelo Gower............................................................................. 52 4.1.1. Estimación del modelo.................................................................................... 52 4.1.2. Resultado......................................................................................................... 52 4.2. Construcción del modelo RFM ................................................................................ 57 4.2.1. Estimación del modelo.................................................................................... 57 4.2.2. Resultado......................................................................................................... 58 4.3. Construcción del modelo RFM usando K-means para clustering............................ 60 4.3.1. Estimación del modelo.................................................................................... 60 4.3.2. Resultado......................................................................................................... 60 4.4. Construcción del modelo LOGIT.............................................................................. 64 4.4.1. Estimación del modelo.................................................................................... 64 4.4.2. Resultado......................................................................................................... 64 5. Cronograma del proyecto................................................................................................ 67 5.1. Swimlane de Inteligencia de negocio y gestión del proyecto ................................. 67 5.2. Swimlane de datos, bases de datos e integración de datos.................................... 67
  • 5. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 5 5.3. Swimlane de la infraestructura ............................................................................... 68 6. Conclusiones.................................................................................................................... 68 7. Limitaciones y prospectiva............................................................................................... 70 Bibliografía .............................................................................................................................. 72 Anexo A................................................................................................................................... 78
  • 6. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 6 Índice de figuras Figura 1. Evolución de compradores online en España........................................................... 12 Figura 2. Ramas con mayor negocio online durante covid ..................................................... 14 Figura 4. Perfil de compradores y frecuencia de compras...................................................... 14 Figura 5. Perfil de compradores y gasto promedio................................................................. 15 Figura 6. Perfil de compradores y dispositivos........................................................................ 15 Figura 7. Drivers de compra.................................................................................................... 16 Figura 8. Razones para no comprar online.............................................................................. 17 Figura 9. Conversión por sector en 2019 y 2020..................................................................... 18 Figura 10. Evolución de la conversión en España.................................................................... 18 Figura 11. Razones de abandono de carritos .......................................................................... 19 Figura 12. Conversión de usuarios nuevos vs recurrentes...................................................... 20 Figura 14. Conversión por canales y antigüedad .................................................................... 21 Figura 15. Conversión por dispositivos ................................................................................... 21 Figura 16. Conversión por navegadores.................................................................................. 22 Figura 17. CMS usados en España........................................................................................... 24 Figura 18: Datos, información y conocimiento ....................................................................... 27 Figura 19: Estado de los pedidos de la BBDD1........................................................................ 32 Figura 20: Estado de los pedidos de la BBDD2........................................................................ 33 Figura 21: Conversión cliente nuevo vs recurrente................................................................. 35 Figura 22: Pedidos por género ................................................................................................ 36 Figura 23: Pedidos por extensión de email ............................................................................. 36 Figura 24: Métodos de pago ................................................................................................... 37 Figura 25: Rangos de importe de los pedidos ......................................................................... 37 Figura 26: Rangos de importe de los pedidos ......................................................................... 38 Figura 27: Pedidos por meses ................................................................................................. 38 Figura 28: Pedidos por días..................................................................................................... 39 Figura 29: Pedidos por horas................................................................................................... 39 Figura 30: Pedidos por tipo de usuario ................................................................................... 40 Figura 31: Pedidos por rango del importe............................................................................... 40 Figura 32: Pedidos por método de pago................................................................................. 41 Figura 33: Pedidos por método de pago................................................................................. 41 Figura 34: Pedidos por método de pago................................................................................. 42 Figura 35: Pedidos por fuente de tráfico................................................................................. 42 Figura 36: Pedidos por navegador .......................................................................................... 43 Figura 37: Pedidos por dispositivo .......................................................................................... 43 Figura 38: Elección de variables modelo Gower ..................................................................... 44 Figura 39: Elección de variables modelo RFM......................................................................... 44 Figura 40: Elección de variables modelo logit......................................................................... 44 Figura 41: Dividir dataset modelo Gower ............................................................................... 45 Figura 42: Transformar a factor modelo Gower ..................................................................... 46 Figura 42: Coeficiente silhouette modelo Gower ................................................................... 46 Figura 43: Estimar clústeres modelo Gower ........................................................................... 46 Figura 44: Scoring modelo RFM .............................................................................................. 48 Figura 44: Determinar clústeres RFM+K-means...................................................................... 49 Figura 45: Asignar valores RFM+K-means............................................................................... 49
  • 7. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 7 Figura 46: Visualizar clústeres RFM+K-means......................................................................... 49 Figura 47: Implementación modelo logit................................................................................ 50 Figura 48: Estimación modelo logit......................................................................................... 51 Figura 49: Estimación modelo logit......................................................................................... 51 Figura 50: Disimilitud de Gower.............................................................................................. 52 Figura 51: Clústeres óptimos modelo Gower.......................................................................... 53 Figura 52: Visualización de Clústeres Gower .......................................................................... 53 Figura 53: Comparativa de clústeres de la variable Día .......................................................... 54 Figura 54: Comparativa de clústeres de la variable Hora........................................................ 54 Figura 55: Comparativa de clústeres de la variable Mes......................................................... 55 Figura 56: Variables del clúster 1 ............................................................................................ 56 Figura 57: Variables del clúster 2 ............................................................................................ 56 Figura 58: Variables del clúster 3 ............................................................................................ 57 Figura 59: Scoring estático modelo RFM................................................................................. 58 Figura 60: Visualización modelo RFM ..................................................................................... 58 Figura 61: Distribución de compras por segmento ................................................................. 59 Figura 62: Distribución de compras por segmento ................................................................. 60 Figura 63: Número de clústeres óptimos para el modelo K-means........................................ 61 Figura 64: Visualización del número de clústeres óptimos para el modelo K-means............. 61 Figura 65: I Características del clúster 1.................................................................................. 62 Figura 66. II Características del clúster 1................................................................................. 62 Figura 67. I Características del clúster 2.................................................................................. 63 Figura 68. II Características del clúster 2................................................................................. 63 Figura 69. Resultado del modelo logit..................................................................................... 64 Figura 70. Significatividad de coeficientes. ............................................................................. 65 Figura 71. Matriz de confusión del modelo logit..................................................................... 66 Figura 72. Predicción individual del modelo logit. .................................................................. 66
  • 8. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 8 Índice de tablas Tabla 1. Facturación anual del ecommerce en España............................................................ 13 Tabla 2. Tasa de conversión por sector y dispositivo en España............................................. 22 Tabla 3. Tasa de conversión por sector y día de la semana .................................................... 23 Tabla 4. Licencias Softwares.................................................................................................... 30 Tabla 5. Cronograma............................................................................................................... 30 Tabla 6. Variables para el modelo Gower ............................................................................... 52 Tabla 7. Variables para el modelo RFM................................................................................... 57 Tabla 8. Segmentos de clientes para el Modelo RFM ............................................................. 59 Tabla 9. Variables para el modelo RFM................................................................................... 60 Tabla 10. Variables para el modelo logit................................................................................. 64
  • 9. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 9 Introducción El crecimiento del ecommerce es imparable, incluso ante una pandemia mundial que ha paralizado muchos sectores empresariales con dependencia al offline físico tradicional y que también ha provocado una redistribución en los hábitos online de los usuarios, que han tenido impacto positivos y negativos en muchos sectores. Estudiar a fondo las compras en tiendas online pasa a ser un análisis estratégico de gran valor para los negocios, ya que podrán estar en capacidad de segmentar y priorizar sus decisiones, además de predecir qué aspectos intervienen en la venta final, de cara a mejorar competitivamente. Por tanto, este documento constituye un análisis y reflexión empresarial que trata de indagar en métodos de aprendizaje automático, como el clustering y la regresión, ambos como palanca de maximización de las ventas online, de cara principalmente a ofrecer aprendizajes y aplicaciones prácticas para negocios que quieren mejorar sus ventas online, además de una vía muy fructífera de segmentar sus audiencias y públicos objetivos, e incluso, hacer predicciones individuales sobre ventas de un grupo de características. 1.1.Descripción del proyecto Para reflexionar sobre la importancia de la segmentación de clientes y de la evolución del comercio electrónico en España, se han desarrollado distintos conceptos, además de analizar varios estudios que reflejan el gran estado que atraviesa la disciplina del ecommerce, reflejo del papel clave que juega a nivel empresarial. 1.1.1. La importancia de la segmentación de clientes La segmentación de clientes es el proceso de separar a los clientes en grupos en función de su comportamiento o de la recopilación de otros atributos. Los grupos deben ser homogéneos dentro de sí mismos y también, deberían ser heterogéneos entre sí. El objetivo general de este proceso es identificar la base de clientes de alto valor, es decir, los clientes que tienen el mayor potencial de crecimiento o son los más rentables para el negocio. La información obtenida a partir de la segmentación de los clientes se utiliza para desarrollar campañas de marketing a medida y para diseñar la estrategia y la planificación general de marketing.
  • 10. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 10 Una consideración clave para una empresa sería, si debe o no segmentar a sus clientes y cómo realizar el proceso de segmentación. Esto dependerá de la filosofía de la empresa y del tipo de producto o servicio que ofrezca. El tipo de criterio de segmentación que se siga creará una gran diferencia en la forma en que la empresa opera y formula su estrategia. Una empresa puede no tener segmentos, es decir, trata a todos sus clientes de manera similar, no hay diferenciación por lo que las campañas de marketing son masivas. En cambio, otras empresas tienen 1, 2 o más segmentos, lo cual implica que están enfocándose en grupos y haciendo distintas campañas y otras gestiones, para cada uno de ellos. Una vez que la empresa ha identificado su perfil de clientes y el número de segmentos en los que quiere centrarse, tiene que decidir los factores en los que se basará para segmentar a sus clientes. En el caso de proyectos ecommerce B2C (business to consumer), algunos de esos factores pueden ser: - Datos demográficos: Edad, sexo, educación, etnia, ingresos, empleo, aficiones, etc. - Recencia, Frecuencia y Monetario (RFM): Periodo de tiempo de la última transacción, la frecuencia con la que el cliente realiza transacciones y el valor monetario total del comercio. - Comportamiento: Comportamiento de compra anterior, preferencias de marca, acontecimientos de la vida, etc. - Personal: Creencias, personalidad, estilo de vida, intereses personales, motivación, prioridades, etc. - Geográficos: País, código postal, condiciones climáticas, diferenciación por área urbana/rural, accesibilidad a los mercados, etc. 1.1.1.1. Ley Pareto y segmentación En el caso de una pequeña empresa, la base de clientes suele ser bastante reducida y se puede llegar a ella de forma individual. Sin embargo, a medida que la empresa crece, no podrá llegar del mismo modo a todos y cada uno de los clientes. En este punto, la empresa tendrá que utilizar un enfoque basado en datos para construir una estrategia adecuada.
  • 11. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 11 Para una tienda de tamaño medio o grande (Khandelwal, 2021), también es imperativo que invierta no sólo en la adquisición de nuevos clientes, sino también en la retención de clientes. Muchas empresas obtienen la mayor parte de sus ingresos del segmento de clientes más valiosos. Dado que los recursos de los que dispone una empresa son limitados, es crucial encontrar a estos clientes y dirigirse a ellos, como también es importante encontrar a los que están inactivos o que corren un alto riesgo de perder el contacto con la empresa, para poder responder a sus intereses y expectativas, de cara a reactivarlos con campañas personalizadas. Para ello, las empresas utilizan la técnica de la segmentación de clientes. El principio de Pareto, utilizado con frecuencia en los negocios y la economía, puede aplicarse también a la comprensión del flujo de ingresos de una empresa. Según el principio de Pareto, el 80% de los resultados son consecuencia del 20% de todas las causas de un acontecimiento (Khandelwal, 2021). Se puede decir que el 20% de los clientes aportan el 80% de los ingresos totales de una empresa, por eso es importante encontrar a este conjunto de personas haciendo análisis específicos. 1.1.1.2. Segmentación de clientes La segmentación de clientes tiene muchas ventajas potenciales ya que, ayuda a una empresa a desarrollar una estrategia eficaz para dirigirse a sus clientes, lo cual tiene un impacto directo en: - el ciclo de desarrollo del producto - la gestión de presupuestos - el contenido promocional dirigido a los clientes. Por ejemplo, una empresa puede fabricar un producto de gama alta, un producto económico o un producto alternativo barato, en función de si el producto está destinado a sus clientes de mayor rendimiento, a los compradores frecuentes o al segmento de clientes de bajo valor. También puede afinar las características del producto para satisfacer las necesidades específicas de sus clientes.
  • 12. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 12 La segmentación de los clientes también puede ayudar a una empresa a entender en qué se parecen sus clientes, qué es importante para ellos y qué no lo es. A menudo, esta información puede utilizarse para desarrollar contenidos relevantes personalizados para diferentes bases de clientes. Muchos estudios han descubierto que los clientes aprecian esa atención individualizada y son más propensos a responder y comprar el producto, también llegan a respetar la marca y a sentirse vinculados a ella. Esto, sin duda, puede dar a la empresa una gran ventaja sobre sus competidores. Por último, esta técnica también puede ser utilizada por las empresas para: - probar los precios de sus diferentes productos - mejorar el servicio al cliente - realizar ventas adicionales y cruzadas de otros productos o servicios. 1.1.2. Evolución del ecommerce en España Respecto a la evolución del ecommerce en España, se va a tratar de analizar los aspectos clave que hacen de este canal digital, uno de los más rentables y potentes Algunos aspectos que reseñar en el contexto del ecommerce en España, como se puede observar en la figura 1, se centran en: - Evolución de compradores y facturación - Hábitos de compra: sectores, gasto medio, dispositivos - El proceso de compra: motivaciones, influencias, métodos de pago Figura 1. Evolución de compradores online en España Fuente: (IAB SPAIN, 2020)
  • 13. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 13 Por un lado, el porcentaje de usuarios en España que cada año confían en el canal online para hacer sus compras oscila entre un 67% y 73% (IAB SPAIN, 2020), datos que no han empeorado con la irrupción de la pandemia, que mantienen una evolución estable e incluso, creciente. Unido a esto, como se muestra en la tabla 1, el ecommerce se encuentra en un momento de crecimiento titánico respecto a facturación en España en los últimos 20 años (CNMC, 2021), dato que correlaciona perfectamente con la cifra de compradores. Tabla 1. Facturación anual del ecommerce en España1 2001 127 2005 1.547 2010 7.317 2015 20.000 2017 30.000 02018 39.243 2019 48.800 Fuente: (CNMC, 2021) Respecto a la pandemia en si, tal y como se desprende de la figura 2, sectores asociados a turismo y viajes han sufrido auténticos desplomes en su facturación (CNMCData, 2021), sin embargo, en el otro lado se encuentran sectores como supermercados o marcas de ropa, que, en algunos casos, han llegado a duplicar su facturación, como se puede comprobar.
  • 14. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 14 Figura 2. Ramas con mayor negocio online durante covid Fuente: (CNMCData, 2021) Respecto a aspectos relativos a hábitos de los compradores, la figura 4 muestra que mitad de los usuarios compra al menos 1 vez cada 15 o 30 días (IAB SPAIN, 2020) en ciertos espectros de edad la frecuencia de compra se va a 3,5 al mes, datos superiores a años anteriores. Respecto al gasto efectuado, la cantidad promedia asciende a 68€ por persona en cada compra (IAB SPAIN, 2020) Figura 4. Perfil de compradores y frecuencia de compras Fuente: (IAB SPAIN, 2020) Por último, respecto a los dispositivos utilizados por los compradores online, en las figuras 5 y 6 se destaca un insight de valor relacionado con la edad: de 55 a 70 años confían más en el ordenador, los de menor edad hacen que crezca el uso del Smartphone para comprar.
  • 15. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 15 Figura 5. Perfil de compradores y gasto promedio Fuente: (IAB SPAIN, 2020) Figura 6. Perfil de compradores y dispositivos Fuente: (IAB SPAIN, 2020) Con este repaso al panorama nacional relativo al ecommerce, se puede confirmar la gran salud que goza el canal y la importancia de trazar modelos que ayuden a las empresas a optimizar sus tiendas online para vender más.
  • 16. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 16 1.1.3. Factores que influyen en la conversión 1.1.3.1. Aspectos generales Otro punto clave para entender el trabajo pasa por realizar un análisis previo qué permita clarificar aquellos factores o aspectos que son fundamentales para que un usuario haga una compra en una tienda online. Por un lado, como se ve en la figura 7, existen distintos drivers (IAB SPAIN, 2020) entre los que destacan la existencia de ofertas, la confianza en el sitio o marca, el precio o el plazo de entrega del pedido. Figura 7. Drivers de compra Fuente: (IAB SPAIN, 2020) La percepción sobre los plazos de entrega aceptables se sitúa en 3,4 días (IAB SPAIN, 2020), lo que supone un verdadero reto respecto a las estrategias de operaciones y logística de las compañías. De manera adicional, cabe destacar que 3 de cada 4 compradores busca información y finaliza la transacción en el canal online, por lo que el contenido encontrado en la red es fundamental para ayudar a tomar la decisión. Otro detalle interesante radica en medios que pueden influenciar la compra, como puede ser la presencia en buscadores o marketplace, e incluso, el estado de la página web de la marca, con la información recabada, la compra final puede acabar online u offline (IAB SPAIN, 2020). Sin embargo, si se lleva a cabo un análisis más prematuro, se puede ahondar en aquellos motivos o razones para no comprar en el canal online, lo cual también puede ser ilustrativo
  • 17. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 17 de los miedos y motivaciones de los compradores que les empujan a no dar el paso a comprar a través de internet, en un estudio realizado por el INE (INE, 2020) Figura 8. Razones para no comprar online Fuente: (INE, 2020) A pesar de ser un estudio anterior a la pandemia, la naturaleza humana se deja ver en los motivos para desconfiar: amantes de lo tangible, miedo a la inseguridad, falta de conocimientos u otros. Asimismo, de cara a tener unas cifras de referencia respecto a conversión por sector, tanto el estudio de la IAB (IAB SPAIN, 2020) como el efectuado por Flat101 (Flat 101, 2019) ponen de relieve datos para tener un rango de tasas de conversión del que poder comparar y mejorar. En el caso del estudio de IAB (IAB SPAIN, 2020), se puede observar en la figura 9 la comparación semestral entre 2019 y 2020, pandemia incluida, en cuyas cifras destaca un repunte creciente de la conversión en el sector de la comida a domicilio.
  • 18. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 18 Figura 9. Conversión por sector en 2019 y 2020 Fuente: (IAB SPAIN, 2020) En el caso del estudio de Flat101 (Flat 101, 2019) como se refleja en la figura 10, el evolutivo de años anteriores sobre la tasa de conversión general, de todos los sitios analizados en su estudio, se puede observar una contracción de la conversión en un 4% de 2018 a 2019. Figura 10. Evolución de la conversión en España Fuente: (Flat 101, 2019) Por último, mencionar otro punto importante en ecommerce: el abandono de los carritos de la compra. ¿Por qué un usuario que ya ha añadido los productos para comprarlos finalmente abandona? (Baymard, 2020)
  • 19. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 19 Este será, sin duda, un aspecto de gran impacto para la conversión de la tienda online, por lo que merece la pena tenerlo en cuenta, tal y como se desprende de la figura 11 Figura 11. Razones de abandono de carritos Fuente: (Baymard, 2020) Sin duda se antoja revelador: - Costes extras demasiado altos - Obligar a los usuarios a crear una cuenta en el sitio web, para comprar - Entrega muy tardía - Proceso de compra largo o complejo - Desconfianza en la seguridad del sitio - Errores del sitio 1.1.3.2. Usuarios nuevos vs recurrente Un aspecto fundamental para la conversión es identificar si los compradores son usuarios recurrentes o usuarios nuevos, como se refleja en la figura 12.
  • 20. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 20 Figura 12. Conversión de usuarios nuevos vs recurrentes Fuente: (Flat 101, 2019) Este hecho impacta de forma directa en la lealtad y acciones relativas a propiciar que los usuarios vuelvan a la tienda, siempre y cuando los productos ofertados tengan esa naturaleza. 1.1.3.3. Canales En la figura 13, la distribución de la conversión respecto a los canales deja claro que el canal orgánico sigue siendo el que lidera los proyectos de ecommerce españoles. Figura 13. Conversión por canales Fuente: (Flat 101, 2019) 1.1.3.4. Antigüedad Otro elemento de valor es considerar la antigüedad que tiene el proyecto dado que la conversión también estará influida por los años que lleve activo, en la figura 14 se muestra el impacto de la antigüedad en los canales.
  • 21. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 21 Figura 14. Conversión por canales y antigüedad Fuente: (Flat 101, 2019) Este dato muestra que en los primeros años los canales de pago son más fuertes y una vez se estabiliza el proyecto, se invierte la captación de tráfico hacia el canal orgánico, por la naturaleza del impacto de acciones a corto o a largo plazo, de cada estrategia. 1.1.3.5. Dispositivos En la figura 15 se puede observar la información relativa a los dispositivos, donde se extrae que el ordenador sigue liderando la conversión, aunque el dispositivo móvil es el único que sigue creciendo año a año. Figura 15. Conversión por dispositivos Fuente: (Flat 101, 2019) 1.1.3.6. Navegadores y sistemas operativos Otro factor que afecta a la conversión y a cómo se visualiza la tienda online es el navegador, y en segunda instancia, el sistema operativo que utiliza el usuario. En la figura 16 se resumen los datos de eficiencia de la conversión desde el punto de vista del navegador.
  • 22. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 22 Figura 16. Conversión por navegadores Fuente: (Flat 101, 2019) 1.1.3.7. Sector Como dato sectorial, también se puede usar como referencia el estudio mencionado (Flat 101, 2019), para tener una idea de la tasa de conversión que cada sector ostenta, en promedio, resumido en la tabla 2. Tabla 2. Tasa de conversión por sector y dispositivo en España Fuente: (Flat 101, 2019)
  • 23. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 23 1.1.3.8. Días de la semana Del mismo modo, la conversión sectorial segmentada por día de la semana puede ser de ayuda para el análisis y usarse como referencia. En la tabla 3 se puede acceder a los datos de conversión por día de la semana y por actividad. Tabla 3. Tasa de conversión por sector y día de la semana Fuente: (Flat 101, 2019) 1.1.4. Principales tecnologías usadas para crear una tienda online Un CMS (por sus siglas en inglés Content Management Systems), es una plataforma que permite crear contenidos para páginas web sin una gran dependencia de conocimientos avanzados de programación, algo que permite que una mayor facilidad de uso y de administración (ecommerce-nation.es, 2018) Normalmente la elección del CMS es una de las decisiones más importantes para una tienda online, e implica distintas cuestiones que hay que abordar: • Escalabilidad • Interfaz accesible e intuitiva • Compatibilidad • Optimizado para motores de búsqueda
  • 24. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 24 • Seguridad • Soporte En España, los datos aportados por Builtwith (builtwith.com, 2021) ponen de manifiesto aquellas opciones más usadas y las múltiples opciones que existen, resumidas en la figura 17. Figura 17. CMS usados en España Fuente: (builtwith.com, 2021) 1.2.Principal problema identificado y justificación del proyecto Dada la situación de crecimiento que se arrastra en el área de comercio electrónico en España, las pocas barreras de entrada que existen en el ecommerce y el gran auge que ha supuesto de forma indirecta el confinamiento producto de la pandemia, los negocios han de seguir esforzándose por mejorar su rendimiento a. nivel de ventas en un entorno restringido y de alta competencia. El proyecto planteado consiste en 2 líneas claras de aplicación de aprendizaje automático en ecommerce: - Comparar distintos métodos de clustering que ayude a llevar a cabo segmentaciones útiles que puedan potenciar un negocio, ya sea enfocando mejor promociones y campañas de marketing, como identificando los segmentos de usuarios más valiosos
  • 25. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 25 para el negocio, con el fin último de incrementar o maximizar las ventas de cualquier tienda por el canal online. - Llevar a cabo un modelo de regresión logit múltiple, para ahondar en los factores o características que mayor peso tienen en la compra final. En ese sentido, se ha solicitado información cualitativa y cuantitativa a distintas empresas españolas que han cedido sus datos de ventas y clientes online para que, a través de técnicas de inteligencia de negocio, puedan extraerse realidades demostrables que intervengan en la generación de estrategias de marketing, segmentación u optimización del canal digital, análisis predictivos y que tengan impacto en la cuenta de resultados. Estos datos comprenden, entre otros: - Datos de tráfico: visitas, sesiones nuevas, tiempo en página, rebote - Datos de comercio electrónico: tasa de conversión, transacciones, ingresos - Datos de clientes: nombre, método de pago, ciudad, género, nº de pedidos - Datos de pedidos: estado del pedido, importe, gastos de envío La selección y estudio de sitios de comercio electrónico, será heterogéneo lo cual implicaría un proceso de análisis más pormenorizado y del que se podrán extraer análisis secundarios 1.3.Objetivos del TFE 1.3.1. Objetivos generales El objetivo principal del presente TFM es desarrollar un proyecto de inteligencia de negocio qué permita segmentar pedidos y clientes acorde a los factores que por técnica de inteligencia artificial, se determiné que tengan más peso en la conversión final de los clientes. Se pretende que este TFM sirva como una herramienta de toma de decisiones que puedan utilizar las empresas para maximizar sus estrategias de ventas. 1.3.2. Objetivos específicos - Estudiar los datos actuales de la empresa y analizar sus pros y contras. - Analizar los datos de que dispone la empresa y validar qué datos se necesitan para poder implementar el modelo de Inteligencia de Negocio. - Analizar los aspectos que intervienen en la venta online de las empresas con tiendas online.
  • 26. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 26 - Proponer distintos modelos de segmentación de clientes como parámetros de distinción que permita realizar evaluaciones rápidas de los clientes y diseñar estrategias personalizadas. - Proponer un modelo de datos que permita hacer predicciones acerca de los factores que más impactan en la venta final en tiendas online. 2. Alcance y planificación 2.1.Fase de descubrimiento: evaluación del entorno actual 2.1.1. Información deseada Este trabajo tiene como cometido dos puntos clave: - Lograr definir modelos de clusterización para distintos ecommerce, de cara a una mejor toma de decisiones en campañas de marketing, en perfilado de público objetivo. - Lograr definir al menos un modelo de regresión para distintos ecommerce, de cara a una mejor priorización de esfuerzos orientados a maximizar las ventas. Para conseguirlo, en ambos casos, se ha de utilizar un proceso de limpieza de los datos, se han de fusionar distintas fuentes de datos para enriquecer los datasets y se han de comparar los resultados de cada modelo, cuando ha sido posible. 2.1.2. Información actual: deficiencias y soluciones alternativas En la actualidad, los datos obtenidos a partir de las empresas colaboradoras proceden de dos fuentes principales: Google Analytics y Prestashop. Pero la extracción de estos presenta varias debilidades o deficiencias que se enumeran a continuación: - Los datos de Google Analytics accesibles a través de la plataforma no son granulares por lo que no se puede llegar a los datos a nivel de sesión, tan solo se puede llegar a datos agregados por minutos. La única alternativa valida a ésto, hubiese sido conectar Google Analytics a Google BigQuery para ir volcando la información a diario y poder segmentar hasta el nivel de la visita. - Asimismo, solo aquellos ecommerce que han implementado enhanced ecommerce en Google Analytics podrán disfrutar de métricas específicas de productos y otras agrupaciones por nombre de producto, categoría, sku, etc.
  • 27. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 27 - Los datos que proporciona Prestashop a nivel de pedidos están comprendidos entre dos fechas, por lo que no se dispone del historial completo de pedidos ni tampoco de pedidos a nivel cliente. - Los pedidos de los clientes solo pueden ser descargados de forma individual, por lo que a pesar de contar con un dataset que fusiona información de pedidos e información de clientes, el análisis no incluye los artículos comprados por los clientes, aspecto que es una limitación a la hora de testar modelos de recomendación y otras reglas de asociación. - La integración entre ambos tipos de datos no siempre es posible por lo que no en todos los casos se puede trazar un análisis conjunto del origen de la visita, la fuente, el tiempo que pasó en el sitio web, las páginas que visitó, con el pedido realizado, su importe, etc. De hecho, solo en uno de los conjuntos de datos recibido existe trazabilidad entre datos de Prestashop y Google Analytics, al contar con un sistema de recopilación de datos propio y un CRM que enriquece la extracción. En este sentido, se considera una debilidad contar con una configuración estándar de ambas herramientas y se entiende una limitación para el alcance de los análisis previstos, cualquier ecommerce dispuesto a explotar sus datos y extraer conocimiento de estos (Sinnexus, n/d) debe considerar una infraestructura tecnológica que responda a una estrategia de explotación inteligente y eficiente de los datos. Como solución alternativa se plantea proponer a las empresas de aquellos ecommerce sujetos del análisis implementar y configurar ambas fuentes de datos convenientemente de forma que la inteligencia de negocio pueda actuar como un factor estratégico y propiciando una ventaja competitiva. Figura 18: Datos, información y conocimiento Fuente: (Sinnexus, n/d)
  • 28. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 28 2.1.3. Habilidades analíticas actuales Se ha hecho uso de 2 bases de datos de ecommerce diferentes - La BBDD1, compuesta de dos datasets: o Clientes (86.633 registros) § ID Cliente § Tratamiento (de aquí se extrae el género) § Nombre y apellidos § Correo electrónico (de aquí se extrae la extensión de dominio) § Ventas § Suscripción a boletín (si o no) § Fecha de alta o Pedidos (22.631 registros) § ID Pedido § Referencia del pedido § Cliente nuevo (si o no) § Nombre y apellidos § Importe del pedido § Método de pago § Compra finalizada (si o no) § Estado del pedido § Fecha del pedido - La BBDD2, compuesta de dos datasets: o Pedidos (9.268 registros) § Id § Referencia § Nuevo cliente § Nombre cliente § Importe pedido § Pago § Estado § Fecha
  • 29. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 29 o Analítica (4.948 registros) § Referencia § Fuente/Medio § Navegador § Categoría de dispositivo 2.2. Fase de análisis: identificación de gaps 2.2.1. Capacidad de los informes actuales Como ya se ha mencionado existe una desvinculación de fuentes que hace menos eficiente la explotación de datos y se puede entender e interpretar este hecho como una oportunidad para implantar infraestructuras basadas en análisis de datos y más concretamente, orientadas a explotar la inteligencia de datos de todas las fuentes mencionadas. De cara a su extracción y fusión, se hace necesario el uso de bases de datos que faciliten el acceso, procesamiento y descarga de datos. Por otro lado, los datos proporcionados por la plataforma de ecommerce Prestashop tampoco son tratados ni enriquecidos de ningún modo, por lo que se deben procesar para limpiar duplicidades, campos vacíos y otras incongruencias. En concreto, aquellas observaciones que, no podían reclasificarse de ningún modo, han sido eliminados para evitar discrepancias. 2.2.2. Proveedores de tecnología necesarias Para la realización del estudio y presente trabajo se hace necesario el uso de tecnologías de índole estadístico como es RStudio, cuyo fin es llevar a cabo análisis estadísticos y visualización de datos a través de gráficas. Asimismo, como se ve en la tabla 4, se hacen uso de herramientas complementarias que actuarán como apoyo a RStudio, para las pruebas de extracción de datos con Google Analytics, como Query Explorer de Google, así como Genderize para terminar de inferir los géneros a partir de los nombres.
  • 30. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 30 Tabla 4. Licencias Softwares SOFTWARE PRECIO DE LICENCIA PROVEEDOR R STUDIO Software libre No aplica Prestashop Versión gratuita Prestashop Genderize.io 10$ Genderize.io Google Analytics Versión gratuita Google Google Query Explorer Versión gratuita Google 2.2.3. Cronología, costes y recursos humanos implicados Las fases llevadas a cabo a grandes rasgos son las que se detallan en la tabla 5, una descomposición del problema por tareas principales, para acotar la ejecución y avanzar de forma progresiva. Tabla 5. Cronograma HITO W1 W2 W3 W4 W5 Recopilación de datos Transformación / Exploración Limpieza Evaluación Modelos Testeo Modelos 2.3.Fase de recomendaciones: alcance y prioridades Los ecommerce participantes recibirán los resultados de los análisis llevados a cabo en este trabajo como agradecimiento por colaborar cediendo sus datos para este estudio. El alcance de este proyecto es: - Realizar un modelo de clusterización mediante Disimilitud de Gower, aportando el dataset limpio y trabajado, de cara a obtener los clústeres óptimos y poder analizar las características de cada uno. Este modelo se realizará con la BBDD1. - Realizar un análisis RFM (recency, frequency and monetary), de cara a definir los segmentos de negocio en base a los datos de los pedidos. Este modelo se realizará con la BBDD1. - Realizar un modelo de RFM pero con segmentación basada en K-Means para valorar los resultados en comparación con los anteriores métodos. Este modelo se realizará con la BBDD1.
  • 31. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 31 - Realizar un modelo de regresión logística para estudiar el grado de afectación en las ventas, de los distintos factores o atributos. Este modelo se realizará con la BBDD2. En resumen, los 3 primeros modelos basados en técnicas clúster, se llevarán a cabo con la BBDD1, por existir un mayor número de registros y características susceptibles de ser clusterizadas. El último modelo se realizará con la BBDD2 en la que se cuenta con características del tráfico como el dispositivo o el navegador, aspectos que pueden incidir en la conversión como ya se ha explicado en la introducción del trabajo. 3. Análisis y definición 3.1.Análisis preliminar de los datos a utilizar El análisis concienzudo de los datos ofrece una visión profunda y global de los mismos, así como pone de relieve la distribución de estos cuando estudiamos los estadísticos habituales. Para los 4 modelos previstos se usarán 2 bases de datos: - La base de datos de partida que se usará para los 3 primeros modelos consta de 2 ficheros: Clientes (86.633 registros) y Pedidos (22.631 registros) de las cuales se infiere la variable “Converted” que establece con un valor binario (tomando valor 1 si la compra se ha realizado o y valor 0 de lo contrario). Los Pedidos son del último año y los datos de Clientes son históricos, es decir, desde que existe el ecommerce. - Para el último modelo, de regresión, se tomará una base de datos de 4948 pedidos de los que también se conocen datos adicionales (canal de la visita, navegador, dispositivo,etc.). En este análisis preliminar, se hace referencia también a aquellas variables creadas nuevas a partir de las existentes en los datos de origen 3.1.1. Descripción de datos A continuación, se hace una descripción más certera de los datos, de cara a poner un punto de partida al dataset antes de iniciar los modelados.
  • 32. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 32 3.1.1.1. Variable dependiente Se considera la variable dependiente si un pedido ha llegado a buen término o no, por tanto la variable “Converted” se categoriza como 1, para las compras finalizadas y como 0, para las compras que no se han realizado (incluye este aspecto devoluciones o faltas de stock). Para la BBDD1 la distribución de los pedidos sigue el siguiente patrón: Figura 19: Estado de los pedidos de la BBDD1 Para la BBDD2 la distribución de los pedidos sigue el siguiente patrón:
  • 33. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 33 Figura 20: Estado de los pedidos de la BBDD2 3.1.1.2. Variables independientes Entre las variables independientes que contribuirán a construir los modelos, se encuentran tanto variables categóricas como numéricas. 3.1.1.2.1. Variables categóricas Las variables categóricas son aquellas cuyos valores corresponden con categorías por lo que se indica cuáles estarán presentes en el estudio. Para la BBDD1: ORIGINALES - ClienteID - PedidoID - Referencia Pedido - Tratamiento - Nuevo - Nombre - Apellidos
  • 34. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 34 - Email - Método de pago - Estado - Boletín - Fecha Alta Cliente - Fecha Pedido TRANSFORMADAS - Nombre corto - Género - Extensión del email - Mes del pedido - Día del pedido - Hora del pedido - Rango de importe - Rango de antigüedad Para la BBDD2: - ClienteID - Referencia Pedido - Nuevo - Inicial de Nombre y apellidos - Método de pago - Estado - Fecha Pedido - Fuente/Medio - Navegador - Dispositivo TRANSFORMADAS - Día de la semana del pedido - Hora del pedido - Rango de importe - Fuente
  • 35. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 35 3.1.1.2.2. Variables continuas Para ambas bases de datos, la variable continua es: - Importe TRANSFORMADAS - Años de antigüedad 3.1.1.3. Principales insights identificados en el análisis inicial El análisis inicial ha arrojado distintos puntos clave que se enumeran y explican a continuación para las 2 bases de datos utilizadas. Para la BBDD1: - Cliente nuevo: esta variable representa un valor binario que indica si el pedido lo ha realizado un cliente existente o uno nuevo. La figura 21 representa el estado o punto de partida de las ventas con esta característica donde se puede observar un 37% de compras provenientes de usuarios nuevos, frente a un 61% de clientes ya existentes Figura 21: Conversión cliente nuevo vs recurrente - Género: esta variable representada en la figura 22, se ha categorizado en 3 posibles valores Male, Female y Unknown, utilizando el campo de origen “Tratamiento”, en el que aparece qué tratamiento quiere recibir el cliente en comunicaciones (Sr., Sra, etc.), se ha hecho un segundo filtro utilizando el software generize.io de cara a inferir el género en la gran cantidad de nombres en los que no existía tratamiento.
  • 36. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 36 La distribución de pedidos basada en el género deja entrever una estadística bastante contundente: Figura 22: Pedidos por género - Extensión de email: de cara a explorar nuevas variables se ha extraído la extensión del correo electrónico por si esta información fuera susceptible de tener algún peso específico en los modelos y clusterizaciones. Se observa en la figura 23 que, de partida, la gran mayoría de correos provienen de los proveedores habituales como Gmail, Hotmail, Yahoo! y el resto son ya dominios personalizados. Figura 23: Pedidos por extensión de email - Método de pago: representado en la figura 24, grafica la forma de pago que ha utilizado el cliente a todos los niveles, por lo que pueden existir métodos
  • 37. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 37 fraccionados o a plazos, carritos de la compra virtuales o incluso pagos en efectivo que se recogen en tienda. También es interesante observar métodos que están en el final de la lista como Bizum o PayPal, lo cual puede ser una pista del tipo de usuario que visita esta tienda y su relación con la tecnología. Figura 24: Métodos de pago - Importe: para ilustrar como se distribuyen los importes de los pedidos a lo largo de todo el dataset se puede observar la figura 25, donde se ha construido una variable que genera rangos para tratar de visualizar mejor los datos. El gráfico deja intuir dónde en qué importes se concentran los pedidos, siendo los pedidos hasta 100 euros los mayoritarios. Figura 25: Rangos de importe de los pedidos - Suscripción al boletín: un aspecto que a priori no tiene por qué incidir en la compra es la suscripción al boletín, no obstante, se ha añadido esta característica para
  • 38. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 38 estudiarla junto al resto mostrada en la figura 26 y ver si tiene alguna incidencia. Los no suscritos pueden ser clientes nuevos o no, por lo que es interesante considerar la inclusión de la variable en el espectro general de datos que el modelo analizará. Figura 26: Rangos de importe de los pedidos - Pedidos por meses: al tratarse de un dataset predominantemente de ventas, el gráfico de la figura 27 muestra en qué meses existe mayor actividad de pedidos, diferenciando la conversión y la no conversión, señalando el gráfico que abril es en el que más pedidos no se han finalizado. También se observa una mayor incidencia de ventas en dos bloques de meses: los meses de noviembre y diciembre, por un lado, y los de mayo, junio y julio por otro. La temática de la tienda puede ser un condicionante para este comportamiento. Figura 27: Pedidos por meses
  • 39. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 39 - Pedidos por días: el análisis aterrizado a periodicidad semanal deja entrever algo que se puede presuponer: mayores ventas de lunes a viernes. La figura 28 muestra que en fin de semana se observa una menor actividad en lo que se refiere a pedidos. Figura 28: Pedidos por días - Pedidos por horas: llegar a segmentar los pedidos por periodicidad horaria deja observar tendencias que pueden ser de gran ayuda para llevar a cabo segmentaciones y enfocar campañas a las horas apropiadas. El gráfico de la figura 29 muestra una mayor tracción durante la jornada laboral, desde las 10 hasta las 19 horas se concentra la mayor parte de pedidos, observando el total de ventas del dataset. Figura 29: Pedidos por horas
  • 40. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 40 Para la BBDD2: - Cliente nuevo: esta variable representada en la figura 30, muestra si el pedido lo ha realizado un cliente existente o uno nuevo. El punto de partida de las ventas con esta característica muestra más de un 87% de compras provenientes de usuarios nuevos. Figura 30: Pedidos por tipo de usuario - Rango de importe de pedidos: la figura 31 muestra en qué rangos se concentran los importes de los pedidos, por lo que se puede observar que la muestra nos deja casi un 70% de pedidos inferiores a 70€. Figura 31: Pedidos por rango del importe
  • 41. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 41 - Método de pago: en la figura 32 se muestra con qué métodos de pago se han realizado los pedidos y se puede observar que las observaciones se concentran en Redsys, Adyen, PayPal, Bizum y Pagantis, como métodos más usados. Figura 32: Pedidos por método de pago - Día de la semana: la periodicidad semanal deja entrever mayores ventas de lunes a miércoles. La figura 33 refleja que en fin de semana se observa una menor actividad en lo que se refiere a pedidos, incluyendo jueves y viernes. Figura 33: Pedidos por método de pago
  • 42. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 42 - Hora del día: el gráfico de la figura 34 muestra una mayor tracción a las 11 y 12 de la mañana, seguido de horarios entre las 17:00 y las 20:00. Una buena lectura de estos datos puede ayudar a hacer campañas flash en esas franjas. Figura 34: Pedidos por método de pago - Fuente por la que llegó a la tienda: según la figura 35, el canal que predomina en las compras realizadas es el de Buscadores, el 53% viene de anuncios de texto y el 18% de resultados orgánicos del buscador. Por detrás le siguen canales como el directo o el de referidos Figura 35: Pedidos por fuente de tráfico - Navegador utilizado: respecto al navegador desde el que llegan a la tienda online, en la figura 36 se puede observar que Chrome y Safari son los que concentran más del 75% de pedidos.
  • 43. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 43 Figura 36: Pedidos por navegador - Dispositivo utilizado: respecto al dispositivo desde el que llegan a la tienda y compran, según la figura 37, el Mobile supera el 60% y desktop es de casi un 32%, dejando un porcentaje residual a las tabletas. Figura 37: Pedidos por dispositivo 3.2.Análisis histórico y/o limpieza de datos Partiendo de la BBDD1, los pedidos comprenden entre mayo de 2020 a mayo de 2021, se procedió a elegir las variables que van a ser incluidas en cada modelo. Así, para el cálculo de disimilitudes de Gower fueron las variables que se muestran en el código de R de la figura 38.
  • 44. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 44 Figura 38: Elección de variables modelo Gower Para ambos análisis RFM, en la figura 39 se muestran las variables. Figura 39: Elección de variables modelo RFM Partiendo de la BBDD2, los pedidos comprenden entre enero de 2020 a mayo de 2021, se procedió a elegir las variables que van a ser incluidas en el modelo logit, tal como muestra la figura 40. Figura 40: Elección de variables modelo logit 3.3.Modelado propuesto 3.3.1. Disimilitud Gower La distancia es una medida numérica para medir la proximidad o la similitud entre observaciones. Existen muchas métricas de distancia, y una de ellas es bastante útil para el proyecto: la distancia de Gower (Filaire, towardsdatascience.com, 2018).
  • 45. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 45 Esta distancia se calcula como la media de las disimilitudes parciales entre observaciones, donde cada disimilitud parcial (la distancia de Gower) se sitúa entre 0 y 1. Por otro lado, el cálculo de las disimilitudes parciales depende del tipo de variable introducida en el modelo a evaluar, esto implica que se hará una estandarización específica a cada característica: - Para variables numéricas, la disimilitud parcial es la relación entre la diferencia absoluta de las observaciones y el rango máximo de todas las observaciones. - Para una característica cualitativa la disimilitud parcial es igual a 1 sólo si las observaciones y_i e y_j tienen un valor diferente. En caso contrario, es igual a cero. El componente necesario para llevar a cabo este modelo es el coeficiente silhouette, que se encarga de contrastar la distancia media a los elementos del mismo clúster con la distancia media a los elementos de otros clústeres. Los objetos con un valor de silueta alto se consideran bien agrupados, mientras que los objetos con un valor bajo pueden ser valores atípicos. 3.3.1.1. Implementación Para implementar el modelo se han seguido los siguientes pasos: - Dividir el dataset para evitar problemas de computación Figura 41: Dividir dataset modelo Gower - Transformar las variables categóricas a factor y ejecutar el modelo
  • 46. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 46 Figura 42: Transformar a factor modelo Gower - Coeficiente silhouette para identificar el número de clúster óptimo Figura 42: Coeficiente silhouette modelo Gower - Estimación del número de clúster Figura 43: Estimar clústeres modelo Gower
  • 47. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 47 3.3.2. RFM Analysis El análisis RFM (recencia, frecuencia, monetario) una técnica basada en el comportamiento de los compradores, que se utiliza para segmentar a los clientes examinando su historial de transacciones (Wicaksono, 2019). Como por ejemplo: - cuanto más reciente es la compra, más receptivo es el cliente a las promociones - cuanto más frecuente es la compra del cliente, más comprometido y satisfecho está - el valor monetario diferencia a los que gastan mucho de los que compran poco 3.3.2.1. Implementación A continuación se explica cómo se calcula la puntuación del RFM para cada cliente: - Se asigna una puntuación de recurrencia a cada cliente en función de la fecha de la compra más reciente. La puntuación se genera agrupando los valores de recurrencia en un número de categorías (por defecto es 5). Por ejemplo, si se utilizan cuatro categorías, los clientes con las fechas de compra más recientes reciben una clasificación de recencia de 4, y aquellos con fechas de compra en el pasado lejano reciben una clasificación de recencia de 1. - La clasificación de la frecuencia se asigna de forma similar. A los clientes con alta frecuencia de compra se les asigna una puntuación más alta (4 o 5) y a los de menor frecuencia se les asigna una puntuación de 1. - La puntuación monetaria se asigna en función de los ingresos totales generados por el cliente en el periodo considerado para el análisis. A los clientes con mayores ingresos/importe de los pedidos se les asigna una puntuación más alta, mientras que a los que tienen menores ingresos se les asigna una puntuación de 1. - Se genera una cuarta puntuación, la puntuación RFM, que es simplemente las tres puntuaciones individuales concatenadas en un único valor. Los clientes con las puntuaciones RFM más altas son los más propensos a responder a una oferta. Para el presente proyecto se utiliza RStudio para llevar a cabo el análisis.
  • 48. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 48 Figura 44: Scoring modelo RFM 3.3.1. RFM Analysis + K-means Este modelo persigue el mismo método que el explicado en el punto anterior pero añade una innovación: los clústeres se calcularán usando la técnica del K-means (G, 2020) K-means es un algoritmo de aprendizaje automático no supervisado (clusterización) que hace agrupamientos o clústeres basándose en sus características. Esto lo lleva a cabo usando la mínima suma de distancias cuadráticas entre los objetivos y el centro de su clúster. Los pasos que sigue este modelo son: - Se elige el número de clústeres y con ello, se establecen los centros de cada grupo. - Cada objeto u observación es asignado al centro que esté más próximo a él. - El centro de cada grupo se actualiza con un nuevo centro, usando la posición promedia de los objetos del grupo. Para calcular la segmentación RFM usando K-means, se mantienen los valores de recencia, frecuencia y monetario del modelo RFM, pero se hace uso de un método de identificación del número de clústeres óptimo, para que sea el modelo el que determine las agrupaciones y no un scoring estático. De este modo, cada clúster representa el centro de los datos pertenecientes a cada clúster, siendo un método que es sensible a valores extremos o también conocidos como outliers (Bagnato, 2020). 3.3.1.1. Implementación Se hace uso de la librería Factoextra para los siguientes pasos: - Partiendo del dataset ya procesado para el análisis RFM, se omite el scoring y se ha de determinar el número de clústeres, con distintos métodos nos salen entre 2 y 4 clústeres como valores posibles, pero son 2 los grupos óptimos.
  • 49. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 49 Figura 44: Determinar clústeres RFM+K-means - Utilizar la función K-means para asignar los resultados a cada agrupación Figura 45: Asignar valores RFM+K-means - Visualizar los clústeres gráficamente Figura 46: Visualizar clústeres RFM+K-means - Se agrupan los segmentos para obtener las métricas RFM por cada clúster - Se asigna el clúster a los datos originales para poder agrupar las características - Se visualizan las características de cada grupo - Se comparan características entre grupos para identificar los segmentos de cara a definir campañas personalizadas 3.3.2. Regresión logística La Regresión Logística (Rodrigo, 2016), es un modelo de aprendizaje supervisado que permite estimar la probabilidad de una variable cualitativa binaria en función de una o varias variables continuas o categóricas. O dicho de otra forma, permite predecir el resultado de una variable categórica o binaria (0 o 1) en función de otras que actúan como predictores.
  • 50. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 50 Para calcular la regresión logística, se lleva a cabo el procesamiento y limpieza de los datos para que todas las variables tengan la clase oportuna y no existan valores NA. 3.3.2.1. Implementación La implementación del modelo incluye los siguientes pasos: - Limpieza de datos para su posterior procesamiento - Análisis descriptivo u visualización de las variables que se utilizarán para tener un punto de partida respecto a las ventas producidas en el dataset. Figura 47: Implementación modelo logit
  • 51. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 51 - El modelo logit se prueba en dos direcciones: o usando todas las variables disponibles en el dataset y luego eliminando una a una para ver qué modelos son más representativos y tienen una accuracy mayor o usando pocas variables y probando a añadir más, para testar qué combinación de variables devuelve una accuracy mayor. En la figura 48 se indican los pasos seguidos con la estimación de mayor accuracy Figura 48: Estimación modelo logit - Prueba individual del modelo con datos nuevos para obtener un porcentaje de probabilidad de ventas, para las características añadidas en el predictor. Figura 49: Estimación modelo logit
  • 52. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 52 4. Construcción, prueba, implementación y despliegue En este punto se desarrolla la fase de construcción, prueba e implementación de los modelos, de cara a obtener los resultados esperados según los datos de cada una de las bases de datos. Se desarrollarán los modelos de Gower, RFM, RFM con clusterización con K- means y el modelo de regresión logística. 4.1.Construcción del modelo Gower 4.1.1. Estimación del modelo Para la construcción del modelo se utilizó la base de datos transformada previamente y se utilizaron tanto variables categóricas como numéricas. Tabla 6. Variables para el modelo Gower VARIABLE TIPO Cliente_Nuevo Cliente nuevo si o no Boletín Suscrito si o no Método_Pago Forma de pagar Género Male, Female o Unknown Ext_Mail Extensión del email Mes_pedido En qué mes se hizo el pedido Día_pedido En qué día de la semana se hizo el pedido Hora_pedido A qué hora se hizo el pedido Rango_antig Rango de antigüedad en años Rango_importe Rango de importe de la compra Cliente Cliente si o no 4.1.2. Resultado El modelo efectuado sobre el dataset train ofrece el output que se refleja en la figura 50. Figura 50: Disimilitud de Gower A través del cual , como se ve en la figura 51, se han seleccionado 3 clústeres
  • 53. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 53 Figura 51: Clústeres óptimos modelo Gower Cuyo resultado se puede ver en la figura 52, una visualización con las observaciones clasificadas en 3 clústeres Figura 52: Visualización de Clústeres Gower Ahora comparando las características, se puede observar donde están las diferencias respecto a clientes y son datos susceptibles de ser utilizados en campañas de segmentación, retención y fidelización: - Día en el que se realiza la compra: de la figura 53 se puede extraer de estos resultados que el clúster 1 está formado por compras mayoritariamente de los jueves, el clúster 2 de los martes, el clúster 3 de los lunes
  • 54. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 54 Figura 53: Comparativa de clústeres de la variable Día - Hora en la que se realiza la compra: de la figura 54 se puede extraer de estos resultados que el clúster 1 está formado por compras mayoritariamente a las 13:00, el clúster 2 corresponde a las 12:00, el clúster 3 destaca por compras a las 17:00 Figura 54: Comparativa de clústeres de la variable Hora - Mes en el que se realiza la compra: el clúster 1 está formado por compras mayoritariamente en mayo, el clúster 2 corresponde a julio, el clúster 3 destaca por compras en diciembre, tal como refleja la figura 55.
  • 55. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 55 Figura 55: Comparativa de clústeres de la variable Mes Ahora, analizando las características por grupo, se puede observar donde están las oportunidades susceptibles de ser utilizados en campañas específicas: - Clúster 1: de la figura 56 se extrae que clientes que ya han comprado anteriormente, suscritos a la newsletter, son mayoría hombres que al menos llevan 1 año registrados. Los importes de las compras se concentran más en importes hasta 100 euros. La gran mayoría de usuarios utilizan Gmail como servicio de mail.
  • 56. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 56 Figura 56: Variables del clúster 1 - Clúster 2: la figura 57 muestra clientes que ya han comprado anteriormente, no están suscritos a la newsletter, mayoría hombres que llevan 10 años registrados. Los importes de las compras se concentran más en importes hasta 50 euros. La gran mayoría de usuarios utilizan Hotmail como servicio de mail. Figura 57: Variables del clúster 2 - Clúster 3: la figura 58 refleja clientes nuevos, no habían comprado anteriormente, no están suscritos a la newsletter, mayoría hombres que llevan menos de 1 año registrados. Los importes de las compras se concentran más en importes hasta 50 euros. La gran mayoría de usuarios utilizan Gmail como servicio de mail.
  • 57. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 57 Figura 58: Variables del clúster 3 4.2.CONSTRUCCIÓN DEL MODELO RFM 4.2.1. Estimación del modelo Para la construcción del modelo se utiliza la base de datos transformada previamente y se se utilizan tan solo las variables que se indican a continuación: Tabla 7. Variables para el modelo RFM VARIABLE TIPO ClienteID Identificador de Cliente PedidoID Identificador de Pedido Importe Importe del pedido Fecha_Pedido Fecha en la que se hizo el pedido Además de esto, el modelo necesita incorporar la fecha presente para hacer los cálculos de recencia y frecuencia a partir de las fechas de los pedidos. Por otra parte, una vez se calculan los scoring para cada criterio del modelo, se deben establecer los valores altos y bajos para su posterior segmentación en distintos clústeres.
  • 58. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 58 Figura 59: Scoring estático modelo RFM 4.2.2. Resultado Una vez conducido el análisis RFM se obtiene, mediante funciones de visualización, un resumen de los distintos atributos del modelo y su posterior clusterización. Por ejemplo, un gráfico tipo heatmap que representa frecuencia, recencia y valor monetario Figura 60: Visualización modelo RFM
  • 59. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 59 El modelo también enfrenta las distintas métricas para ver su relación gráficamente que pueden ser consultadas en el anexo A. Respecto a los clústeres, se han calculado en base a las puntuaciones obtenidas en el paso anterior y con ellos, se puede clasificar los distintos segmentos: Tabla 8. Segmentos de clientes para el Modelo RFM Segmento ¿Cómo son? Champions Compran recientemente, compran a menudo y gastan lo máximo Loyal Customers Gastan buen dinero. Responden a las promociones Potential Loyalist Clientes recientes, gastan una buena cantidad, compran más de una vez New Customers Compra recientemente, pero no a menudo Promising Compradores recientes, pero no han gastado mucho Need Attention Valores de recencia, frecuencia y monetarios por encima de la media About to sleep Valores de recencia, frecuencia y monetarios por debajo de la media At risk Gastaba mucho dinero, compraba a menudo, pero hace mucho tiempo Can’t lose them Hizo grandes compras y a menudo, pero hace mucho tiempo Hibernating Gastan poco, baja frecuencia, compraron hace mucho tiempo Lost Puntuaciones de recencia, frecuencia y monetarias más bajas Others Otras casuísticas Una vez hecho el recuento de pedidos de cada segmento, el negocio ya cuenta con una información clave del estado de sus ventas, para poder trabajar en maximizarlas atacando a los distintos segmentos. Figura 61: Distribución de compras por segmento
  • 60. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 60 4.3.Construcción del modelo RFM usando K-means para clustering 4.3.1. Estimación del modelo Para la construcción del modelo se utilizó la misma base de datos transformada previamente con las variables que se indican a continuación: Tabla 9. Variables para el modelo RFM VARIABLE TIPO ClienteID Identificador de Cliente PedidoID Identificador de Pedido Importe Importe del pedido Fecha_Pedido Fecha del pedido Además de esto, el modelo necesita incorporar la fecha presente para hacer los cálculos de recencia y frecuencia a partir de las fechas de los pedidos. Por otra parte, en vez de calcular los scoring para cada criterio, en esta variante se utiliza el modelo K-Means que indicará los clústeres óptimos y se podrá comparar con el modelo anterior. 4.3.2. Resultado El modelo se ha construido sobre los datos numéricos del RFM score, para calcular los clústeres con técnicas no supervisadas, tal y como se ve en la figura 62, donde se puede repasar el código R utilizado. Figura 62: Distribución de compras por segmento El número de clústeres óptimos identificados y visualizados en la figura 63, finalmente son 2
  • 61. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 61 Figura 63: Número de clústeres óptimos para el modelo K-means La visualización de los clústeres de la figura 64, diferenciada con color, deja más clara la agrupación que hace el modelo Figura 64: Visualización del número de clústeres óptimos para el modelo K-means Los principales resultados obtenidos tras inspeccionar las características del dataset en cada clúster:
  • 62. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 62 - Clúster 1: tal y como reflejan las figuras 65 y 66, predominan clientes nuevos, pero la presencia de clientes antiguos es también elevada. Se observan usuarios no registrados en el boletín de la empresa, mayoritariamente de género masculino, usuarios de Gmail, con gastos en sus compras más habituales inferiores a 50€, realizadas en su mayoría a través de PayPal. Son clientes con menos de 1 año de antigüedad, cuyas compras se concentran en mayo y diciembre. Figura 65: I Características del clúster 1. Figura 66. II Características del clúster 1.
  • 63. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 63 - Clúster 2: en las figuras 67 y 68 se puede observar que en este clúster predominan clientes nuevos, pero la presencia de clientes antiguos es también elevada. Se observan usuarios en su mayoría no registrados en el boletín de la empresa, género masculino en su mayoría, usuarios de Hotmail, con gastos en sus compras más habituales entre 50€ y 100€, realizadas en su mayoría a través de la pasarela de pago del ecommerce. Son clientes entre 5 y más de 10 años de antigüedad, cuyas compras también se concentran en mayo y diciembre. Figura 67. I Características del clúster 2. Figura 68. II Características del clúster 2.
  • 64. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 64 4.4.CONSTRUCCIÓN DEL MODELO LOGIT 4.4.1. Estimación del modelo Para la construcción del modelo se utilizó la BBDD2 transformada previamente y se utilizaron tanto variables categóricas como numéricas. Tabla 10. Variables para el modelo logit VARIABLE TIPO Nuevo Cliente nuevo si o no Pago Forma de pagar Día_pedido En qué día de la semana se hizo el pedido Hora_pedido A qué hora se hizo el pedido Rango_importe Rango de importe de la compra Cliente Cliente si o no Fuente Canal digital por el que accede a comprar Navegador Navegador utilizado para comprar Dispositivo Dispositivo utilizado para comprar 4.4.2. Resultado Después de llevar a cabo el desarrollo del modelo se puede visualizar en la figura 69 el resumen de la regresión y sus principales residuos: Figura 69. Resultado del modelo logit. Respecto a los coeficientes se observa significatividad en varias variables en el output del modelo accesible en la figura 70.
  • 65. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 65 Figura 70. Significatividad de coeficientes. La lectura o interpretación que puede realizarse es la siguiente: - Cliente Nuevo SI: los clientes nuevos tienen más probabilidad de compra que los antiguos - Pago Contra Reembolso: el pago contra reembolso tiene impacto negativo en la compra final, es más probable que se realice la compra con otros métodos. - Fuente Direct: el tráfico directo tiene menos probabilidades de comprar - Fuente Landing: el tráfico desde Landing tiene menos probabilidades de comprar - Fuente Organic: el tráfico SEO tiene más probabilidades de comprar - Fuente Referral: el tráfico referral tiene menos probabilidades de comprar - Dispositivo Mobile: el tráfico desde mobile tiene más probabilidades de comprar Comparar la distribución de compradores con la que clasifica el modelo, deja ver que existen pocas observaciones mal clasificadas, a través de la matriz de confusión, esto indica que el modelo puede ser bueno.
  • 66. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 66 El nivel de Accuracy alcanzado por el modelo es de 97,59%, como se puede ver en la figura 71, con el detalle de la matriz de confusión. Figura 71. Matriz de confusión del modelo logit. Por último, en la figura 72 cabe destacar el poder de predicción individual que puede tener el modelo para explorar las probabilidades de compra de un grupo de características en concreto. Figura 72. Predicción individual del modelo logit.
  • 67. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 67 La interpretación del resultado sería el siguiente: “Los usuarios nuevos que han accedido a la tienda a través de un anuncio de Google Ads, con el dispositivo Tablet, y que han elegido el método de pago Contra Reembolso, tienen un 66,10% de probabilidades de finalizar la compra.” 5. Cronograma del proyecto 5.1.Swimlane de Inteligencia de negocio y gestión del proyecto El desarrollador del proyecto asociado al TFM, ha tenido reuniones con los dueños de los distintos ecommerce que han cedido sus datos para los análisis, de cara a perfilar el actual trabajo como posible herramienta de segmentación y creación de campañas más enfocadas. Las actividades llevadas a cabo en esta fase comprenden: - Planificación de recursos - Resolución de problemas - Comunicación entre las partes y coordinación entre personas involucradas Asimismo, se llevará a cabo un documento de conclusiones consensuado entre ambas partes, que actuará como resumen ejecutivo de los análisis realizados, los objetivos cubiertos, los tiempos estimados y las conclusiones de negocio, para que el propietario del ecommerce pueda identificar con claridad los segmentos y las posibles acciones de marketing disponibles. 5.2.Swimlane de datos, bases de datos e integración de datos La extracción de datos y sus diferentes fuentes se llevará a cabo de estas formas: - Accediendo a Google Analytics
  • 68. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 68 - Accediendo a datos de Pedidos y Clientes en el backend de Prestashop - Los proporcionarán los dueños de ecommerce Posteriormente a su modelado, se entregarán: - Datos de pedidos con clusterización por el método 1 - Datos de pedidos con clusterización por el método 2 - Datos de pedidos con clusterización por el método 3 - Documento de conclusiones, con insights y next steps para campañas de marketing 5.3.Swimlane de la infraestructura En esta fase se revisa y se verifica que se cuentan con todas las herramientas y licencias necesarias para llevar a cabo el proyecto, incluso accesos a internet para descargar la información: - Herramienta de análisis de datos: RStudio 1.4.1103 sobre R-4.0.4 - Herramienta de búsqueda y documentación: Google, Medium, DataCamp 6. Conclusiones Para cualquier tienda online o ecommerce, utilice el sistema o la tecnología que sea, es de vital importancia el análisis de datos. Por un lado tener la capacidad de segmentar a los clientes, le coloca en una posición aventajada para tomar decisiones. Por otro lado, estar en disposición de analizar qué factores intervienen en la compra final para tratar de potenciarlos, es otro aspecto que puede influir de manera directa en la priorización de acciones de mejora y por ende, en la obtención de resultados. El reto que presenta este proyecto es utilizar los datos de ecommerce para poder tomar mejores decisiones en dos direcciones: enfocar mejor las campañas de marketing para los distintos tipos de clientes y optimizar esfuerzos en aquellas características que tienen impacto en la venta final. Cualquier director de marketing o dueño de un ecommerce podrá tomar mejores decisiones con el conocimiento que aportan los modelos presentados, siempre y cuando la recopilación
  • 69. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 69 e integración de datos tenga una trazabilidad en los distintos activos o herramientas de datos (datos del CMS, datos de Google Analytics, datos de CRM, etc.) Como objetivo principal del presente TFM se propuso desarrollar un proyecto de inteligencia de negocio qué permita segmentar pedidos y clientes acorde a los factores que, determinen los aspectos que tengan más peso en la conversión final de los clientes. En ese sentido, se han analizado los datos e informes actuales, constatando que una de las dos empresas colaboradoras no tiene ningún tipo de integración entre sus datos y la segunda, se encuentra en un punto muy básico de integración de estos. De hecho, ambas empresas disponen de datos de calidad que les permitirían crear integraciones más estratégicas, incluso dar pasos para construir sus propios data warehouses. A propósito de dicho objetivo, se ha realizado una segmentación de clientes aplicando técnicas de aprendizaje no supervisado basado en primer lugar, en el modelo de disimilitud de Gower y otro modelo basado en K-means. Como resultado, el primero modelo ha arrojado 3 clústeres con diferentes características y el segundo, 2 clústeres. Asimismo, Se ha realizado un modelo adicional de segmentación que no usa aprendizaje automático sino un sistema de scoring centrado en cuándo se hacen las compras, cuánto se gastan y con qué frecuencia hacen las compras. Como resultado se ha obtenido una clasificación de clientes por su potencial de valor para la compañía, identificando segmentos que están próximos a perder su lealtad u otros cuya inactividad refleja el nulo retorno que ofrecen a nivel de negocio. Para los tres modelos de segmentación, se considera que la incorporación de la información sobre los clústeres pudiese permitir a las empresas a analizar diferencias entre segmentos y trabajar en su retención o aumento de satisfacción, así como en la maximización de beneficios, creando campañas personalizadas de mayor valor. Asimismo, se ha logrado un modelo de regresión logística que identifica qué factores tienen mayor peso en la compra final. Sin duda, entender qué canales, dispositivos o navegadores son determinantes en la conversión final, basando el modelo en datos pasados, da una idea de rendimiento de la conversión, para priorizar o hacer más fuerza en aquellos factores que inciden en la compra. Como resultado, este modelo ofrece una interpretabilidad muy alta, pudiendo utilizarse como una herramienta de predicción individual de alto valor para la
  • 70. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 70 empresa, además de poder potenciar aquella combinación de variables que mejor funcionan en la conversión final. Ambos grupos de modelos se convierten en sendas herramientas que permiten orientar el negocio a la maximización de ventas, una usando la segmentación y otra usando la priorización. En cualquiera de las dos, una tienda online que abrace estas técnicas, será más efectiva, tendrá menores costes y hará un uso de los datos inteligente, puesto que se estará enfocando en personalizar la experiencia de sus distintos clientes, por un lado, y por otro, estará haciendo hincapié en lo que ya funciona en su tienda para amplificarlo sin modificar significativamente sus costes. 7. Limitaciones y prospectiva Una vez finalizado el trabajo y analizando los aspectos desarrollados, se establecen las principales limitaciones halladas: 1. La descarga de datos ha sido manual y no ha existido ninguna extensión, API o aplicativo que facilite o posibilite la automatización de la descarga o su almacenamiento en bases de datos que actúen como Data Warehouse 2. No disponer de los mismos tipos de datos para proyectos de ecommerce diferentes. Esto significa que no existe una cultura del dato en todas las organizaciones y a la hora de extraer los datos de distintas fuentes, existe una dificultad añadida si no hay un trabajo previo de las empresas por llegar a la granularidad necesaria de los datos. 3. Idealmente se hace necesario un desarrollo en el gestor de contenidos o CMS, que posibilite integrar los datos de clientes y pedidos, con los datos de Google Analytics con Ecommerce Mejorado, así como otros datos adicionales como pueden ser los existentes en un CRM. Esa trazabilidad posibilitará la automatización o el volcado periódico a bases de datos como BigQuery. 4. La cantidad de datos que se disponen de los clientes y los pedidos también puede actuar como una limitación o hándicap ya que, los análisis posteriores pueden perder profundidad y no dar una información más rica, si se cuentan con datos básicos (nombre, importe, fecha de pedido) que si se ha conseguido ampliar mínimamente (género, antigüedad como cliente, edad, etc.).
  • 71. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 71 5. La existencia de características de datos poco balanceados puede hacer menos útiles ciertos segmentos, es decir, si el perfil de usuarios de una característica mayoritaria, dicha característica no será del todo importante para agrupar. Ejemplo: 95% de usuarios de género masculino. Con una implementación similar a la indicada en el punto anterior, los siguientes pasos de estos análisis pueden ser: a. Automatización de los análisis b. Creación de distintos Dashboards dinámicos enfocados a distintos departamentos de las organizaciones c. Incorporar análisis basados en Forecast, para tener una herramienta predictiva y que permita activar medidas de minimización de costes y/o de maximización de ingresos. Por último, resaltar que los proyectos de Inteligencia de Negocio son una oportunidad para la mejora tanto en beneficio como en posicionamiento en el mercado de los ecommerce. Es una forma de adaptarse a las tendencias y patrones de los usuarios, así como en adoptar novedades tecnológicas, de la forma más eficiente posible, respecto a la gran cantidad de datos que se generan constantemente.
  • 72. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 72 BIBLIOGRAFÍA Bagnato, J. I. (2 de Junio de 2020). aprendemachinelearning.com. Obtenido de aprendemachinelearning.com: https://www.aprendemachinelearning.com/deteccion-de-outliers-en-python- anomalia/ Baymard. (20 de Diciembre de 2020). baymard.com. Obtenido de baymard.com: https://baymard.com/lists/cart-abandonment-rate Beck, M. (16 de Diciembre de 2019). Can You Predict If a Customer Will Make a Purchase on a Website? Obtenido de towardsdatascience.com: https://towardsdatascience.com/can-you-predict-if-a-customer-will-make-a- purchase-on-a-website-e6843ec264ae Bello, E. (1 de Marzo de 2021). iebschool.com. Obtenido de iebschool.com: https://www.iebschool.com/blog/que-es-un-cms-e-commerce/ Bow, C. (11 de Octubre de 2018). An introduction to regression analysis for marketers. Obtenido de blog.markgrowth.com: https://blog.markgrowth.com/an-introduction- to-regression-analysis-for-marketers-e4ece9dce43a Bow, C. (10 de Marzo de 2018). E-Commerce EDA and segmentation with R. Obtenido de kaggle.com: https://www.kaggle.com/chrisbow/e-commerce-eda-and-segmentation- with-r builtwith.com. (12 de Julio de 2021). builtwith.com. Obtenido de builtwith.com: https://trends.builtwith.com/shop/country/Spain chaudhury, j. (20 de Julio de 2020). Linear Regression on Ecommerce Customer Dataset. Obtenido de medium.com: https://medium.com/@jayramchaudhury20/linear- regression-on-ecommerce-customer-dataset-752bce43e0de CNMC. (1 de Abril de 2021). Disponibles datos telecomunicaciones de abril 2021 . Obtenido de data.cnmc.es: http://data.cnmc.es/datagraph/ CNMCData. (8 de Enero de 2021). El comercio electrónico superó en España los 12.000 millones de euros en el segundo trimestre de 2020. Obtenido de cnmc.es: https://www.cnmc.es/prensa/ecommerce-2T-20210108
  • 73. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 73 comunica-web.com. (2 de Julio de 2020). Plataformas ecommerce más utilizadas en España (2020). Obtenido de comunica-web.com: https://comunica- web.com/blog/marketing-digital/plataformas-ecommerce/ DataFlair Team. (26 de Septiembre de 2017). Predictive and Descriptive Analytics in R – Grasp the entire concept thoroughly! Obtenido de data-flair.training: https://data- flair.training/blogs/r-predictive-and-descriptive-analytics/ ecommerce-nation.es. (4 de Diciembre de 2018). ecommerce-nation.es. Obtenido de ecommerce-nation.es: https://www.ecommerce-nation.es/todo-lo-que-necesitas- saber-para-elegir-tu-cms-para-ecommerce/ Filaire, T. (16 de Julio de 2018). Clustering on mixed type data. Obtenido de towardsdatascience.com/: https://towardsdatascience.com/clustering-on-mixed- type-data-8bbd0a2569c3 Filaire, T. (16 de Julio de 2018). towardsdatascience.com. Obtenido de towardsdatascience.com: https://towardsdatascience.com/clustering-on-mixed- type-data-8bbd0a2569c3 Flat 101. (12 de Diciembre de 2019). flat101.es. Obtenido de flat101.es: https://www.flat101.es/estudio-sobre-la-conversion-en-negocios-digitales- espanoles-2019/ G, D. (28 de Septiembre de 2020). rpubs.com. Obtenido de rpubs.com: https://rpubs.com/DessiG/671942 Gaggin, A. (s.f.). Applying machine learning to sales prediction . Obtenido de rstudio: https://rstudio-pubs- static.s3.amazonaws.com/105869_f6e7f8d4e0434c40bd939a3d1e792af9.html Garcés, E. (25 de Marzo de 2019). Data Science & Machine Learning with Google Analytics. Obtenido de linkedin.com: https://www.linkedin.com/pulse/data-science-machine- learning-google-analytics-part-1-eduardo-garc%C3%A9s/ Gondaliya, A. (14 de Enero de 2015). Predictive analysis in eCommerce part-3 . Obtenido de r-bloggers.com: https://www.r-bloggers.com/2015/01/predictive-analysis-in- ecommerce-part-3/amp/ Granda, X. (17 de Diciembre de 2019). e-Commerce Purchase Prediction . Obtenido de nycdatascience.com: https://nycdatascience.com/blog/student-works/e-commerce- purchase-prediction/
  • 74. Mª José Cachón Yáñez Métodos de aprendizaje automático para la mejora estratégica de las ventas online 74 Guntupalli, N. (27 de Enero de 2018). Predicting Conversion of Website Users in R. Obtenido de rpubs.com: https://rpubs.com/neerajkumar990/353129 Herviawan, M. H. (31 de Octubre de 2017). Customer Segmentation using RFM Analysis (R). Obtenido de kaggle.com: https://www.kaggle.com/hendraherviawan/customer- segmentation-using-rfm-analysis-r Hong, F. (21 de Octubre de 2015). Machine learning on Google Analytics (part 2). Obtenido de liip.ch: https://www.liip.ch/en/blog/8160 IAB SPAIN. (15 de Julio de 2020). PRESENTACIÓN ONLINE DEL ESTUDIO ANUAL DE ECOMMERCE 2020. Obtenido de iabspain.es: https://iabspain.es/presentacion- online-del-estudio-anual-de-ecommerce-2020/ INE. (1 de Junio de 2020). ine.es. Obtenido de ine.es: https://www.ine.es/ss/Satellite?L=es_ES&c=INECifrasINE_C&cid=1259952923622&p =1254735116567&pagename=ProductosYServicios%2FINECifrasINE_C%2FPYSDetalle CifrasINE Jain, S. (05 de Marzo de 2019). Clustering using categorical data. Obtenido de kaggle.com: https://www.kaggle.com/general/19741 Jalalian, S. (17 de Agosto de 2019). Prediction of Online Shopper’s Intention . Obtenido de fsocietysj.com: https://fsocietysj.com/prediction-of-online-shoppers-intention/ Josue, A. (31 de Enero de 2020). PREDICTIONS OF A COMPANY’S FUTURE SALES USING LINEAR REGRESSION. Obtenido de rpubs.com: https://rpubs.com/Josue90/predict_sales Kassambara, A. (17 de 10 de 2018). PARTITIONAL CLUSTERING IN R: THE ESSENTIALS. Obtenido de datanovia.com: https://www.datanovia.com/en/lessons/k-medoids-in- r-algorithm-and-practical-examples/ Kassambara, A. (2 de Junio de 2020). K-MEANS CLUSTERING VISUALIZATION IN R: STEP BY STEP GUIDE. Obtenido de datanovia.com: https://www.datanovia.com/en/blog/k- means-clustering-visualization-in-r-step-by-step-guide/ Khandelwal, R. (3 de Enero de 2021). Customer Segmentation in Online Retail. Obtenido de towardsdatascience.com: https://towardsdatascience.com/customer-segmentation- in-online-retail-1fc707a6f9e6