Modelo de Clasificación de Incidencias - Análisis y Desarrollo de Sistemas | Studenta

Modelo de Clasificación de Incidencias

•

SIN SIGLA

david aguirre

11/5/2024

¡Este material tiene más páginas!

Entonces, ¿te gustó este material?

Ayude a animar a otros estudiantes a mejorar el contenido

¿Te gustó este material? ¡Compartir! 🧡

Análisis y Desarrollo de Sistemas

50.839 Materiales compartidos

Descarga la aplicación para disfrutar aún más

Lea materiales sin conexión, sin usar Internet. Además de muchas otras características!

Vista previa del material en texto

MODELO DE CLASIFICACIÓN DE INCIDENCIAS UTILIZANDO
APRENDIZAJE DE MÁQUINA PARA LA EMPRESA SIGMA INGENIERÍA S.A
EN LA LÍNEA DE SOPORTE TÉCNICO

MARÍA XIMENA ARIAS BARAHONA

UNIVERSIDAD AUTÓNOMA DE MANIZALES
FACULTAD DE INGENIERÍA
MAESTRÍA EN INGENIERÍA
MANIZALES
2022

MODELO DE CLASIFICACIÓN DE INCIDENCIAS UTILIZANDO APRENDIZAJE DE
MÁQUINA PARA LA EMPRESA SIGMA INGENIERÍA S.A EN LA LÍNEA DE
SOPORTE TÉCNICO

Autora
MARÍA XIMENA ARIAS BARAHONA
Proyecto de grado para optar al título de Magíster en Ingeniería

Director (a):
Ph.D. Reinel Tabares Soto
Codirectores:
Ph.D. Simón Orozco Arias
M.Sc. Juan Camilo Flórez

UNIVERSIDAD AUTÓNOMA DE MANIZALES
FACULTAD DE INGENIERÍA
MAESTRÍA EN INGENIERÍA
MANIZALES
2022

iii
DEDICATORIA

Le dedico todo mi esfuerzo y trabajo entregado para el desarrollo de esta tesis a mi familia,
por ser el pilar más importante, por brindarme su amor incondicional y siempre creer en mí.
A mi futuro esposo por su paciencia, por su comprensión, por su tiempo, por su apoyo en
este proceso, por su amor, por ser tal y como es.

iv
AGRADECIMIENTOS

Expreso mis agradecimientos a Reinel Tabares Soto, director de la tesis de maestría, por su
apoyo incondicional, su tiempo y paciencia y su gran virtud de sacarme siempre de
callejones sin salida.
Agradezco a Simón Orozco Arias y Juan Camilo Flórez, Co-directores de mi tesis, por el
tiempo dedicado y sus valiosos aportes al desarrollo del proyecto.
Mis más sinceros agradecimientos al ingeniero Harold Brayan Arteaga Arteaga, por su
apoyo incondicional en la ejecución de un sinfín de experimentos que permitió la
publicación del artículo científico producto de la tesis y sus valiosos aportes al desarrollo de
este trabajo.
Agradezco a la Universidad Autónoma de Manizales, al programa de Maestría en
Ingeniería y todos los docentes por permitirme crecer a nivel académico y permitirme haber
llegado hasta este momento tan importante en mi formación profesional.
Agradezco al equipo de SIGMA Ingeniería S.A; a Claudia Cuervo, Alejandra Restrepo y
Mónica Cifuentes por todo su apoyo durante el proceso y a Mario Andrés Valencia por
confiar en mí, por depositar una gran idea en mi mente que logramos hacer realidad y
brindarme todo el apoyo para el desarrollo de este proyecto.
Gracias a la empresa SIGMA Ingeniería S.A y al Fondo de Becas de Investigación
Manizales + Innovadora, creado por la Alcaldía de Manizales y Manizales Campus
Universitario que me apoyaron en la financiación de esta tesis.
Agradezco a mi familia y a mi prometido por ser la fuente de inspiración y brindarme todo
el apoyo durante los momentos más difíciles de este proceso.

v
RESUMEN

La Inteligencia Artificial es uno de los componentes reconocidos por su potencial para
transformar radicalmente el modo en el que vivimos actualmente. Hace posible que las
máquinas aprendan de la experiencia, se ajusten a nuevas aportaciones y realicen tareas
emulando a seres humanos. Esta investigación se centra en el ámbito empresarial y propone
el desarrollo de un modelo computacional de clasificación de incidencias utilizando
Aprendizaje Automático (ML por sus siglas en inglés) y Procesamiento de Lenguaje
Natural (NLP por sus siglas en inglés) enfocado al área de soporte técnico en una empresa
de desarrollo de software que actualmente resuelve los requerimientos de los clientes de
forma manual. A través de técnicas de ML y NLP aplicadas a los datos de la empresa, es
posible conocer la categoría de una solicitud dada por el cliente. Este proceso permite
aumentar la satisfacción del cliente al revisar los registros históricos para analizar su
comportamiento y proporcionar correctamente el protocolo de solución esperada a las
incidencias presentadas. Además, reduce el coste y el tiempo dedicado a la gestión
relacional con el consumidor potencial. Este modelo evalúa diferentes técnicas de ML
como Máquinas de Vectores de Soporte (SVM por sus siglas en inglés), Árboles
Adicionales, Bosques Aleatorios, Regresión Logística, Árboles de Decisión, Análisis
Discriminante Lineal, Naïve Bayes y K Vecinos más cercanos. El algoritmo SVM entrega
el mayor desempeño, con un 90.47% de exactitud, una precisión de 91.21%, un Recall de
90.47% y un F1-Score de 90.29%, aplicando técnicas de preprocesamiento, balanceo de
clases y optimización de hiperparámetros.
Palabras clave: Procesamiento del lenguaje natural, Aprendizaje Automático, Servicio al
cliente, Clasificación de requerimientos, Clasificación de texto.

vi
ABSTRACT
Artificial Intelligence is one of the components recognized for its potential to transform the
way we live today radically. It makes it possible for machines to learn from experience,
adjust to new contributions and perform tasks like human beings. The business field is the
focus of this research. This paper proposes to implement an incident classification model
using Machine Learning (ML) and Natural Language Processing (NLP). The application
focuses on the technical support area in a software development company that currently
resolves customer requests manually. Through ML and NLP techniques applied to
company data, it is possible to know the category of a request given by the client. It
increases customer satisfaction by reviewing historical records to analyze their behavior
and correctly provide the expected solution to the incidents presented. Also, this practice
would reduce the cost and time spent on relationship management with the potential
consumer. This work evaluates different Machine Learning models, such as Support Vector
Machines (SVM), Extra Trees, Random Forests, Logistic Regression, Decision Trees,
Linear Discriminant Analysis, Naïve Bayes y K-Nearest Neighbors. The SVM algorithm
demonstrates the highest performance, with 90.47% accuracy, 91.21% precision, 90.47%
Recall and 90.29% F1-Score, applying preprocessing, class balancing and hyperparameter
optimization techniquess
Keywords: Natural language processing, Machine learning, Consumer service, Requests
classification, and Text classification.

vii
TABLA DE CONTENIDO

1 PRESENTACIÓN .................................................................................................... 16
2 ANTECEDENTES ................................................................................................... 18
3 ÁREA PROBLEMÁTICA Y PREGUNTA DE INVESTIGACIÓN ....................... 24
3.1 DESCRIPCIÓN DEL ÁREA PROBLEMÁTICA ................................................... 24
3.2 HIPÓTESIS DE LA INVESTIGACIÓN .................................................................. 26
3.3 FORMULACIÓN DEL PROBLEMA ..................................................................... 26
4 JUSTIFICACIÓN ..................................................................................................... 26
5 REFERENTE TEÓRICO ......................................................................................... 30
5.1 REFERENTE CONCEPTUAL ................................................................................ 30
5.2 REFERENTE NORMATIVO .................................................................................. 47
5.3 REFERENTE CONTEXTUAL ................................................................................ 48
6 OBJETIVOS ............................................................................................................. 52
6.1 OBJETIVO GENERAL ............................................................................................ 52
6.2 OBJETIVOS ESPECÍFICOS ................................................................................... 52
7 METODOLOGÍA ..................................................................................................... 53
7.1 ENFOQUE Y TIPO DE INVESTIGACIÓN ...........................................................53
7.2 DISEÑO DE LA INVESTIGACIÓN ....................................................................... 53
7.3 UNIDAD DE TRABAJO Y UNIDAD DE ANÁLISIS ........................................... 54
7.4 INSTRUMENTOS DE RECOLECCIÓN, PROCEDIMIENTO Y TÉCNICAS ..... 55
7.5 CARACTERIZACIÓN DE LA INFORMACIÓN BRINDADA DESDE
TIMEWORK PARA PREPARAR LA LÍNEA BASE DE PRUEBA DE LOS

viii
MODELOS COMPUTACIONALES PROPUESTOS PARA ESTE TRABAJO. .. 56
7.6 EVALUACIÓN DEL DESEMPEÑO DE LAS DIFERENTES TÉCNICAS DE
APRENDIZAJE DE MÁQUINA APLICADAS AL PROCESAMIENTO DE
TEXTO A PARTIR DE MODELOS DE REFERENCIA VALIDADOS BASADOS
EN PROCESAMIENTO DE LENGUAJE NATURAL (NLP). .............................. 57
7.7 IMPLEMENTACIÓN DE MODELO COMPUTACIONAL DE APRENDIZAJE
DE MÁQUINA PARA LA CLASIFICACIÓN DE LOS TICKETS DE SERVICIO
BRINDADOS POR TIMEWORK BASADOS EN TÉCNICAS DE
APRENDIZAJE DE MÁQUINA Y PROCESAMIENTO DE LENGUAJE
NATURAL. ..................................................................................................... 63
7.8 VALIDACIÓN DEL FUNCIONAMIENTO DEL MODELO COMPUTACIONAL
COMPARANDO LOS RESULTADOS OBTENIDOS CON EL JUICIO DE
EXPERTOS DE LA ORGANIZACIÓN. ................................................................. 65
8 RESULTADOS ........................................................................................................ 67
8.1 RESULTADO OBJETIVO 1 ................................................................................... 67
8.2 RESULTADO OBJETIVO 2 ................................................................................... 82
8.3 RESULTADO OBJETIVO 3 ................................................................................... 96
8.4 RESULTADO OBJETIVO 4 ................................................................................... 97
9 DISCUSIÓN ........................................................................................................... 104
10 CONCLUSIONES .................................................................................................. 106
11 RECOMENDACIONES ......................................................................................... 108
12 CONTRIBUCIONES ............................................................................................. 110
13 REFERENCIAS ................................................................................................... 111

ix
LISTA DE ABREVIATURAS
CM: Matriz de Confusión
CR: Reporte de clasificación.
CV: Validación Cruzada
DP: Datos preprocesados
DPB: Datos preprocesados y con balanceo
DPBO: Datos preprocesados, con balanceo y con optimización de hiperparámetros
DT: Árbol de Decisión
EDA: Análisis exploratorio de datos
ET: Árboles Adicionales
IA: Inteligencia Artificial.
KNN: K vecinos más cercanos
LDA: Análisis discriminante lineal
LR: Regresión Logística
ML: Machine Learning.
NB: Naive Bayes
NLP: Procesamiento de lenguaje Natural
OD: Datos Originales
ODL: Datos Originales Limpios
RF: Bosque Aleatorio
ROC: curvas característica operativa del receptor
SVM: Máquina de vectores de soporte

x
TC: Clasificación de Texto
GLOSARIO
TF-IDF: Frecuencia de términos – Frecuencia inversa del documento».
Inteligencia Artificial (AI): la AI es un sistema computarizado que exhibe un
comportamiento que comúnmente se considera que requiere inteligencia. En términos
generales, es la ciencia y la ingeniería de hacer máquinas inteligentes, especialmente
programas de computadora inteligentes. Está relacionado con la tarea similar de usar
computadoras para comprender la inteligencia humana, pero la AI no tiene que limitarse a
métodos que son biológicamente observables [1].
Machine Learning (ML): el ML o Aprendizaje de Máquina es una rama en evolución de
los algoritmos computacionales que están diseñados para emular la inteligencia humana
aprendiendo del entorno circundante. Las técnicas basadas en el aprendizaje automático se
han aplicado con éxito en diversos campos que van desde el reconocimiento de patrones, la
visión por computadora, la ingeniería de naves espaciales, las finanzas, el entretenimiento y
la biología computacional hasta las aplicaciones biomédicas y médicas [2].
Procesamiento de lenguaje Natural (NLP): el NLP es una rama de la AI que ayuda a las
computadoras a entender, interpretar y manipular el lenguaje humano, toma elementos
prestados de muchas disciplinas, incluyendo la ciencia de la computación y la lingüística
computacional, en su afán por cerrar la brecha entre la comunicación humana y el
entendimiento de las computadoras [3].
Timework: herramienta organizacional de SIGMA Ingeniería S.A que permite conocer,
gestionar y controlar las solicitudes de los clientes.
Geolúmina: consolida y sistematiza a empresas y concesiones de alumbrado, permitiendo
dar cumplimiento al reglamento técnico de iluminación y alumbrado público en SIGMA
Ingeniería S.A.

xi
Geoaseo: optimiza el ejercicio de las empresas de aseo en operaciones como rutas,
recolección, barrido, entre otras variables en las ciudades y municipios de un país en
SIGMA Ingeniería S.A.
Geoambiental: herramienta tecnológica basada en información gerencial y geográfica que
tiene como fin fortalecer los procesos y procedimientos de las organizaciones que gestionan
el medio ambiente en SIGMA Ingeniería S.A.
Categoría: clase que resulta de una clasificación de personas o cosas según un criterio o
jerarquía
Incidencias: requerimientos, solicitudes o eventos presentados en el área de servicio al
cliente
Exactitud (Accuracy): es la relación entre el número de predicciones correctas y el número
total de muestras de entrada [4][5].
Precisión: es una métrica que cuantifica el número de predicciones positivas correctas
realizadas [4].
Sensibilidad (Recall): es una métrica que cuantifica el número de predicciones positivas
correctas realizadas a partir de todas las predicciones positivas que podrían haberse
realizado [4].
Valor-F1 (F1-score): el valor F1 es la media armónica entre precisión y sensibilidad
[4][5].
Matriz de confusión (CM): resume el número de predicciones realizadas por un modelo
para cada clase y las clases a las que realmente pertenecen esas predicciones. Ayuda a
comprender los tipos de errores de predicción que comete un modelo.[5]
Informe de clasificación (CR): crea un informe de texto que muestra las principales
métricas de clasificación, como precisión, Sensibilidad, Valor-F1 y soporte, este último es
el número de ocurrencias de la clase dada en el conjunto de datos [6].

xii
Curva ROC: constituye un método estadístico para determinar la exactitud diagnóstica de
los datos etiquetados como test, siendo utilizadas con tres propósitos específicos:
determinar el punto de corte de una escala continua en el que se alcanza la sensibilidad y
especificidad más alta, evaluar la capacidad discriminativa que los datos de test tienen para
diferenciar categorías y comparar la capacidad discriminativa de dos o más datos de test
categorizados que expresan sus resultados como escalas continuas [7].
Balanceo al mayor o Sobremuestreo: el sobremuestreo se puede realizar aumentando la
cantidad de instancias o muestras de clases minoritarias produciendo nuevas instancias o
repitiendo algunas de ellas para igualar en cantidad a las clases con mayor cantidad de
muestras [8].
Lematización: proceso que reduce la forma de una palabra y halla el lema correspondiente.
El lema es la forma que por convenio se acepta como representante de todas las formas
flexionadas de una misma palabra, de este modo se reduce el tamaño del conjunto de
características inicial y unifica todas las palabras a su raíz o lema [9].
Stop Words: palabras sin significado que se eliminan como una tarea de preproceso [10].
Overffiting: es un problema fundamental en el aprendizaje automático supervisadoque nos
impide generalizar perfectamente los modelos para que se ajusten bien a los datos
observados en los datos de entrenamiento, así como a los datos no vistos en el conjunto de
pruebas [11].

https://es.wikipedia.org/wiki/Lema_(ling%C3%BC%C3%ADstica)

xiii
LISTA DE TABLAS
Tabla 1. Diccionario de Datos ............................................................................................. 56
Tabla 2. Categorías contenidas Timework junto con sus frecuencias ................................. 68
Tabla 3. Medidas estadísticas de las OD a partir del conteo de palabras ............................ 70
Tabla 4. 25 palabras más usadas en el campo de Descripción con “stop words”. ............... 72
Tabla 5. Medidas estadísticas de las ODL a partir del conteo de palabras .......................... 73
Tabla 6. 25 palabras más usadas en el campo de Descripción sin “stop words”. ................ 75
Tabla 7. Diferencia en frecuencia de palabras entre OD y ODL ......................................... 76
Tabla 8. Ejemplo de conteo de palabras para OD y ODL ................................................... 77
Tabla 9. Unigramas/palabras claves por categoría. ............................................................ 78
Tabla 10. Indicadores textuales asignados a las pruebas realizadas .................................... 83
Tabla 11. Comparación de los resultados obtenidos entre los ocho algoritmos ML
mediante Hold-out en cada una de las condiciones establecidas. Las entradas en negrilla
indican los tres mejores resultados para cada experimento. ................................................. 84
Tabla 12. Comparación de los resultados obtenidos mediante CV entre los ocho algoritmos
ML en cada una de las condiciones establecidas. Las entradas en negrilla indican los
resultados de los tres mejores algoritmos para cada experimento. ....................................... 95
Tabla 13. Ejemplo de datos de la prueba piloto entregados por Timework ........................ 99
Tabla 14. Comparación de desempeño del modelo computacional implantado en Timework
VS la prueba piloto. ............................................................................................................ 102

xiv
LISTA DE FIGURAS
Figura 1. Proceso para clasificación de texto. ..................................................................... 19
Figura 2. Infografía de la escala de los niveles tecnológicos. ............................................. 30
Figura 3. Estructura básica del DT. ..................................................................................... 33
Figura 4. Estructura básica de un RF. ................................................................................. 34
Figura 5. Concepto de una máquina de vectores de soporte de dos clases. ........................ 37
Figura 6. Proceso de Estemizado ........................................................................................ 41
Figura 7. Proceso de Lematización ..................................................................................... 42
Figura 8. Proceso para balancear al mayor (Sobremuestreo) .............................................. 44
Figura 9. Proceso para balancear al menor (Submuestreo) ................................................. 44
Figura 10. Frecuencia por categoría a partir de bases de datos de Timework..................... 50
Figura 11. Diseño metodológico de la investigación. ......................................................... 53
Figura 12. Proceso de analítica de datos ............................................................................. 55
Figura 13. Técnicas de NLP de pre-procesamiento y modelado. ........................................ 57
Figura 14. Conjunto de experimentos para la aplicación de técnicas de ML ...................... 59
Figura 15. Proceso a llevar a cabo para la clasificación de requerimientos. ....................... 61
Figura 16. Pasos para la implementación del modelo computacional en la empresa.......... 63
Figura 17. Proceso a realizar con el modelo computacional implementado en Timework. 64
Figura 18. Validación de clasificación y predicción por medio del juicio de expertos....... 65
Figura 19. Proceso de validación del modelo computacional ............................................. 66
Figura 20. Gráfico de barras de cantidad de requerimientos por categoría ......................... 69
Figura 21. Histograma de conteo de palabras para OD. ...................................................... 71
Figura 22. Nube de palabras de las OD. .............................................................................. 72
Figura 23. Histograma de conteo de palabras para ODL. ................................................... 73
Figura 24. Nube de palabras de las ODL. ........................................................................... 76
Figura 25. Diferencia en conteo de palabras para OD y ODL ............................................ 77
Figura 26. Nube de palabras para categoría: Saltos de GPS (Descalibrado)....................... 80
Figura 27. Nube de palabras para categoría: Lentitud en visor ........................................... 81

xv
Figura 28. Nube de palabras para categoría: Disminucion del desempeño de plataforma.. 82
Figura 29. Reporte de clasificación para el experimento DPBO en SVM. ......................... 85
Figura 30. Matriz de confusión para el experimento DPBO en SVM................................. 86
Figura 31. Curva ROC para el experimento DPBO en SVM. ............................................. 87
Figura 32. Reporte de clasificación para el experimento DPBO en ET. ............................. 88
Figura 33. Matriz de confusión para el experimento DPBO en ET. ................................... 89
Figura 34. Curva ROC para el experimento DPBO en ET. ................................................ 90
Figura 35. Reporte de clasificación para el experimento DPBO en LR. ............................. 91
Figura 36. Matriz de confusión para el experimento DPBO en LR. ................................... 92
Figura 37. Curva ROC para el experimento DPBO en LR. ................................................ 93
Figura 38. Módulo NLP en plataforma Timework. ............................................................. 97
Figura 39. Prueba piloto del modelo computacional implantado en Timework. ................ 98
Figura 40. Tabla de frecuencias de aciertos y desaciertos de la prueba piloto. ................. 101
Figura 41. Porcentajes de aciertos y desaciertos de la prueba piloto en Timework. ......... 102
16

1 PRESENTACIÓN
La Inteligencia Artificial (AI) es la ciencia y la ingeniería de la creación de máquinas que
presenten capacidades semejantes al ser humano, está relacionada con la tarea similar de
usar computadoras para comprender la inteligencia humana [12]. Uno de los campos de
énfasis de la AI es el Machine Learning (ML) o Aprendizaje de Máquina que hace
referencia al aprendizaje automático de las máquinas; las herramientas que cuentan con esta
característica desarrollan soluciones para evolucionar y aprender de los datos con los que
trabajan, de este modo, se automatizan procesos sin intervención humana [13]. Algunas de
las ventajas de aplicar ML en las empresas son: mejorar el servicio al cliente, analizar
preferencias de los clientes, ofrecer productos personalizados de forma automática, mejorar
la percepción de la empresa, potenciar la fidelización de clientes y automatizar procesos de
rutinas o tareas mecánicas [14],[15].
El presente trabajo tiene como unidad de análisis la empresa SIGMA Ingeniería S.A, una
empresa de Manizales enfocada en el desarrollo de Software de georreferenciación y
Sistemas de Información Geográfica (SIG) que soportan la gestión pública en Colombia. El
objetivo de este proyecto es construir un modelocomputacional basado en aprendizaje de
máquina que le permita al área de soporte técnico, la clasificación de incidencias,
requerimientos o peticiones de los clientes, con el fin de obtener protocolos para la solución
de problemas específicos con un tiempo de respuesta óptimo. Los campos de aplicación que
abarca el desarrollo de este modelo computacional son procesamiento de lenguaje natural o
NLP por sus siglas en inglés (Natural Language Processing) y técnicas de ML aplicados a
la preparación, procesamiento y clasificación de texto.
El contenido de este documento inicia con una recopilación de antecedentes basado en
estudios de AI aplicado a la clasificación de texto, al NLP y su aplicación en las empresas.
Seguido, se encuentra el planteamiento del problema de investigación y su justificación
donde se describe la problemática encontrada en la empresa SIGMA Ingeniería S.A que
motivó el desarrollo de esta tesis; posteriormente, se presenta el referente conceptual,
contextual y legal, seguido de los objetivos y la sección de metodología donde se muestran
las diferentes técnicas aplicadas en la investigación y el proceso realizado. Por último, se
17

presentan los resultados obtenidos juntos con su discusión, recomendaciones,
contribuciones de la tesis y referencias bibliográficas usadas

2 ANTECEDENTES
La tecnología no para de revolucionar las industrias y la aparición de tendencias como la AI
seguirán transformando los negocios. La causa se reduce a un simple hecho: hasta ahora, la
tecnología ha sido creada para ser usada por seres humanos, y con base a ese uso, se
desarrollan relaciones, negocios, aplicaciones y soluciones para la sociedad [16].
Los inicios de la AI se remontan a la filosofía, la ficción y la imaginación nacida a
mediados de los años 50, gracias al informático John McCarthy y a la ayuda de Marvin
Minsky y Claude Shannon [17]. Este concepto, designado en la conferencia de Dartmouth,
definía la palabra como la ciencia e ingeniería de “hacer máquinas inteligentes.”, sin
embargo, no es hasta la década de los 90 que la AI empieza a adoptarse como lo conocemos
hoy en día [18].
Una de las ramas de la AI es el NLP que se encarga de explorar cómo los computadores
pueden ser usados para entender y manipular el lenguaje humano, las tareas en el NLP con
frecuencia involucran el reconocimiento de voz, la comprensión del lenguaje natural y la
generación del mismo [19].
Según Li Deng [20], el NLP es una gama de técnicas computacionales motivadas
teóricamente para procesar y comprender textos con el fin de desarrollar aplicaciones
prácticas novedosas para facilitar las interacciones entre computadoras y lenguajes
humanos. Esta técnica tomó gran importancia porque existe un amplio almacenamiento de
información registrada o almacenada en lenguaje natural que podría ser accesible a través
de ordenadores. La información se genera constantemente en forma de libros, noticias,
informes y artículos científicos. Un sistema que requiere una gran cantidad de información
debe poder procesar el lenguaje natural para recuperar gran parte de la información
disponible en computadoras [21]. El NLP es un campo en el que se tienen que desarrollar,
evaluar o analizar teorías de representación y razonamiento. Todas las dificultades de la AI
surgen en el ámbito de resolver "el problema del lenguaje natural" que es tan difícil como
resolver "el problema de la AI" porque cualquier campo puede expresarse o representarse
en lenguaje natural.
19

A. Masood Khan [22], expone la minería de texto y análisis de texto como términos
similares y lo que hacen es relacionar estos dos términos y enfocarlos al NLP, ya que
explican que la unión de estas dos técnicas puede permitir comprender la sintaxis (lo que
dice la palabra) y la semántica (lo que significa la palabra) a partir de información y datos
obtenidos por seres humanos para finalmente estar en la capacidad de llevar a cabo una
clasificación como lo es para este caso la clasificación de textos (TC por sus siglas en
inglés).
Cabe resaltar que algunas de las aplicaciones de AI están basadas en la clasificación
automática de texto, la cual puede definirse como una técnica de ML que asigna una
instancia determinada a etiquetas predefinidas en función de su contenido [23]. En general,
la TC, juega un papel importante en la extracción y resumen de información, la
recuperación de texto y la respuesta a preguntas, es así donde [24] toma gran importancia al
recomendar diferentes etapas y procesos a llevar a cabo al trabajar con textos; la Figura 1
muestra los procesos recopilados para aplicar a conjuntos de datos textuales:
Figura 1. Proceso para clasificación de texto.

Adaptado de [24].
La primera sección hace referencia al debido pre-procesamiento a realizar al texto a
trabajar, donde se hace importante por un lado aplicar el proceso de Stemming (Estemizado)
o Lemmatization (Lematización) ya que ayuda a eliminar palabras mal escritas y a reducir
el tamaño inicial de la palabra convirtiéndola a su raíz. Adicionalmente, se recomienda
20

realizar la limpieza de las palabras vacías más conocidas como stop words, ya que son
palabras que no aportan significado por sí solas y reducen significativamente la
dimensionalidad de los datos e información a procesar. Por otro lado, se realiza el proceso
de extracción o transformación de características, que es una técnica de ponderación que
utiliza un método estadístico para calcular la importancia de una palabra en todo el corpus
de texto en función del número de veces que la palabra aparece [25], puede reducir el
efecto de algunas palabras irrelevantes, mientras retiene palabras importantes que afectan
todo el texto. Al aplicar estos procesos se puede producir una mejor precisión al aplicar
algoritmos de ML.
El ML es una rama de la AI y se encarga de estudiar algoritmos y métodos estadísticos que
utilizan los sistemas informáticos para realizar de forma eficaz una tarea específica sin
utilizar instrucciones explícitas, basándose en patrones e inferencias [26]. Las técnicas de
ML que se destacan para resolver tareas de clasificación son: máquinas de vectores de
soporte (SVM por sus siglas en inglés), bosques aleatorios (RF por sus siglas en inglés),
Regresión logística (LR por sus siglas en inglés), árboles de decisión (DT por sus siglas en
inglés), análisis discriminante lineal (LDA por sus siglas en inglés), Naïve Bayes (NB por
sus siglas en inglés) y K Vecinos más cercanos (KNN por sus siglas en inglés)[27], [28].
Para problemas de clasificación, específicamente de texto, A. I. Kadhim [29] analiza las
diferentes técnicas de aprendizaje automático supervisado como son los clasificadores NB,
SVM, KNN y analiza el efecto de cada técnica para clasificar documentos en una o más
clases según su contenido. Los resultados muestran que, en términos de precisión, SVM es
el mejor algoritmo para todas las pruebas que utilizan reseñas de películas en el conjunto de
datos y tiende a ser más precisa que otros métodos, sin embargo, demuestra que las técnicas
funcionan de manera diferente dependiendo del texto del conjunto de datos (corto y largo).
Por lo que se obtuvo que KNN en general funciona bien en varios algoritmos de
clasificación de texto, partiendo de esto, C. Sharpe et al. [30] explica que se deben tener en
cuenta diferentes factores al implementar una tarea de clasificación; hay dos grandes
categorías de clasificadores: generativos y discriminativos [31]. Los clasificadores
generativos incluyen clasificadores bayesianos como Naive Bayes (NB) y los clasificadores
21

discriminativos incluyen las máquinas de soporte de vectores y redes neuronales donde en
muchos de los casos los clasificadores discriminativos producen una mejor precisión de
clasificación [30], y evidencian que las técnicas de clasificaciónmás populares para
problemas de optimización son SVM, RF y NB que están muy influenciados por la calidad
de la fuente de datos y las técnicas de representación de características, ya que las
características irrelevantes y redundantes de los datos degradan la precisión y el
rendimiento del clasificador.
En este sentido, a partir de la revisión de literatura, se muestra que SVM ha sido reconocido
como uno de los métodos de TC más efectivos [32]–[35]. Esta técnica tiene sólidos
fundamentos teóricos y excelentes éxitos empíricos que se han aplicado a tareas como el
reconocimiento de dígitos escritos a mano, el reconocimiento de objetos y como se nombró
anteriormente, en la clasificación de texto [33], [36], sin embargo, SVM es más complejo,
por lo tanto, exige mayores consumos de tiempo y memoria durante la etapa de
entrenamiento y la etapa de clasificación [23].
Luego de tener en cuenta la clasificación de textos como se discutió en los estudios
anteriores, es fundamental combinarla con la clasificación de textos multi-etiqueta ya que
este trabajo contiene una cantidad importante de clases. Wang et al. [37] diseñó un
algoritmo basado en razonamiento llamado Multi-Label Reasoner (ML-Reasoner) para la
tarea de clasificación multi-label, en este estudio trabaja con técnicas como Convolutional
neural network (CNNs), Recurrent Neural Network (RNN), una versión más avanzada de
RNN como Long short-term memory (LSTM), Bidirectional Encoder Representations from
Transformers (BERT), Binary relevance (BR), Classifier chains (CC), Label Powerset (LP
) y otros algoritmos que han sido adaptados de SVM. [37] muestra los mejores resultados
usando la red LSTM con 77.60% de precisión con 54 categorías diferentes en un conjunto
de datos.
En este punto, vale la pena hablar de los estudios realizados en esta rama enfocados al área
de soporte y servicio al cliente en las empresas, es por este motivo que se tiene en cuenta a
Y. Xu et al. [38], donde explican que la AI en el contexto del servicio al cliente se encarga
22

de brindar recomendaciones, alternativas y soluciones personalizadas a los mismos. Este
trabajo expone un experimento que muestra si los consumidores de un banco prefieren
aplicaciones de servicio al cliente en la línea de AI o directamente con humanos. Los
resultados muestran que, en el caso de tareas de baja complejidad, los consumidores
consideraban que la capacidad de resolución de problemas en la línea de AI era mayor que
la del servicio al cliente humano, sin embargo, para tareas de alta complejidad,
consideraban que el servicio al cliente humano era superior y era más probable que lo
usaran que la línea de IA. De modo que, para aplicar AI en las empresas, el modelo
desarrollado debe estar muy bien entrenado y ser capaz de resolver problemas a los clientes
tanto de alta como de baja complejidad. Por este motivo, se hace necesario enfocarse en
procesos de clasificación y categorización de textos adecuados y acordes a los datos
relacionados con los clientes.
Por otro lado, M. Raza et al. [39] se centran en la realización de un análisis de las opiniones
de clientes relacionadas con los productos Software como Servicio (SaaS). Los autores
usaron once enfoques tradicionales de clasificación de aprendizaje automático para lograr
esta tarea y probar el rendimiento de cada uno de ellos. Este estudio es importante ya que
no solo determinaron los mejores parámetros para cada algoritmo de aprendizaje, sino que
también usaron un conjunto de datos desequilibrado en términos de distribución de la
muestra por clase, lo cual es de gran utilidad para tener como referencia en los datos a
procesar en este trabajo ya que cuentan con las mismas características.
Finalmente, se puede hablar de otro tipo de búsquedas de textos como lo expone S. A.
Pérez at al. [40] en su trabajo, que tiene como objetivo la implementación de un sistema de
clasificación automática de textos de opiniones realizadas por clientes de cierta compañía.
Lo que se hizo en este desarrollo fue clasificar las opiniones según categorías establecidas
(Pregunta, Sugerencia, Información Usuarios, Otras e Información Empresa), y aplicaron
diferentes técnicas de ML en las que incluyeron DT, SVM, KNN y algunas variantes del
modelo de NB. A partir de la aplicación de las diferentes técnicas nombradas, para este
caso se evidencia que obtuvieron los mejores resultados y mayor porcentaje de eficiencia
23

con el modelo de DT y nuevamente con el método de SVM mediante la representación
binaria.
Esta revisión de antecedentes ha permitido entender las técnicas supervisadas de ML más
comunes enfocadas en la TC, además de encontrar las técnicas que tienden a brindar
mayores desempeños para las tareas relacionadas con este problema de clasificación. Se
concluye que es de gran importancia realizar procesos de NLP, reducción de características
y transformación de características para que los resultados de desempeños obtenidos
puedan crecer de manera significativa [41]. Además, se ha podido evidenciar que existen
pocos estudios que relacionen técnicas de analítica de datos enfocado en las empresas y
clasificación multi-etiqueta que promuevan la mejora continua a partir de soluciones de ML
e AI para brindar soluciones de una manera más rápida y eficiente al cliente; uno de los
objetivos de mayor importancia del presente trabajo.

3 ÁREA PROBLEMÁTICA Y PREGUNTA DE INVESTIGACIÓN
3.1 DESCRIPCIÓN DEL ÁREA PROBLEMÁTICA
El desarrollo de la tecnología junto con el gran crecimiento que ha tenido el internet
impactó profundamente el desarrollo de diferentes ámbitos en el mundo en que vivimos,
estos dos fenómenos trajeron consigo un cambio trascendental donde cada individuo puede
recibir y enviar información a través del internet desde cualquier lugar y en cualquier
momento, incluso almacenar y manejar esta información. La recopilación de datos ha
permitido un gran avance en la tecnología, específicamente en el campo de la AI. En
Colombia se han adoptado marcos normativos y éticos vinculantes que respondan de
manera directa a la implementación de la AI en el sector público, sin embargo, se debe
considerar cómo deben incorporarse estos marcos éticos en el proceso de toma de
decisiones en el sector público y el privado [42].
La AI no solo ha permitido posicionar las empresas en mercados internacionales, sino que
también ha servido de herramienta para el uso de la tecnología en las empresas. Ante la
realidad planteada surge el campo de la ciencia de datos, ya que una de las ramas de la AI
se caracteriza por la utilización de herramientas propias del NLP como es el caso del
análisis de texto y los sentimientos en las opiniones de los usuarios [43].
En la actualidad, las grandes bases de datos se han convertido en uno de los recursos
productivo más importante para las organizaciones; su gestión y procesamiento a través de
la ciencia de datos permite la detección de tendencias invisibles o complicadas de detectar
por un analista. Esto se traduce en un aumento de la productividad al permitir identificar
patrones ineficientes y aplicar las soluciones correspondientes desde el análisis de datos ara
mejorar toda la cadena productiva [44]. Si una base de datos se gestiona adecuadamente, la
organización obtendrá diferentes ventajas: aumentará su eficacia, realizará los trabajos con
mayor rapidez y agilidad, simplificará los procesos, mejorará la protección y seguridad de
los datos que se almacenan y maximizará los tiempos y la productividad con efectos en la
competitividad a un mayor nivel de la compañía [45].
25

Para manejar una base de datos textuales apropiadamente mediante AI se requieren de
técnicas de NLP para realizar una limpieza adecuada de los datos trabajados y encontrar
similitudes e importancias de palabras entre párrafos o cantidades significativasde textos,
allí es donde radica el objetivo de vincular el NLP con la AI a partir de técnicas de ML para
que sirvan de herramientas conjuntas tanto en el procesamiento de conjuntos de datos
textuales como en la clasificación de múltiples categorías. Partiendo de este análisis y
pruebas posteriores de funcionamiento, estos resultados de investigación se aplicarán
localmente a una empresa colombiana.
En este sentido, es la empresa SIGMA Ingeniería S.A donde se aplicaron los conocimientos
aprendidos a partir de esta investigación. Esta empresa tiene como punto de partida de su
labor, el manejo de datos dentro de los sectores que se abarcan en sus líneas de negocio
conocidas como Geolumina, Geoaseo y Geoambiental. Los requerimientos, incidentes y
peticiones presentados por parte del cliente son atendidos mediante una herramienta
organizacional denominada Timework, que permite conocer, gestionar y controlar las
solicitudes de los clientes. Esta herramienta permite registrar los tiempos de las actividades
ejecutadas, priorizaciones de los equipos de trabajo, gestión de compromisos, gestión de
riesgos y planeación estratégica; adicionalmente, genera datos diarios de todos los equipos
de trabajo, con el fin de medir la operación para mejorar la productividad, la eficiencia y
desarrollar procesos de mejora continua.
En su tiempo de operación de 4 años, la plataforma cuenta con aproximadamente 15.000
datos o tickets de servicio generados por la organización y los equipos de trabajo de soporte
técnico. Estos tickets de servicio describen todas las actividades y procedimientos llevados
a cabo para la solución de los requerimientos presentados y resultan fundamentales para
darle orden a la gestión de procesos internos de la empresa, encontrar patrones y predecir
comportamientos.
Sin embargo, SIGMA Ingeniería S.A ha identificado por medio de esta herramienta una
insatisfacción por parte del cliente debido al incumplimiento del tiempo de respuesta
estimado para la solución de requerimientos y solicitudes. Esto se debe a que la empresa no
cuenta con bases de datos que almacenen los protocolos establecidos para la solución de los
26

requerimientos presentados por parte del cliente. Por este motivo, se hace necesario contar
con un modelo computacional aplicado al ML que permita clasificar todos los
requerimientos y peticiones en diferentes categorías. Estas categorías tendrán relación
directa con las diferentes solicitudes que puede presentar el cliente y cada categoría
brindará los protocolos a seguir para darle una solución satisfactoria en tiempo y en calidad
al cliente por parte del área de soporte técnico de la empresa [46].
Este modelo computacional le permitirá al área de soporte técnico encontrar de manera
eficiente y rápida la solución que le debe brindar al cliente sin necesidad de escalamientos y
reprocesos; que son la causa principal del incumpliendo en los tiempos de solución
pactados hacia el cliente y, por consiguiente, la razón directa de su insatisfacción.
3.2 HIPÓTESIS DE LA INVESTIGACIÓN
En base a la problemática expuesta surge la siguiente hipótesis:
El uso de arquitecturas computacionales basadas en técnicas de ML y NLP será
beneficioso para la clasificación de requerimientos de clientes en múltiples categorías
para la futura automatización de procesos y protocolos de solución brindados por el
área de servicio y soporte técnico en las empresas.
3.3 FORMULACIÓN DEL PROBLEMA
Del planteamiento anterior surge la pregunta:
• ¿Cómo automatizar la clasificación de múltiples categorías y protocolos de solución
del área de servicio y soporte técnico en empresas utilizando técnicas de ML y
NLP?

4 JUSTIFICACIÓN
La AI es uno de los componentes reconocidos por su potencial para transformar de manera
27

radical la forma como hoy vivimos, pues hace posible que las máquinas aprendan de la
experiencia, se ajusten a nuevas aportaciones y realicen tareas como seres humanos [1]. Por
lo tanto, empleando estas tecnologías, las computadoras pueden ser entrenadas para realizar
tareas específicas y procesar grandes cantidades de información mediante el
reconocimiento de patrones en los datos.
La IA, tiene un gran potencial para acelerar el progreso de los Objetivos de Desarrollo
Sostenible (ODS) [47]. Un equipo de Científicos del Instituto Andaluz de Investigación en
Data Science and Computational Intelligence (DaSCI) de la Universidad de Granada
(UGR), junto a la compañía Ferrovial y la Real Academia de la Ingeniería (RAI), han
realizado un estudio que evidencia cómo la ingeniería y la implantación de soluciones
tecnológicas fuertemente ancladas en la AI favorece el progreso de los 17 ODS [48]. Esto,
debido a que la AI está optimizando métodos de razonamiento y ejecución más precisos,
seguros y eficientes, en diversas tareas y ámbitos, por lo que diferentes organismos
internacionales, entre ellos la Organización para la Cooperación y el Desarrollo Económico
(OCDE) y la Organización de las Naciones Unidas (ONU) han destacado el papel relevante
que estas tecnologías pueden tener para su cumplimiento [49].
El valor social que los datos han creado en los últimos años supone un nuevo uso de la
información que se genera mediante servicios tecnológicos, uno de estos servicios es la
minería de datos; que es el proceso de hallar anomalías, patrones y correlaciones en grandes
conjuntos de datos para predecir resultados [50]. Los beneficios que se obtienen de la
minería de datos a partir de la TC y el ML tienen gran importancia en el entorno
empresarial altamente competitivo de hoy en día. Todo ello, es debido a que la minería de
datos descubre información útil que contribuye a la toma de decisiones tácticas y
estratégicas para detectar los datos claves que permite encontrar, atraer y retener a los
clientes y reducir el riesgo de perderlos. Así mismo, las empresas pueden mejorar la
atención al cliente a partir de la información obtenida, abre nuevas oportunidades de
negocios y además, ahorra costes a las empresas [51].
28

El ML enfocado a las empresas, es un campo de investigación y aplicación prometedor
dado que cada vez las organizaciones están más interesadas en aprovechar las grandes
cantidades de datos e información del que disponen. Las técnicas de recuperación de la
información y de aprendizaje automático facilitan la tarea de extracción de conocimiento,
por lo que no solo permite hacer un análisis profundo de todos los datos, sino que a través
de los algoritmos desarrollados dota a los ordenadores de la capacidad de identificar
patrones que brinden información y conocimiento relevante dentro de las empresas [46].
Esta investigación se centra en organizaciones que quieran valorizar sus datos y tomar
decisiones más acertadas, que les permita ser eficientes en los diferentes procesos internos
y externos debido a los incrementos en la capacidad, agilidad del procesamiento y análisis
de la información. A partir de este desarrollo, se pretende generar la capacidad en las
empresas de responder a condiciones cambiantes de la manera más rápida y óptima posible,
lo cual es clave en el desarrollo empresarial, mantenimiento y crecimiento de los negocios.
El factor de novedad de esta investigación está enfocada al ámbito empresarial, ya que
propone implementar un modelo computacional de clasificación en las empresas donde el
ML pueda descubrir ideas y patrones ocultos en los datos de la entidad. Esto con el fin de
incrementar la satisfacción del cliente a través de la revisión de registros históricos para
analizar su comportamiento y brindar correctamente la solución esperada a las incidencias
presentadas. Esta práctica reduce el costo y la cantidad de tiempo invertido en la gestión
relacional con el consumidor potencial.
Este trabajo le pretende dar solución a la dificultad a la que se enfrenta SIGMA IngenieríaS.A, donde por medio de diferentes técnicas de analítica de datos y la correcta
implementación del NLP permita al área de soporte técnico interactuar con un modelo
computacional que le brinde por un lado la categoría a la que pertenece dicho
requerimiento; las cuales están divididas en 41 categorías, por otra parte, que le brinde
automáticamente los diferentes protocolos de solución a estos requerimientos con un alto
grado de confiabilidad y en tiempos cortos, lo que conlleva a una reducción significativa en
el tiempo tomado por el área de soporte técnico en brindar una respuesta y solución al
29

cliente.
El uso y aplicación del ML e AI se ha convertido en una herramienta de gran utilidad para
los negocios al poder mejorar las operaciones comerciales y el análisis de variables
importantes para la organización. Es así como las empresas pueden obtener múltiples
beneficios al acceder al ML y convertirlo en un aliado estratégico de los procesos al poder
resolver problemas complejos y predecir comportamientos del mercado, de los clientes y de
diferentes grupos de interés [46].

5 REFERENTE TEÓRICO
5.1 REFERENTE CONCEPTUAL
En esta sección se explican los conceptos más relevantes a tener en cuenta para el
desarrollo del trabajo, los términos se presentan en orden lógico de tal manera que se pueda
brindar una mejor comprensión entre los conceptos brindados y, un mejor entendimiento
del proceso a realizar en la sección de metodología (ver Sección 7.)
Nivel TRL:
Los Niveles de Madurez de la Tecnología o Technology Readiness Levels (TRLs) han
empezado a usarse en las convocatorias como una guía para definir las fases de un proyecto
de Investigación y Desarrollo para la creación de innovaciones.
El nivel TRL es una medida para describir la madurez de una tecnología. Este concepto
surge en la NASA, pero se ha generalizado para ser utilizado en el desarrollo de proyectos
de cualquier tipo de industria y no sólo para proyectos espaciales. En concreto, un TRL es
una forma aceptada de medir el grado de madurez de una tecnología [52]. La Figura 2
muestra los nueve niveles tecnológicos.
Figura 2. Infografía de la escala de los niveles tecnológicos.

Adaptado de [53].
31

Específicamente es al TRL 4 al que pertenece el presente trabajo, el TRL 4 o validación de
sistema en un entorno de laboratorio [54], es el primer paso para determinar si los
componentes individuales funcionarán juntos como un sistema. El sistema de laboratorio
será una combinación de pruebas piloto capaces de ejecutar todas las funciones planteadas
dentro del alcance del proyecto para la empresa SIGMA Ingeniería S.A y se espera que el
modelo presente pruebas superadas de factibilidad en condiciones de operación y
funcionamiento simuladas.
Técnicas de ML:
En 1956, en una conferencia en la Universidad de Dartmouth, se propuso formalmente el
término "inteligencia artificial". Ese momento fue el primer paso en un nuevo tema de
estudio de cómo las máquinas aprenden de la experiencia y simulan actividades de
inteligencia humana [1]. El desarrollo de la AI ha aportado enormes beneficios económicos
y sociales a la humanidad, muchos académicos iniciaron investigaciones relacionadas con
AI desde finales del siglo XX donde utilizan computadoras para simular comportamientos
humanos inteligentes y entrenan a las computadoras para que aprendan también
comportamientos humanos como el análisis y la toma de decisiones [55]. Una de las ramas
de la AI basada en la idea de que los sistemas pueden aprender de datos, identificar
patrones y tomar decisiones con mínima intervención humana es llamado ML [1]; consiste
básicamente en automatizar, mediante distintos algoritmos, la identificación de patrones o
tendencias que se “esconden” en los datos, estos distintos algoritmos permiten resolver
problemas tanto de clasificación como de agrupamiento y de regresión [56]. Los tipos de
implementación de ML pueden clasificarse en diferentes categorías uno de ellos son:
Aprendizaje Supervisado:
En el aprendizaje supervisado, los algoritmos trabajan con datos “etiquetados”, intentando
encontrar una función que, dadas las variables de entrada (input data), les asigne la etiqueta
de salida adecuada. El algoritmo se entrena con un “histórico” de datos y así “aprende” a
asignar la etiqueta de salida adecuada a un nuevo valor, es decir, predice el valor de salida
[57].
32

Las técnicas de ML que destacan para resolver tareas de clasificación son: SVM, Árboles
Adicionales (ET), RF, LR, LDA, NB y KNN [33], [58], [59].
LR. La regresión logística es un proceso de modelado de la probabilidad de que exista una
determinada clase o evento. La LR utiliza la función logística para modelar una variable
dependiente binaria. Esto se puede aplicar al uso de este modelo con clases o eventos más
complejas que involucran más de dos categorías [60][5].
La función logística, representa una curva en forma de “S” que toma cualquier valor
numérico real y lo mapea entre valores de 0 y 1 [39] . LR se basa en suposiciones sobre la
relación entre las variables dependientes e independientes. La distribución condicional
usada en este modelo es una distribución de Bernoulli, ya que la variable dependiente tiene
la forma de una variable binaria (presencia o ausencia de deslizamientos) [61]. En el
análisis de regresión logística, la relación entre el evento y su dependencia se puede
expresar mediante la Ecuación 1.
𝑦 =
1
1+𝑒−𝑧 (1)
Donde “z” es cualquier valor numérico que se pretende transformar y mapear entre 0 y 1 y
“y” es la probabilidad de ocurrencia de un evento. La LR implica ajustar una ecuación de la
siguiente forma (ver Ecuación 2) a los datos.
𝑧 = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + ⋯ + 𝑏𝑛𝑥𝑛 (2)

donde 𝑏0 es la intersección del modelo, 𝑏𝑖(i = 0, 1, 2, ..., n) son los coeficientes de
pendiente del modelo de LR y 𝑥𝑖 (i = 0, 1, 2, ..., n) son las variables independientes. El
modelo lineal formado es finalmente una regresión logística de presencia o ausencia de las
condiciones presentes (variables dependientes) sobre las condiciones previas a la falla
(variables independientes) [61][49] .
LDA. El análisis discriminante lineal es un método utilizado para encontrar una
combinación lineal de características que separa dos o más clases [62]. La técnica LDA se
usa comúnmente para la clasificación de datos y la reducción de dimensionalidad
[63][5][64]. Este enfoque trata de encontrar la dirección de proyección en la que datos
https://ezuam.autonoma.edu.co:2058/science/article/pii/S0167739X19300196#b49
33

pertenecientes a diferentes clases se separan al máximo. Matemáticamente, trata de
encontrar la matriz de proyección o los pesos de los eventos de tal manera que la relación
entre la matriz de dispersión entre clases y la matriz de dispersión dentro de las clases
proyectadas se maximice. A diferencia de los algoritmos basados en PCA, la técnica LDA
considera la pertenencia a clases para la reducción de dimensiones [65].
DT. Modelo de clasificación mediante la construcción de un árbol de decisión, está en la
capacidad de realizar clasificaciones multiclase [66]. Este algoritmo predice el valor de una
variable objetivo mediante el aprendizaje sucesivo de reglas de decisión simples que se
deducen de las bases de datos. Esta estrategia de clasificación se puede describir mediante
la Figura 3. Para empezar, el árbol se codifica como una cadena de símbolos de manera que
existe una relación única entre la cadena y el árbol de decisión. La cadena se decodifica en
la computadora y se configuran punteros para definir la ruta de clasificación adecuada para
cada muestra de datos.
En general, un árbol de decisión consta de un nodo raíz, varios nodos interiores y varios
nodos terminales u hojas. El nodo raíz y los nodos interiores están vinculadosa etapas de
decisión y los nodos terminales u hojas representan las clasificaciones finales (ver la Figura
3). En el nodo raíz se encuentra todo el conjunto completo de clases en las que se puede
clasificar una muestra. Cada nodo interior consta de un conjunto de clases a clasificar el
conjunto de características a utilizar y la regla de decisión para realizar la clasificación y
finalmente las hojas cuentan con una clase única que suman la totalidad de las clases a
clasificar [5], [67].

Figura 3. Estructura básica del DT.
34

Adaptada de [67] [68].
RF. Este modelo funciona mediante la construcción de una multitud de árboles de decisión,
es un método tanto para clasificación como para regresión [69]. RF crea múltiples árboles
de decisión y los fusiona para generar una predicción más precisa y estable, la clase
resultante es el resultado seleccionado por la mayoría de los árboles de decisión [70] (ver
Figura 4).
En general, el uso de un clasificador de RF para la clasificación incluye cuatro pasos:
1. Seleccionar muestras aleatorias de un conjunto de datos dado.
2. Construir un árbol de decisión para cada muestra.
3. Obtener un resultado de predicción de cada DT.
4. Seleccionar la predicción con más votos o con más coincidencias entre todos los
resultados de los DT como la clasificación final [30].

Figura 4. Estructura básica de un RF.
35

Adaptada de [68].
ET. Este modelo funciona mediante la construcción de una multitud de árboles de decisión
como la técnica RF, ET también es un método para clasificación y regresión [69]. La
diferencia es que el modelo ET agrega más aleatoriedad al proceso de entrenamiento del
modelo mediante el uso de umbrales de decisión aleatorios para cada característica [71] [5].
La mejor división en un nodo interno la encuentra seleccionando al azar un solo umbral de
decisión para cada característica y a partir de sus divisiones aleatorias, selecciona la que
conduce al mayor aumento en la puntuación utilizada. Un mayor grado de aleatoriedad
durante el entrenamiento produce árboles más independientes y, por lo tanto, disminuye
aún más la varianza [72].
Sus dos diferencias principales con otros métodos de conjuntos basados en árboles son que
divide los nodos internos eligiendo puntos de corte completamente al azar y que utiliza toda
la muestra de aprendizaje para hacer crecer todos los árboles.
Los resultados de las predicciones de todos los árboles se acumulan para producir la
predicción final a partir del campo más votado para problemas de clasificación y el
promedio aritmético de los resultados de cada árbol en problemas de regresión [71].
KNN. Es un método de clasificación no paramétrico que se utiliza también para
36

clasificación y regresión. El modelo clasifica las muestras haciendo uso de los datos
vecinos. Al evaluar una muestra, el modelo puede asignar pesos a las contribuciones de los
vecinos. La elección óptima del valor de k depende en gran medida de los datos, este valor
k representa la cantidad de instancias más similares y cercanos a la muestra evaluada: una k
más grande suprime los efectos de ruido, pero hace que los límites de clasificación sean
menos claros [73] [5]. El algoritmo KNN memoriza y representa todo el conjunto de datos.
Las predicciones se realizan calculando la similitud entre una muestra de entrada y cada
instancia de entrenamiento [74].
Para clasificar una muestra nueva y además desconocida, KNN calcula la distancia entre la
nueva instancia y otras instancias en el espacio de funciones [39], estas distancias se
pueden calcular usando diferentes métricas como:
Distancia Euclidiana: la distancia euclidiana entre un punto “a” y “b” se calcula como la
raíz cuadrada de la suma de sus diferencias al cuadrado en todos los atributos de entrada i
(ver Ecuación 3).
𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝐸𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 (𝑎, 𝑏) = √∑ (𝑎𝑖 − 𝑏𝑖)2𝑛
𝑖=1 (3)

Distancia de Manhattan: la distancia de Manhattan calcula la distancia entre dos puntos o
vectores utilizando la suma de su diferencia absoluta. Esta distancia también es conocida
como geometría del taxista (ver Ecuación 4).
𝐷𝑖𝑠𝑡𝑎𝑛𝑐𝑖𝑎 𝑀𝑎𝑛ℎ𝑎𝑡𝑡𝑎𝑛 (𝑎, 𝑏) = ∑ |𝑎𝑖 − 𝑏𝑖|
𝑛
𝑖=1 (4)

Distancia de Minkowski: La distancia de Minkowski es la generalización de la distancia
euclidiana y de Manhattan como se indica en la Ecuación 5.
𝑀𝑖𝑛𝑘𝑜𝑤𝑠𝑘𝑦 𝐸𝑢𝑐𝑙𝑖𝑑𝑖𝑎𝑛𝑎 (𝑎, 𝑏) = (∑ |𝑎𝑖 − 𝑏𝑖|
𝑝𝑛
𝑖=1 )
1
𝑝 (5)

El valor de p en la distancia de Minkowski puede tomar valores de 1 o 2; si toma un valor
de 1 es igual a la distancia de Manhattan y si toma el valor de 2 a la distancia euclidiana
[39].
https://ezuam.autonoma.edu.co:2058/topics/computer-science/euclidean-distance
https://ezuam.autonoma.edu.co:2058/topics/computer-science/minkowski-distance
https://ezuam.autonoma.edu.co:2058/topics/computer-science/generalization
37

El número k de vecinos se selecciona se selecciona con el que tiene la distancia más baja de
la nueva instancia. Este método también se aplica a conjuntos de datos con 2 o más número
de clases.
SVM. La máquina de soporte de vectores resuelve tanto clasificación lineal y no lineal
como análisis de regresión. Este modelo funciona mejor para conjuntos de datos pequeños
y medianos. La idea fundamental de la clasificación con SVM es separar clases
manteniendo el límite de decisión lo más lejos posible de las muestras de entrenamiento
más cercanas. [69], [75]. En la Figura 5 se muestra un caso de dos clases con un hiperplano
de separación óptimo y un margen máximo. Si las dos clases son linealmente separables, el
hiperplano óptimo que separa los datos se puede expresar como la Ecuación 6.
𝑔(𝑥) = 𝑤𝑇 ∗ 𝑥 + 𝑏 = 0 (6)
Donde w es un vector normal que es perpendicular al hiperplano y b es el desplazamiento
del hiperplano. SVM optimiza w y b para maximizar la distancia entre los hiperplanos
paralelos mientras sigue separando los datos.

Figura 5. Concepto de una máquina de vectores de soporte de dos clases.
38

Adaptada de [30]
El SVM se implementa utilizando diferentes núcleos. El kernel más utilizado para
implementar SVM se llama kernel SVM lineal. Además del núcleo lineal SVM, otros
núcleos como el núcleo polinomial SVM y el núcleo de función de base radial (RBF), se
pueden utilizar en escenarios más complejos de TC. En este trabajo se utiliza el núcleo
RBF, al mostrar un mejor rendimiento en los datos que no se pueden separar linealmente en
el espacio [30]. Adicionalmente, el SVM no se limita a problemas de clasificación de dos
clases, sino que también se puede utilizar para la clasificación de problemas multiclase
siendo reconocido como uno de los métodos de TC más eficaces [76], [77], [5].
NB. Este clasificador probabilístico utiliza el teorema de Bayes [78]. El modelo
individualiza cada característica de la muestra de la que ninguna muestra será dependiente
(suponiendo que la probabilidad de las características sea gaussiana). En otras palabras,
cada pieza puede presentar una probabilidad de pertenecer a un grupo específico sin la
presencia de las diferentes muestras [5].
De la notación general del teorema de Bayes, la probabilidad de que una muestra de texto x
pertenezca una clase c es mostrada en la Ecuación 7.
𝑃(𝑐|𝑥) =
𝑃(𝑐)𝑃(𝑥|𝑐)
𝑃(𝑥)
(7)
39

Donde;
𝑃(𝑐|𝑥): es la probabilidad de que una muestra x pertenezca a una clase c
𝑃(𝑐): es la probabilidad de que la clase c sea verdadera.
𝑃(𝑥|𝑐): es la probabilidad de observar que la muestra x pertenece a la clase c
(verosimilitud).
𝑃(𝑥): es la probabilidad de la muestra x independientemente de cualquier clase.
Para la clasificación de texto multiclase, el clasificador probabilístico creado con el enfoque
ingenuo de Bayes da comoresultado la clasificación del texto en función de la presencia de
palabras en cada muestra de texto y la asignación a diferentes clases [79],[39]. En otras
palabras, Naïve Bayes permite estimar la probabilidad de un suceso a partir de la
probabilidad de que ocurra otro suceso, del cual depende el primero [40].
Procesamiento de lenguaje natural (NLP):
El NLP es una rama de la AI que ayuda a las computadoras a entender, interpretar y
manipular el lenguaje humano, toma elementos prestados de muchas disciplinas,
incluyendo la ciencia de la computación y la lingüística computacional, en su afán por
cerrar la brecha entre la comunicación humana y el entendimiento de las computadoras [3].
El NLP es el enfoque computarizado para analizar texto que se basa tanto en un conjunto de
teorías como en un conjunto de tecnologías, por una parte A. Chopra et al. [80] ofrece la
siguiente definición:
“El NLP es una gama de técnicas computacionales motivadas teóricamente para analizar y
representar textos que ocurren naturalmente en uno o más niveles de análisis lingüístico con
el fin de lograr un procesamiento del lenguaje similar al humano para una variedad de
tareas o aplicaciones”. Por otro lado, S. Jusoh et al. [81] explica que el NLP es un
subcampo de la AI y lingüística, dedicado a hacer que las computadoras comprendan las
declaraciones o palabras escritas en lenguajes humanos.
40

Con respecto al área de investigación el NLP es un área de aplicación que explora cómo se
pueden utilizar las computadoras para comprender y manipular el texto en lenguaje natural.
Los investigadores en esta área tienen como objetivo recopilar conocimientos sobre cómo
los seres humanos comprenden y usan el lenguaje de modo que se puedan desarrollar
herramientas y técnicas de adaptación para que los sistemas informáticos comprendan y
manipulen los lenguajes naturales para realizar tareas determinadas [82].
Los fundamentos de esta técnica se encuentran en varias disciplinas como informática y
ciencias de la información, lingüística, matemáticas, ingeniería eléctrica y electrónica,
inteligencia artificial y robótica, psicología, etc. Las aplicaciones incluyen una serie de
campos de estudio, como traducción automática, procesamiento y resumen de textos en
lenguaje natural, interfaces de usuario, multilingües y recuperación de información en
varios idiomas, reconocimiento de voz, entre otros. [82].
Técnicas de NLP para pre-procesamiento de texto:
Eliminación de Stop Words:
El análisis de texto requiere varios pasos de pre-procesamiento para estructurarlo y extraer
características [83], para empezar, se debe tener en cuenta que no todas las palabras en un
documento pueden usarse para entrenar a un algoritmo de clasificación [10]. Hay palabras
irrelevantes como verbos auxiliares, preposiciones, conjunciones y artículos que no brindan
significados por sí solos. Estas palabras se denominan stop words, algunos ejemplos de
estas palabras son: la, los, arriba, con, cuándo, además, qué, entre otros. Existen listas de
dichas palabras [84] que se eliminan como una tarea de preproceso. El motivo por el que se
deben eliminar las palabras vacías de un texto es que hacen que el texto parezca más pesado
y menos importante para los analistas. La eliminación de las palabras vacías reduce
significativamente la dimensionalidad de los datos e información a procesar.

Estemizado:
El estemizado es una técnica de normalización sencilla, que a menudo se implementa como
https://ezproxy.autonoma.edu.co:2065/topics/computer-science/preprocessing-step
41

una serie de reglas que se aplican progresivamente a una palabra para producir una forma
normalizada [9]. Este método se utiliza para identificar la raíz de una palabra. Por ejemplo,
las palabras conectar, conectado, conectó, conectará, todas pueden derivarse de la raíz
"conect". El propósito de este método es eliminar varios sufijos, para reducir el número de
palabras, para ahorrar tiempo en el procesamiento y reducir espacio en la memoria. Esto se
ilustra en la Figura 6.
Algo importante que se debe tener en cuenta acerca del estemizado es que no se requiere
que la palabra normalizada sea válida, sino solo que las variaciones de la misma palabra se
asignen a la misma raíz, aunque pueda parecer contradictorio, esto no representa un
problema. El estemizado se utiliza principalmente para indexar documentos en un motor de
búsqueda, por lo que estas raíces, que pueden ser palabras no válidas, solo se procesan
internamente para buscar documentos y nunca se muestran al usuario, por lo que, para el
caso de este estudio, al tener relación directa con los usuarios es imprescindible conocer
también la técnica Lemmatization (Lematización).
Figura 6. Proceso de Estemizado

Elaboración propia

Lematización:
Se puede pensar en la lematización como una versión más sofisticada del estemizado ya
que no solo reduce la forma de la palabra, sino que además la reduce a su forma base
42

adecuada, donde dada una forma flexionada de la palabra, ya sea en plural, en femenino,
conjugada, entre otros (ver Figura 7), halla el lema correspondiente. El lema es la forma
que por convenio se acepta como representante de todas las formas flexionadas de una
misma palabra, de este modo se reduce el tamaño del conjunto de características inicial y
unifica todas las palabras a su raíz o lema [85].
Para hacer esto, los algoritmos de lematización dependen de la disponibilidad de
información de la parte del discurso en las palabras de entrada porque es posible que sea
necesario aplicar diferentes reglas de normalización, ya sea que la palabra sea un
sustantivo, verbo, adjetivo u otro.
En resumen, la lematización es casi siempre una mejor opción desde un punto de vista
cualitativo. Con los recursos computacionales actuales, la ejecución de algoritmos de
lematización no debería tener un impacto significativo en el rendimiento general. Sin
embargo, si estamos optimizando la velocidad, un algoritmo de estemizado puede ser una
posibilidad.
Figura 7. Proceso de Lematización

Elaboración propia
Extracción de características con TF-IDF:
Los datos de texto requieren una preparación especial antes de que se puedan comenzar a
usar para el modelado predictivo. Las palabras del texto deben codificarse como números
https://es.wikipedia.org/wiki/Flexi%C3%B3n_(ling%C3%BC%C3%ADstica)
https://es.wikipedia.org/wiki/Lema_(ling%C3%BC%C3%ADstica)
43

enteros o valores de punto flotante para usar como entrada de un algoritmo de aprendizaje
automático, llamado extracción de características o vectorización.
La extracción de características TF-IDF es una técnica de ponderación comúnmente
utilizada en el procesamiento de información y la minería de datos. Esta técnica utiliza un
método estadístico para calcular la importancia de una palabra en todo el corpus en función
del número de veces que la palabra aparece en el texto y la frecuencia de los documentos
que aparecen en todo el corpus [86]. Su ventaja es que puede filtrar algunas palabras
comunes pero irrelevantes, mientras retiene palabras importantes que afectan todo el texto.
Los dos componentes principales que afectan la importancia de un término en un
documento son el factor de frecuencia de término por sus siglas en inglés Term Frequency
(TF) y el factor de frecuencia de documento inverso por sus siglas en inglés Inverse
Document Frequency (IDF) [87]. La TF se refiere al número de veces que aparece una
palabra clave en todo el corpus y la IDF se utiliza principalmente para reducir el efecto de
algunas palabras comunes en todos los documentos que tienen poco efecto en el texto
analizado.
El valor TF-IDF de una palabra se calcula multiplicando el componente local TF y el
componente global IDF, cuanto mayor sea la importancia de una palabra para un artículo,
mayor será su valor TF-IDF.Por lo tanto, los primeros valores TF-IDF representan las
palabras claves del corpus que se esté trabajando [86].
Balanceo de datos:
El desbalanceo de datos en el ML se refiere a una distribución desigual de clases dentro de
un conjunto de datos. Este problema se encuentra principalmente en tareas de clasificación
en las que la distribución de clases o etiquetas en un conjunto de datos determinado no es
uniforme [88]. El método sencillo para resolver este problema es el método de remuestreo
agregando registros a la clase minoritaria o eliminando registros de la clase mayoritaria.
Cuando un conjunto de datos está desequilibrado es difícil obtener un modelo predictivo
significativo y confiable debido a la falta de información para aprender sobre el evento
44

minoritario, por lo tanto, aplicar balanceo de datos implica volver a muestrear para reducir
el desequilibrio de clases. Las dos técnicas básicas de muestreo incluyen el sobremuestreo
aleatorio o Random Oversampling (ROS) por sus siglas en inglés y el submuestreo
aleatorio o Random Undersampling (RUS) por sus siglas en inglés [8]. El sobremuestreo
duplica aleatoriamente las muestras de clases minoritarias, mientras que el submuestreo
descarta aleatoriamente las muestras de clases mayoritarias para modificar la distribución
de clases.
Balanceo al mayor o Sobremuestreo:
El sobremuestreo se puede realizar aumentando la cantidad de instancias o muestras de
clases minoritarias produciendo nuevas instancias o repitiendo algunas de ellas para igualar
en cantidad a las clases con mayor cantidad de muestras (ver Figura 8).
Figura 8. Proceso para balancear al mayor (Sobremuestreo)

Elaboración propia
Balanceo al menor o Submuestreo:
El submuestreo es el proceso de disminuir la cantidad de instancias o muestras objetivo de
las clases mayoritarias con el fin de tener una misma cantidad de datos entre todas las
clases a analizar y conseguir el balanceo entre categorías (ver Figura 9).
Figura 9. Proceso para balancear al menor (Submuestreo)
45

Elaboración propia
Métricas:
Evaluar algoritmos de aprendizaje automático es una parte esencial de cualquier proyecto,
ya que el modelo puede brindar resultados satisfactorios cuando se evalúa con una métrica,
pero puede dar resultados deficientes cuando se evalúa con otras métricas. La métrica más
común utilizada es llamada Accuracy para medir el rendimiento del modelo desarrollado,
sin embargo, no es suficiente para juzgar realmente el modelo. A continuación, se explican
unas de las métricas utilizadas para la evaluación de desempeño de los algoritmos de ML
según [6] y [89], para esto, es importante entender el significado de los siguientes cuatro
términos también brindados por [6]:
- Verdaderos positivos (TP, por sus siglas en inglés): los casos en los que se predijo
SÍ y la salida real también era SÍ.
- Verdaderos negativos (TN, por sus siglas en inglés): los casos en los que se
predijo NO y la salida real era NO.
- Falsos positivos (FP, por sus siglas en inglés): los casos en los que se predijo SÍ y
la salida real era NO.
- Falsos negativos (FN, por sus siglas en inglés): los casos en los que se predijo NO
y la salida real era SÍ.

Exactitud (Accuracy): es la relación entre el número de predicciones correctas y el número
total de muestras de entrada (ver Ecuación 8).
𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 =
𝑇𝑃+𝑇𝑁
𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁
(8)
Precisión: es una métrica que cuantifica el número de predicciones positivas correctas
realizadas. Se calcula como la proporción de verdaderos positivos predichos correctamente
dividida por el número total de verdaderos y falsos positivos predichos (ver Ecuación 9).
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃+𝐹𝑃
(9)
Sensibilidad (Recall): es una métrica que cuantifica el número de predicciones positivas
correctas realizadas a partir de todas las predicciones positivas que podrían haberse
realizado. Se calcula como la proporción de verdaderos positivos predichos correctamente
dividida por el número total de verdaderos positivos y falsos negativos que podrían
predecirse (ver Ecuación 10).
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃
𝑇𝑃+𝐹𝑁
(10)
Valor-F1 (F1-score): La puntuación F1 es la media armónica entre precisión y
sensibilidad. El rango de la puntuación F1 es [0, 1]. Le dice cuán preciso es su clasificador
(cuántas instancias clasifica correctamente), así como cuán robusto es (no pierde una
cantidad significativa de instancias).
Cuanto mayor sea el F1 Score, mejor será el rendimiento de nuestro
modelo. Matemáticamente, se puede expresar como la Ecuación 11.
𝐹1 − 𝑆𝑐𝑜𝑟𝑒 = 2 ×
1
1
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛
+
1
𝑟𝑒𝑐𝑎𝑙𝑙
(11)
Matriz de confusión (CM): Una matriz de confusión resume el número de predicciones
realizadas por un modelo para cada clase y las clases a las que realmente pertenecen esas
predicciones. Ayuda a comprender los tipos de errores de predicción que comete un
modelo.

Reporte de clasificación (CR): crea un reporte de texto que muestra las principales
métricas de clasificación, como precisión, Sensibilidad, Valor-F1 y soporte, este último es
el número de ocurrencias de la clase dada en el conjunto de datos [4], [5].

Curva ROC: El análisis de curvas ROC por sus siglas en inglés Receiver Operating
Characteristic curve o Característica Operativa del Receptor constituye un método
estadístico para determinar la exactitud diagnóstica de los datos etiquetados como test,
siendo utilizadas con tres propósitos específicos: determinar el punto de corte de una escala
continua en el que se alcanza la sensibilidad y especificidad más alta, evaluar la capacidad
discriminativa que los datos de test tienen para diferenciar categorías y comparar la
capacidad discriminativa de dos o más datos de test categorizados que expresan sus
resultados como escalas continuas [7].
En las curvas ROC, nos interesa que la curva se acerque lo máximo posible a la esquina
superior izquierda de la gráfica, de manera que el hecho de aumentar la sensibilidad
(Recall) no haga que nuestro modelo introduzca más falsos positivos.
5.2 REFERENTE NORMATIVO
A través de la Ley 1581 de 2012 y el Decreto 1377 de 2013, se desarrolla el derecho
constitucional que tienen todas las personas a conocer, suprimir, actualizar y rectificar todo
tipo de datos personales recolectados, almacenados o que hayan sido objeto de tratamiento
en bases de datos en las entidades del públicas y privadas [90].
Se requiere que se cumpla con todo el marco legal de Habeas Data; recurso de agravio
constitucional que protege dos derechos fundamentales: el derecho a la información y la
autodeterminación informativa o protección de datos personales; ambos, forman parte del
ámbito de los derechos humanos, reconocidos y protegidos por los Tratados Internacionales
y las Cartas Constitucionales de los diferentes países en los que impera el estado de derecho
[91].
SIGMA Ingeniería S.A está certificada bajo modelos internacionales de calidad CMMI-
48

DEV nivel 3 que supone el reconocimiento a los altos niveles de calidad y exigencia los
desarrollos y productos de hardware y software de la empresa, además, cuenta con
certificaciones como el ISO27000 que garantiza las buenas prácticas para el
establecimiento, implementación, mantenimiento y mejora de Sistemas de Gestión de la
Seguridad de la Información. Por lo tanto, requiere de permisos legales por parte de la
empresa para hacer uso de los datos con los que posee; que son imprescindibles para el
desarrollo y estudio del presente trabajo.

5.3 REFERENTE CONTEXTUAL
SIGMA Ingeniería S.A es una empresa de Manizales enfocada en el desarrollo de Software
de georreferenciación y Sistemas de Información Geográfica para la gestión pública en
Colombia de los sectores energético, sanitario y ambiental. La empresa