# 3.1. MariaDB orientado a columnas


### Introducción

Una BD orientada a columnas es un repositorio de gestión datos  que almacena su contenido por columnas, en lugar de por filas. 
La columna es el elemento  base y está compuesto por un nombre y  un valor.

<img src="imagenes/mariadb_diferencias.png"/>

Al mismo tiempo, hay que resaltar que este SGBD posee una arquitectura distribuida y escalable horizontalmente, lo que hace que su eficiencia sea mejor. 
Como podemos observar en la siguiente figura (obtenida de <a href="https://mariadb.com/resources/blog/built-in-statistical-functions-with-mariadb-platform-x3/" target="_blank">acá</a>), el almacenamiento es distribuído donde cada nodo posee columnas enteras o partes de ellas, según el requerimiento de espacio y rendimiento. Como podemos observar, cuando un cliente hace una consulta, el <code>MODULO DE USUARIO (UM)</code> la interpreta y divide el trabajo. Luego, los <code>MODULOS DE PERFORMANCE (PMs)</code> ejecutan los fragmentos de la consulta en paralelo
sobre los datos que tienen. Finalmente, UM recolecta los resultados y los devuelve al cliente.

<img src="imagenes/MariaDBColumnStore_arch.png"/>

<!-- https://mariadb.com/docs/columnstore/architecture/columnstore-storage-engine-overview -->


El manual de MariaDB orientado a columnas lo podemos encontrar <a href="https://mariadb.org/wp-content/uploads/2020/02/MariaDB-Day-Brussels-Why-do-I-need-columnar-storage_.pdf" target="_blank">aca</a>.

### Trabajamos con phpMyAdmin

Entramos al <a href="https://eida-db.fi.uncoma.edu.ar/phpmyadmin/" target="_blank">phpMyAdmin</a>. Como podemos observar en la interface Web, las tablas y BDs creadas son similares cuando estan orientadas a las filas y cuando lo estan a las columnas. Es decir visualmente se ven iguales. Sin embargo, podemos observar en las características de las tablas que fueron creadas orientadas a columnas, como vemos en la figura siguiente.

<img src="imagenes/mariadb_php.png"/>

Sin embargo, lo más importante es conocer qué operaciones son mejores y más eficientes en cada una de las opciones, como se vió en la teoría. 

### MariaBD: filas vs columnas

En la tabla siguiente podemos observar algunas de las categorías utilizadas para comparar ambos paradigmas. 


<style>
.table_component {
    overflow: auto;
    width: 100%;
}

.table_component table {
    border: 1px solid #dddedf;
    height: 100%;
    width: 100%;
    table-layout: fixed;
    border-collapse: collapse;
    border-spacing: 1px;
    text-align: center;
}

.table_component caption {
    caption-side: top;
    text-align: center;
}

.table_component th {
    border: 1px solid #dddedf;
    background-color: #7dabca;
    color: #000000;
    padding: 5px;
}

.table_component td {
    border: 1px solid #dddedf;
    background-color: #ffffff;
    color: #000000;
    padding: 5px;
}
</style>
<div class="table_component" role="region" tabindex="0">
<table>
    <caption></caption>
    <thead>
        <tr>
            <th>Funcionalidad o SQL</th>
            <th>Maria DB (InnoDB)</th>
            <th>MariaDB ColumnStore</th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td>Atomicidad individual (1 operación)</td>
            <td>Si, varias operaciones</td>
            <td>SI, una sola operación</td>
        </tr>
        <tr>
            <td>Transacciones (<code>BEGIN</code>, <code>COMMIT</code>, <code>ROLLBACK</code>)</td>
            <td>SI</td>
            <td>NO</td>
        </tr>
        <tr>
            <td>Aislamiento / control de concurrencia</td>
            <td>SI</td>
            <td>NO, se hace un LOCK completo al escribir, no hay LOCK al leer</td>
        </tr>
        <tr>
            <td>Consistencia</td>
            <td>Varias operaciones</td>
            <td>SI, una sola operación</td>
        </tr>
        <tr>
            <td>Índices (<code>CREATE INDEX</code>)</td>
            <td>SI</td>
            <td>No usa índices</td>
        </tr>
        <tr>
            <td>Durabilidad</td>
            <td>SI</td>
            <td>SI</td>
        </tr>
        <tr>
            <td>Actualizaciones (<code>UPDATE/DELETE</code>)</td>
            <td>Eficientes</td>
            <td>Lentas, conviene reemplazar la tabla</td>
        </tr>
        <tr>
            <td>Funciones agregadas (<code>SUM</code>, <code>AVG</code>, etc.)</td>
            <td>SI</td>
            <td>Eficiente en grandes volúmnes de datos</td>
        </tr>
        <tr>
            <td>Soporte OLTP (transacciones)</td>
            <td>SI</td>
            <td>No recomendado</td>
        </tr>
        <tr>
            <td>Procedimientos almacenados (<code>STORED PROCEDURE</code>)</td>
            <td>SI</td>
            <td>NO</td>
        </tr>
        <tr>
            <td>Triggers (<code>AFTER INSERT</code>, etc.)</td>
            <td>SI</td>
            <td>NO</td>
        </tr>
        <tr>
            <td>Rendimiento de inserciones masivas (<code>LOAD DATA</code>)</td>
            <td>SI, bueno</td>
            <td>SI, está optimizado para cargas masivas</td>
        </tr>
        <tr>
            <td></td>
            <td></td>
            <td></td>
        </tr>
        <tr>
            <td></td>
            <td></td>
            <td></td>
        </tr>
    </tbody>
</table>
</div>