TECHNOLOGY OVERVIEW

A deep dive into the architecture and methodology behind our AI prediction engine.

In Breve: La Nostra Tecnologia

Questa pagina descrive il modello AI di ModelMango. È un'architettura Transformer da 4.4M di parametri, pre-addestrata su dati di Bitcoin. Utilizza uno speciale meccanismo di "Memory-as-Context" (MAC) per adattarsi "al volo" a nuovi asset, permettendogli di raggiungere un'elevata precisione (circa 1.3% di errore medio MAPE) su migliaia di azioni, criptovalute e coppie forex con un'efficienza computazionale estrema.

1. INTRODUZIONE

Questo documento descrive in modo generale l'architettura e il funzionamento di MODELMANGO, un sistema avanzato di Intelligenza Artificiale (AI) progettato per analizzare serie storiche finanziarie, generare previsioni di prezzo (High, Low, Close) e fornire segnali di trading strategici (versione attualmente in beta e per uso privato)^(1)*. Il sistema combina un modello Transformer specializzato con meccanismi di memoria adattiva per catturare dinamiche complesse del mercato.

2. ARCHITETTURA GENERALE

Il sistema opera principalmente attraverso due componenti logiche integrate:

MODELMANGO PREDICTION
Modello AI di Previsione di Base^(1)*
- Responsabile del caricamento dei dati storici OHLCV (Open, High, Low, Close, Volume) per un asset specifico.
- Esegue una fase di preprocessing e feature engineering, trasformando i dati grezzi per estrarre informazioni significative.
- Utilizza un modello transformer chiamato TransformerTimeSeriesMACModel pre-addestrato per generare previsioni dei prezzi High, Low e Close per il giorno successivo (T+1).
MODELMANGO STRATEGY
Modello AI per le operazioni dirette sui mercati azionari: (utilizzabile solo per uso privato e per utenti selezionati)^(1)*
- Carica la propria configurazione specifica e i parametri.
- Utilizza le previsioni HLC di base generate dal modello precedente come input fondamentale.
- Carica dati storici OHLCV e le previsioni storiche generate in passato dal modello di base (storico delle predizioni generate dal modello MODELMANGO PREDICTION, per un determinato asset, dalla sua data di quotazione), per creare un set di feature più ricco.
- Esegue un feature engineering ancora più avanzato.
- Prepara i dati per l'inferenza, includendo un placeholder per il giorno T+1 con le previsioni di base.
- Carica il modello addestrato per le strategie.
- Esegue l'inferenza per ottenere:
  - Delta di aggiustamento per il prezzo di entrata (rispetto al Low previsto).
  - Delta di aggiustamento per un prezzo di uscita implicito (rispetto al Close previsto).
  - Una previsione di volatilità specifica del modello strategico.
- Calcola i livelli operativi:
  - Prezzo di Entrata Ottimizzato.
  - Prezzo di Stop Loss (basato sulla volatilità prevista e potenzialmente adattivo).
  - Prezzo di Take Profit (basato sulla volatilità, Rischio/Rendimento desiderato e potenzialmente sul delta di uscita).
- Applica una logica decisionale (basata su soglie configurabili per delta di uscita, volatilità e R/R) per determinare il segnale finale: LONG ENTRY o HOLD/NO ENTRY.
- Restituisce un dizionario strutturato con la decisione e tutti i parametri calcolati.

3. MODELLO DI BASE

Il cuore del sistema è un modello Transformer modificato, progettato specificamente per le serie storiche finanziarie:

Architettura Transformer: Sfrutta i meccanismi di auto-attenzione dei Transformer, eccellenti nell'identificare relazioni complesse e dipendenze a lungo termine nei dati sequenziali.
Memory as Context (MAC): Implementa un meccanismo di memoria ispirato a lavori recenti^(2)* per migliorare la gestione del contesto a lungo termine e l'adattamento:
- Memoria Persistente: Token "learnable" che mantengono informazioni generali e stabili nel tempo.
- Modulo di Memoria (M): Un MLP (Multi-Layer Perceptron) profondo che apprende a mappare query contestuali a rappresentazioni di memoria rilevanti (u_C).
- Aggiornamento Online: La memoria M viene aggiornata durante l'inferenza utilizzando un meccanismo basato sul gradiente della perdita tra la memoria recuperata per una key derivata dal chunk corrente e il value associato a quel chunk. Questo permette al modello di adattarsi rapidamente alle dinamiche recenti dell'asset specifico in esame, anche se non faceva parte del training principale. Utilizza fattori di momentum (eta), intensità del gradiente (theta) e forgetting (alpha) per un aggiornamento stabile.
- Memoria a Lungo Termine: Un buffer che accumula rappresentazioni dei chunk passati, interrogato per recuperare contesto aggiuntivo.
Convoluzioni 1D Depthwise-Separable: Applicate alle proiezioni di query, key e value prima dell'attenzione e dell'aggiornamento della memoria. Questo aiuta a catturare pattern locali e spaziali all'interno delle feature in modo efficiente.
Chunking: La sequenza di input viene processata in segmenti ("chunk") per gestire sequenze lunghe e permettere l'integrazione del meccanismo MAC ad ogni passo.

4. ADDESTRAMENTO

Il modello TransformerTimeSeriesMACModel di base è stato addestrato su un dataset storico di 5900 giorni di trading di Bitcoin (BTC-USD). Questo lungo periodo di dati su un asset noto per la sua volatilità e le sue dinamiche complesse (non esiste un sottostante, nel senso tradizionale del termine, per chiarezza andate alla nota ^(3)*) ha comunque permesso al modello di apprendere pattern fondamentali del comportamento dei mercati finanziari e quindi di generalizzare.

L'addestramento è stato eseguito su un MacBook Pro con le seguenti specifiche:

Processore: 2,9 GHz Intel Core i7 quad-core
RAM: 16 GB 2133 MHz LPDDR3
Grafica: Intel HD Graphics 630 1536 MB

Sebbene non sia una workstation GPU di fascia alta ma piuttosto un ferro da stiro (questo è quello che ho a disposizione), è sufficiente per addestrare un modello delle dimensioni di MODELMANGO (circa 4.4 milioni di parametri).

5. PERFORMANCE E GENERALIZZAZIONE

Nonostante l'addestramento primario su Bitcoin e le dimensioni relativamente contenute del modello (4,426,509 parametri), il sistema dimostra performance notevoli su un'ampia gamma di asset globali (circa 10000 asset tra azioni, criptovalute, indici, Forex), come evidenziato qua sotto dalle metriche MAPE (Mean Absolute Percentage Error) medie recenti sulle previsioni HLC di base:

MAPE Medio High Price: 1.26%
MAPE Medio Low Price: 1.31%
MAPE Medio Close Price: 1.38%

Su 41 asset diversi, tra cui: AAPL.US, MSFT.US, GOOGL.US, BTC-USD.CC, ETH-USD.CC, XOM.US, EURUSD.FOREX, GSPC.INDX, etc.

(Le performance del modello sono costantemente aggiornate e consultabili a questo indirizzo: https://www.modelmango.co/performance su un paniere di 41 asset suddivisi in categorie)

Come è possibile questa performance con un modello "piccolo" addestrato su un solo asset?

Diversi fattori concorrono a spiegare questa sorprendente capacità di generalizzazione:

Feature Engineering Robusto: Il preprocessing e la creazione di feature trasformano i prezzi grezzi in rappresentazioni più astratte che catturano dinamiche e pattern comportamentali (trend, momentum, mean reversion, volatilità) piuttosto che livelli di prezzo assoluti. Queste dinamiche sottostanti sono spesso "universali" tra diversi mercati finanziari, anche se si manifestano con intensità e scale diverse.
Apprendimento di Pattern Fondamentali: Addestrandosi su 5900 giorni di Bitcoin, un asset che ha attraversato molteplici regimi di mercato (bull, bear, laterali, alta/bassa volatilità), il modello ha avuto l'opportunità di apprendere questi pattern fondamentali di "price action" e le relazioni tra gli indicatori tecnici derivati.
Potenza dei Transformer: Anche con "soli" 4.4M di parametri, l'architettura Transformer è intrinsecamente potente nel modellare dipendenze complesse e non lineari all'interno delle sequenze di feature ingegnerizzate.
Adattamento tramite MAC: Il meccanismo di Memory-as-Context (MAC), e in particolare il suo "aggiornamento online" durante l'inferenza, gioca un ruolo cruciale. Permette al modello, addestrato sui pattern generali di Bitcoin, di "adattarsi dinamicamente" alle specificità dell'asset che sta analizzando. Quando processa un nuovo chunk di dati (il chunk consiste in una porzione di dati), ad esempio il titolo Apple (tramite prezzi storici ottenuti giornalmente con API EODHD), la memoria M si aggiorna leggermente per riflettere le dinamiche recenti, migliorando la pertinenza delle previsioni per quell'asset specifico. Il modello non solo "ricorda" il passato, ma "impara come imparare" dal contesto corrente.
Minore Rischio di Overfitting Specifico: Un modello più piccolo potrebbe essere meno incline a "memorizzare" eccessivamente le idiosincrasie specifiche del dataset di training (Bitcoin) rispetto a modelli enormi (miliardi di parametri). Questo può favorire la generalizzazione, poiché il modello è costretto a concentrarsi sui pattern più robusti e trasferibili.
Focus su Previsioni Relative (Strategia): Il modello per la strategia invece non prevede prezzi assoluti ma "delta di aggiustamento" e "volatilità". Questo ulteriore livello di astrazione può rendere la strategia più robusta rispetto a errori comunque presenti nella previsione del prezzo da parte del modello base.

In sintesi, la capacità di MODELMANGO di saper generalizzare in maniera così efficace con risorse estremamente limitate deriva da una combinazione di estrazione di pattern universali tramite feature engineering, la capacità dei Transformer di modellare queste feature, e un meccanismo di memoria adattiva (MAC) che permette la specializzazione "al volo" sull'asset corrente durante l'inferenza.

6. EFFICIENZA DELL'INFERENZA

L'inferenza (generazione di previsioni e segnali) viene eseguita su un server AWS EC2 con Amazon Linux 2023 (kernel 6.1, x86_64). Grazie alle dimensioni contenute del modello e all'efficienza dell'architettura, l'inferenza è estremamente veloce e assolutamente poco dispendiosa a livello computazionale, mantenendo il sistema efficiente e adatto per applicazioni che richiedono decisioni rapide o l'analisi di molti asset in parallelo.

7. CONCLUSIONE

MODELMANGO rappresenta un approccio sofisticato all'analisi delle serie storiche finanziarie. Combinando l'efficacia dei Transformer con meccanismi di memoria adattiva e un'attenta ingegnerizzazione delle feature, riesce a fornire previsioni accurate e segnali di trading potenzialmente utili su una vasta gamma di asset, nonostante le sue dimensioni computazionali relativamente modeste e un addestramento primario focalizzato su Bitcoin. La sua capacità di adattamento online e l'efficienza in fase di inferenza lo rendono uno strumento potente per l'analisi di mercato.

Giovanni Canclini.

PS: il prossimo capitolo di MODELMANGO sarà rivolto alla predizione delle sequenze lineari di nucleotidi e della struttura tridimensionale dell'RNA che si ripiega in forme complesse che ne determinano la sua funzione biologica. La sfida sarà quella di spingere MODELMANGO a prevedere queste forme sfruttando le capacità di generalizzare intrinseca questa architettura.

Note

MODELMANGO PREDICTION non è un fondo di gestione e non ne ha i requisiti, lo scopo è quello di fornire all'utente interessato un'architettura che prova a predire, con un margine di errore molto basso, i movimenti giornalieri di mercato. Il tool può essere integrato in un sistema di gestione del rischio, ma non si pone l'obiettivo di fornire consigli finanziari o determinate azioni sul mercato. Lo scopo è quello di predire un determinato asset ma la responsabilità di investimento rimane sull'utente.
MODELMANGO STRATEGY attualmente non può essere utilizzato dagli utenti, ma rimane uno strumento privato con finalità di studio e approfondimento.
Paper "Titans: Learning to Memorize at Test Time"
https://arxiv.org/abs/2401.00663
Bitcoin:
- Non rappresenta un diritto su un'attività sottostante
- Non è garantito da riserve fisiche (come l'oro)
- Non è sostenuto da un'autorità centrale
- Il suo valore deriva principalmente dal consenso della rete di utenti e dalla fiducia nel suo protocollo.

In Short: Our Technology

This page describes the AI model behind ModelMango. It is a 4.4M parameter Transformer architecture, pre-trained on Bitcoin data. It uses a special "Memory-as-Context" (MAC) mechanism to adapt "on-the-fly" to new assets, allowing it to achieve high accuracy (around 1.3% average MAPE) across thousands of stocks, cryptocurrencies, and forex pairs with extreme computational efficiency.

1. INTRODUCTION

This document provides a general description of the architecture and operation of MODELMANGO, an advanced Artificial Intelligence (AI) system designed to analyze financial time series, generate price predictions (High, Low, Close), and provide strategic trading signals (currently in beta and for private use)^(1)*. The system combines a specialized Transformer model with adaptive memory mechanisms to capture complex market dynamics.

2. ARCHITECTURE

The system primarily operates through two integrated logical components:

MODELMANGO PREDICTION
Base AI Prediction Model^(1)*
- Responsible for loading historical OHLCV (Open, High, Low, Close, Volume) data for a specific asset.
- Performs a preprocessing and feature engineering phase, transforming raw data to extract meaningful information.
- Uses a pre-trained transformer model called TransformerTimeSeriesMACModel to generate High, Low, and Close price predictions for the next day (T+1).
MODELMANGO STRATEGY
AI Model for direct stock market operations: (currently for private use and selected users only)^(1)*
- Loads its specific configuration and parameters.
- Uses the base HLC predictions generated by the previous model as fundamental input.
- Loads historical OHLCV data and the historical predictions generated in the past by the base model (history of predictions generated by the MODELMANGO PREDICTION model for a given asset, since its listing date) to create a richer feature set.
- Performs even more advanced feature engineering.
- Prepares data for inference, including a placeholder for day T+1 with the base predictions.
- Loads the trained model for strategies.
- Performs inference to obtain:
  - Adjustment delta for the entry price (relative to the predicted Low).
  - Adjustment delta for an implicit exit price (relative to the predicted Close).
  - A volatility prediction specific to the strategy model.
- Calculates operational levels:
  - Optimized Entry Price.
  - Stop Loss Price (based on predicted volatility and potentially adaptive).
  - Take Profit Price (based on volatility, desired Risk/Reward, and potentially the exit delta).
- Applies decision logic (based on configurable thresholds for exit delta, volatility, and R/R) to determine the final signal: LONG ENTRY or HOLD/NO ENTRY.
- Returns a structured dictionary with the decision and all calculated parameters.

3. BASE MODEL

The core of the system is a modified Transformer model, specifically designed for financial time series:

Transformer Architecture: Leverages the self-attention mechanisms of Transformers, excellent at identifying complex relationships and long-term dependencies in sequential data.
Memory as Context (MAC): Implements a memory mechanism inspired by recent work^(2)* to improve long-term context management and adaptation:
- Persistent Memory: "Learnable" tokens that maintain general and stable information over time.
- Memory Module (M): A deep MLP (Multi-Layer Perceptron) that learns to map contextual queries to relevant memory representations (u_C).
- Online Update: The memory M is updated during inference using a mechanism based on the gradient of the loss between the memory retrieved for a key derived from the current chunk and the value associated with that chunk. This allows the model to quickly adapt to the recent dynamics of the specific asset being examined, even if it was not part of the main training. It uses momentum (eta), gradient intensity (theta), and forgetting (alpha) factors for stable updates.
- Long-Term Memory: A buffer that accumulates representations of past chunks, queried to retrieve additional context.
1D Depthwise-Separable Convolutions: Applied to query, key, and value projections before attention and memory update. This helps capture local and spatial patterns within features efficiently.
Chunking: The input sequence is processed in segments ("chunks") to handle long sequences and allow the integration of the MAC mechanism at each step.

4. TRAINING

The base TransformerTimeSeriesMACModel was trained on a historical dataset of 5900 trading days of Bitcoin (BTC-USD). This long period of data on an asset known for its volatility and complex dynamics (there is no underlying asset in the traditional sense, for clarity see note ^(3)*) has nevertheless allowed the model to learn fundamental patterns of financial market behavior and thus generalize.

Training was performed on a MacBook Pro with the following specifications:

Processor: 2.9 GHz Quad-Core Intel Core i7
RAM: 16 GB 2133 MHz LPDDR3
Graphics: Intel HD Graphics 630 1536 MB

Although it is not a high-end GPU workstation but rather a "steam iron" (this is what I have available), it is sufficient to train a model of MODELMANGO's size (approximately 4.4 million parameters).

5. PERFORMANCE & GENERALIZATION

Despite primary training on Bitcoin and the relatively small size of the model (4,426,509 parameters), the system demonstrates remarkable performance across a wide range of global assets (around 10,000 assets including stocks, cryptocurrencies, indices, Forex), as highlighted below by the recent average MAPE (Mean Absolute Percentage Error) metrics on the base HLC predictions:

Average High Price MAPE: 1.26%
Average Low Price MAPE: 1.31%
Average Close Price MAPE: 1.38%

Across 41 different assets, including: AAPL.US, MSFT.US, GOOGL.US, BTC-USD.CC, ETH-USD.CC, XOM.US, EURUSD.FOREX, GSPC.INDX, etc.

(The model's performance is constantly updated and available at this address: https://www.modelmango.co/performance on a basket of 41 assets divided into categories)

How is this performance possible with a "small" model trained on only one asset?

Several factors contribute to explaining this surprising generalization capability:

Robust Feature Engineering: Preprocessing and feature creation transform raw prices into more abstract representations that capture behavioral dynamics and patterns (trend, momentum, mean reversion, volatility) rather than absolute price levels. These underlying dynamics are often "universal" across different financial markets, even if they manifest with different intensities and scales.
Learning Fundamental Patterns: By training on 5900 days of Bitcoin, an asset that has gone through multiple market regimes (bull, bear, sideways, high/low volatility), the model had the opportunity to learn these fundamental "price action" patterns and the relationships between derived technical indicators.
Power of Transformers: Even with "only" 4.4M parameters, the Transformer architecture is inherently powerful in modeling complex, non-linear dependencies within the engineered feature sequences.
Adaptation via MAC: The Memory-as-Context (MAC) mechanism, particularly its "online update" during inference, plays a crucial role. It allows the model, trained on Bitcoin's general patterns, to "dynamically adapt" to the specifics of the asset it is analyzing. When processing a new data chunk (a chunk consists of a portion of data), for example, Apple stock (using historical prices obtained daily via EODHD API), the M memory updates slightly to reflect recent dynamics, improving the relevance of predictions for that specific asset. The model not only "remembers" the past but "learns how to learn" from the current context.
Lower Risk of Specific Overfitting: A smaller model might be less prone to excessively "memorizing" the specific idiosyncrasies of the training dataset (Bitcoin) compared to huge models (billions of parameters). This can foster generalization, as the model is forced to focus on the most robust and transferable patterns.
Focus on Relative Predictions (Strategy): The strategy model, instead, does not predict absolute prices but "adjustment deltas" and "volatility". This additional level of abstraction can make the strategy more robust against errors still present in the base model's price prediction.

In summary, MODELMANGO's ability to generalize so effectively with extremely limited resources stems from a combination of extracting universal patterns through feature engineering, the Transformer's capacity to model these features, and an adaptive memory mechanism (MAC) that allows for "on-the-fly" specialization to the current asset during inference.

6. INFERENCE

Inference (generating predictions and signals) is performed on an AWS EC2 server with Amazon Linux 2023 (kernel 6.1, x86_64). Thanks to the model's contained size and architectural efficiency, inference is extremely fast and computationally inexpensive, keeping the system efficient and suitable for applications requiring rapid decisions or the analysis of many assets in parallel.

7. CONCLUSION

MODELMANGO represents a sophisticated approach to financial time series analysis. By combining the effectiveness of Transformers with adaptive memory mechanisms and careful feature engineering, it manages to provide accurate predictions and potentially useful trading signals across a wide range of assets, despite its relatively modest computational size and primary training focused on Bitcoin. Its online adaptation capability and inference efficiency make it a powerful tool for market analysis.