Разработка системы хранения tick-данных

Проектируем и разрабатываем блокчейн-решения полного цикла: от архитектуры смарт-контрактов до запуска DeFi-протоколов, NFT-маркетплейсов и криптобирж. Аудит безопасности, токеномика, интеграция с существующей инфраструктурой.
Показано 1 из 1Все 1306 услуг
Разработка системы хранения tick-данных
Средний
~3-5 дней
Часто задаваемые вопросы

Направления блокчейн-разработки

Этапы блокчейн-разработки

Последние работы

  • image_website-b2b-advance_0.webp
    Разработка сайта компании B2B ADVANCE
    1288
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1198
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    902
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1122
  • image_logo-advance_0.webp
    Разработка логотипа компании B2B Advance
    589
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    860

Разработка системы хранения tick-данных

Tick-данные — это каждая отдельная сделка на бирже: время, цена, объём, сторона (maker/taker). В отличие от OHLCV-свечей, tick-данные позволяют восстановить полную картину активности рынка в любой момент. Это требует значительно больше места для хранения и специальной инфраструктуры.

Объёмы данных

Чтобы понять масштаб задачи: Binance по BTC/USDT генерирует порядка 50,000–200,000 трейдов в сутки. По всем парам на всех биржах — сотни миллионов записей в день. Год данных — десятки миллиардов строк. Обычный PostgreSQL с этим не справится без специальных решений.

Технологии хранения

ClickHouse — колоночная СУБД от Yandex, оптимизированная для аналитических запросов на больших объёмах. Сжимает временные ряды в 5–20 раз лучше PostgreSQL, выполняет агрегации по миллиардам строк за секунды.

CREATE TABLE trades (
    exchange    LowCardinality(String),
    symbol      LowCardinality(String),
    trade_id    String,
    timestamp   DateTime64(3, 'UTC'),
    price       Decimal(24, 8),
    quantity    Decimal(24, 8),
    side        LowCardinality(String),
    is_maker    Bool
)
ENGINE = MergeTree()
PARTITION BY (exchange, toYYYYMM(timestamp))
ORDER BY (exchange, symbol, timestamp)
SETTINGS index_granularity = 8192;

LowCardinality для строк с небольшим количеством уникальных значений (exchange, symbol, side) — автоматический dictionary encoding даёт значительную экономию места.

TimescaleDB — если уже используете PostgreSQL и объёмы умеренные (< 1 млрд строк). Поддерживает hypertables с автоматическим партиционированием по времени, compression policies.

Arctic (Python library, на MongoDB) — специализированное решение для финансовых временных рядов. Поддерживает tick-data, OHLCV, arbitrary DataFrames с версионированием.

Схема для ClickHouse

Для максимальной производительности записи используем буферную таблицу:

-- Буфер: накапливает данные в памяти, сбрасывает каждые 10 сек или 1M строк
CREATE TABLE trades_buffer AS trades
ENGINE = Buffer(currentDatabase(), 'trades', 16, 10, 100, 10000, 1000000, 10000000, 100000000);

-- Записываем в буфер, читаем из основной таблицы
INSERT INTO trades_buffer VALUES (...);
SELECT * FROM trades WHERE ...;

Запросы на tick-данных

Агрегация tick-данных в OHLCV на лету:

SELECT
    toStartOfInterval(timestamp, INTERVAL 1 MINUTE) AS candle_time,
    argMin(price, timestamp) AS open,
    max(price) AS high,
    min(price) AS low,
    argMax(price, timestamp) AS close,
    sum(quantity) AS volume,
    count() AS trade_count
FROM trades
WHERE exchange = 'binance'
  AND symbol = 'BTC/USDT'
  AND timestamp BETWEEN '2024-01-01' AND '2024-01-02'
GROUP BY candle_time
ORDER BY candle_time;

На ClickHouse этот запрос по 50M строк выполняется за 1–3 секунды.

Ingestion pipeline

import asyncio
from collections import deque

class TickDataIngester:
    BATCH_SIZE = 10000
    FLUSH_INTERVAL = 5.0  # секунды

    def __init__(self, clickhouse_client):
        self.buffer = deque()
        self.client = clickhouse_client

    async def on_trade(self, trade: NormalizedTrade):
        self.buffer.append(trade)
        if len(self.buffer) >= self.BATCH_SIZE:
            await self.flush()

    async def flush(self):
        if not self.buffer:
            return
        batch = [self.buffer.popleft() for _ in range(min(self.BATCH_SIZE, len(self.buffer)))]
        await self.client.insert('trades_buffer', batch)

    async def flush_loop(self):
        while True:
            await asyncio.sleep(self.FLUSH_INTERVAL)
            await self.flush()

Компрессия и retention

ClickHouse сжимает данные автоматически. Дополнительно можно включить cold storage через TTL:

ALTER TABLE trades
MODIFY TTL timestamp + INTERVAL 1 YEAR TO DISK 'cold_storage';

Данные старше года автоматически переносятся на более дешёвое хранилище (S3-совместимое через ClickHouse object storage).

Бэкфилл исторических данных

Для заполнения исторических данных используем публичные API бирж. Binance, например, предоставляет trade history через /api/v3/aggTrades с пагинацией по fromId. Параллельный бэкфилл по временным диапазонам с rate limiting позволяет загрузить годы данных за несколько часов.