Разработка AI-системы парсинга финансовых отчётов SEC Filings EDGAR
SEC EDGAR содержит корпоративные отчётности всех публичных компаний США: 10-K (годовые), 10-Q (квартальные), 8-K (текущие события). Автоматический разбор этих документов — база для фундаментального анализа без ручной работы.
Работа с EDGAR API
SEC предоставляет бесплатный REST API:
import requests
from bs4 import BeautifulSoup
BASE_URL = "https://data.sec.gov"
def get_company_filings(ticker: str) -> dict:
# Получаем CIK по тикеру
cik_resp = requests.get(
f"https://efts.sec.gov/LATEST/search-index?q=%22{ticker}%22&dateRange=custom&startdt=2020-01-01&forms=10-K",
headers={"User-Agent": "FinanceBot [email protected]"}
)
return cik_resp.json()
def get_filing_text(accession_number: str, cik: str) -> str:
url = f"{BASE_URL}/Archives/edgar/data/{cik}/{accession_number.replace('-','')}/..."
response = requests.get(url, headers={"User-Agent": "FinanceBot [email protected]"})
soup = BeautifulSoup(response.content, "html.parser")
return soup.get_text()
Ключевые секции для извлечения
10-K (годовой отчёт):
- Item 1A: Risk Factors — список рисков компании
- Item 7: MD&A (Management Discussion & Analysis) — комментарии менеджмента
- Item 8: Financial Statements — финансовые данные
- Item 9A: Controls and Procedures — оценка контроля
8-K (текущие события): M&A объявления, смена CEO, досрочное погашение долга, юридические проблемы.
AI-обработка SEC-файлингов
class FilingAnalysis(BaseModel):
company: str
period: str
key_risks: list[str] # топ-5 рисков
revenue: float | None
revenue_growth_yoy: float | None
operating_income: float | None
guidance: str | None # прогноз менеджмента
sentiment: float # -1 to 1
material_changes: list[str] # существенные изменения vs предыдущий период
red_flags: list[str] # потенциальные предупредительные сигналы
Risk Factors анализируются на изменения год к году: появление новых рисков или усиление существующих — значимый сигнал.
Rate Limiting и этика
SEC EDGAR требует User-Agent с email контакта и ограничивает запросы до 10/сек. Уважайте лимиты — sec.gov предоставляет данные бесплатно. Edgar-specific библиотека: edgar (Python) упрощает работу с API.







