feat(dense): prefer OpenAI embeddings; split dense extras; tighten indexing tests

Intrinsical-AI · Intrinsical-AI · commit f88e6a26d96a · 2026-02-15T04:15:53.000+01:00
Why:
- sentence-transformers pulls torch + CUDA wheels on many platforms; this makes the default "dense" extra hard to install and test in constrained environments.

What:
- Split extras: "dense" = FAISS only; "dense-st" = SentenceTransformers.
- Prefer OpenAI embeddings when OPENAI_API_KEY is configured; fall back to SentenceTransformers when installed.
- Align bootstrap/build_index and API router with the same embedder-selection behavior.
- Allow HistorySqlStorage to accept a session_factory for testability.
- Replace the SentenceTransformers integration test with an OpenAIEmbedder integration test that stubs the SDK.
- Add an end-to-end dense+hybrid test that works with the FAISS numpy fallback.
- Strengthen build_index sparse integration assertions.

Notes:
- uv.lock was updated to reflect the new extras; regeneration requires network access.
diff --git a/pyproject.toml b/pyproject.toml
@@ -66,9 +66,12 @@ dependencies = [
 
 [project.optional-dependencies]
 dense = [
-  "sentence-transformers>=2.7,<3.0",
   "faiss-cpu>=1.8.0,<2.0"
 ]
+dense-st = [
+  # Heavy dependency chain (torch/transformers). Prefer OpenAI embeddings when possible.
+  "sentence-transformers>=2.7,<3.0"
+]
 dev = [
   # Testing
   "pytest>=8.2,<9.0",
@@ -130,8 +133,8 @@ monitoring = [
   "sentry-sdk[fastapi]>=1.40,<2.0"
 ]
 all = [
-  "sentence-transformers>=2.7,<3.0",
   "faiss-cpu>=1.8.0,<2.0",
+  "sentence-transformers>=2.7,<3.0",
   "pytest>=8.2,<9.0",
   "pytest-cov>=6.1.1,<7.0",
   "pytest-asyncio>=0.23,<1.0",
@@ -253,9 +256,8 @@ exclude = "(?x)^(tests/|scripts/)"
 
 plugins = ["pydantic.mypy"]
 
-# Afinado del plugin de Pydantic 2
-[mypy.plugins.dummy]  # secci&oacute;n ficticia para TOML v&aacute;lidas; el plugin lee v&iacute;a [tool.mypy]
-# (Opciones del plugin se pasan igual bajo [tool.mypy])
+# Afinado del plugin de Pydantic (config en pyproject)
+[tool.pydantic-mypy]
 init_forbid_extra = true
 init_typed = true
 warn_required_dynamic_aliases = true
diff --git a/src/local_rag_backend/app/api_router.py b/src/local_rag_backend/app/api_router.py
@@ -19,6 +19,7 @@
 from local_rag_backend.app.dependencies import get_rag_service
 from local_rag_backend.core.services.etl import ETLService
 from local_rag_backend.core.services.rag import RagService
+from local_rag_backend.infrastructure.embeddings.openai import OpenAIEmbedder
 from local_rag_backend.infrastructure.embeddings.sentence_transformers import (
     SentenceTransformerEmbedder,
 )
@@ -52,7 +53,12 @@
 if TYPE_CHECKING:
     from sqlalchemy.orm import Session
 
-    from local_rag_backend.core.ports import DocumentRepoPort, GeneratorPort, RetrieverPort
+    from local_rag_backend.core.ports import (
+        DocumentRepoPort,
+        EmbedderPort,
+        GeneratorPort,
+        RetrieverPort,
+    )
 
 # ---------------------- Validation Utilities ---------------------- #
 
@@ -253,7 +259,9 @@ async def ingest_docs(payload: Annotated[IngestRequest, Body(...)]) -> IngestRes
     doc_repo = SqlDocumentStorage()
 
     if settings.retrieval_mode in ("dense", "hybrid"):
-        embedder = SentenceTransformerEmbedder(model_name=settings.st_embedding_model)
+        embedder: EmbedderPort = OpenAIEmbedder() if settings.openai_api_key else SentenceTransformerEmbedder(
+            model_name=settings.st_embedding_model
+        )
         vec = FaissVectorStorage(
             index_path=settings.index_path,
             id_map_path=settings.id_map_path,
@@ -277,7 +285,9 @@ def _build_retriever_from_config(
     if cfg.retrieval_mode == "sparse":
         return SparseBM25Retriever(documents=corpus, doc_ids=doc_ids, doc_repo=doc_repo)
 
-    embedder = SentenceTransformerEmbedder(model_name=settings.st_embedding_model)
+    embedder: EmbedderPort = OpenAIEmbedder() if settings.openai_api_key else SentenceTransformerEmbedder(
+        model_name=settings.st_embedding_model
+    )
     faiss_storage = FaissVectorStorage(
         index_path=settings.index_path, id_map_path=settings.id_map_path, dim=embedder.dim
     )
diff --git a/src/local_rag_backend/infrastructure/embeddings/openai.py b/src/local_rag_backend/infrastructure/embeddings/openai.py
@@ -5,14 +5,11 @@
 
 from __future__ import annotations
 
-from typing import TYPE_CHECKING
-
-if TYPE_CHECKING:
-    from collections.abc import Sequence
+from collections.abc import Sequence
 
 from openai import OpenAI
 
-from local_rag_backend.core.ports import EmbedderPort, Embedding
+from local_rag_backend.core.ports import EmbedderPort
 from local_rag_backend.settings import settings
 
 _MODEL_DIM: dict[str, int] = {
@@ -24,13 +21,17 @@
 DEFAULT_MODEL = settings.openai_embedding_model
 DEFAULT_DIM = _MODEL_DIM.get(DEFAULT_MODEL, 1536)
 
+Embedding = Sequence[float]
+
 
 class OpenAIEmbedder(EmbedderPort):
     dim: int  # required by the port
 
     def __init__(self, model: str | None = None):
         self.model = model or settings.openai_embedding_model
         self.dim = _MODEL_DIM.get(self.model, DEFAULT_DIM)
+        if not settings.openai_api_key:
+            raise RuntimeError("OPENAI_API_KEY is required to use OpenAI embeddings.")
         self.client = OpenAI(api_key=settings.openai_api_key)
 
     def embed(self, texts: Sequence[str]) -> Sequence[Embedding]:
diff --git a/src/local_rag_backend/infrastructure/persistence/sqlalchemy/sql_.py b/src/local_rag_backend/infrastructure/persistence/sqlalchemy/sql_.py
@@ -57,7 +57,10 @@ def get_all_documents(self) -> Sequence[DomainDocument]:
 class HistorySqlStorage(QAHistoryPort):
     """SQL-based implementation of the history repository port."""
 
+    def __init__(self, session_factory: sessionmaker[Session] | None = None):
+        self._session_factory = session_factory or SessionLocal
+
     def save(self, q: str, a: str, source_ids: Sequence[int]) -> None:
         """Save a question-answer pair to the history table."""
-        with get_session(SessionLocal) as session:
+        with get_session(self._session_factory) as session:
             add_history(session, q, a, source_ids=list(source_ids))
diff --git a/src/local_rag_backend/scripts/bootstrap.py b/src/local_rag_backend/scripts/bootstrap.py
@@ -7,7 +7,7 @@
 
 from importlib import resources
 from pathlib import Path
-from typing import Any
+from typing import TYPE_CHECKING, Any
 
 # IMPORTS FOR DYNAMIC DB
 from sqlalchemy import create_engine
@@ -20,6 +20,7 @@
     default_formatter,
     default_preprocess,
 )
+from local_rag_backend.infrastructure.embeddings.openai import OpenAIEmbedder
 from local_rag_backend.infrastructure.embeddings.sentence_transformers import (
     SentenceTransformerEmbedder,
 )
@@ -32,6 +33,9 @@
 
 DELIMITER = ";"
 
+if TYPE_CHECKING:
+    from local_rag_backend.core.ports import EmbedderPort
+
 
 def main(csv_path: str | Path | None = None, **kwargs: Any) -> None:
     if "settings" not in kwargs:
@@ -51,7 +55,10 @@ def main(csv_path: str | Path | None = None, **kwargs: Any) -> None:
     doc_repo = SqlDocumentStorage(session_factory=session_local)
 
     if settings.retrieval_mode in ["dense", "hybrid"]:
-        embedder = SentenceTransformerEmbedder(model_name=settings.st_embedding_model)
+        embedder: EmbedderPort
+        embedder = OpenAIEmbedder() if settings.openai_api_key else SentenceTransformerEmbedder(
+            model_name=settings.st_embedding_model
+        )
         vector_repo = FaissVectorStorage(
             index_path=settings.index_path,
             id_map_path=settings.id_map_path,
diff --git a/src/local_rag_backend/scripts/build_index.py b/src/local_rag_backend/scripts/build_index.py
@@ -10,12 +10,13 @@
 import logging
 from importlib import resources
 from pathlib import Path
+from typing import TYPE_CHECKING
 
 from sqlalchemy import create_engine
 from sqlalchemy.orm import sessionmaker
 from sqlalchemy.pool import StaticPool
 
-# Import the embedder that will be used for indexing if dense mode
+from local_rag_backend.infrastructure.embeddings.openai import OpenAIEmbedder
 from local_rag_backend.infrastructure.embeddings.sentence_transformers import (
     SentenceTransformerEmbedder,
 )
@@ -33,6 +34,9 @@
     level=logging.INFO, format="%(asctime)s - %(name)s - %(levelname)s - %(message)s"
 )
 
+if TYPE_CHECKING:
+    from local_rag_backend.core.ports import EmbedderPort
+
 
 def main() -> None:
     """
@@ -63,12 +67,15 @@ def main() -> None:
         return  # Exit if tables can't be created
 
     # 3. Embedder (for dense or hybrid mode)
-    embedder_for_indexing = None
+    embedder_for_indexing: EmbedderPort | None = None
     if settings.retrieval_mode in ["dense", "hybrid"]:
         logger.info(
             f"{settings.retrieval_mode.title()} retrieval mode detected. Initializing embedder for indexing."
         )
-        embedder_for_indexing = SentenceTransformerEmbedder(model_name=settings.st_embedding_model)
+        if settings.openai_api_key:
+            embedder_for_indexing = OpenAIEmbedder()
+        else:
+            embedder_for_indexing = SentenceTransformerEmbedder(model_name=settings.st_embedding_model)
 
     # 4. Use ETL logic directly (similar to bootstrap.py)
     try:
diff --git a/tests/e2e/test_dense_hybrid_end_to_end_faiss_openai_embedder.py b/tests/e2e/test_dense_hybrid_end_to_end_faiss_openai_embedder.py
@@ -0,0 +1,106 @@
+import pytest
+from sqlalchemy import create_engine
+from sqlalchemy.orm import sessionmaker
+
+from local_rag_backend.core.services.etl import ETLService
+from local_rag_backend.core.services.rag import RagService
+from local_rag_backend.infrastructure.embeddings import openai as openai_embedder_mod
+from local_rag_backend.infrastructure.embeddings.openai import OpenAIEmbedder
+from local_rag_backend.infrastructure.persistence.faiss.faiss_ import FaissVectorStorage
+from local_rag_backend.infrastructure.persistence.sqlalchemy.base import Base
+from local_rag_backend.infrastructure.persistence.sqlalchemy.sql_ import (
+    HistorySqlStorage,
+    SqlDocumentStorage,
+)
+from local_rag_backend.infrastructure.retrieval.dense_faiss import DenseFaissRetriever
+from local_rag_backend.infrastructure.retrieval.hybrid import HybridRetriever
+from local_rag_backend.infrastructure.retrieval.sparse_bm25 import SparseBM25Retriever
+from local_rag_backend.settings import settings
+from local_rag_backend.utils import get_corpus_and_ids
+
+
+class _DummyEmbeddingItem:
+    def __init__(self, embedding):
+        self.embedding = embedding
+
+
+class _DummyEmbeddingsResp:
+    def __init__(self, vectors):
+        self.data = [_DummyEmbeddingItem(v) for v in vectors]
+
+
+class _DummyEmbeddingsAPI:
+    def create(self, model, input):
+        # Tiny deterministic 4D embedding; good enough for FAISS L2.
+        vecs = []
+        for t in input:
+            t = str(t)
+            vecs.append(
+                [
+                    float(len(t)),
+                    float(sum(ord(c) for c in t) % 17),
+                    float(t.count("a")),
+                    float(t.count("z")),
+                ]
+            )
+        return _DummyEmbeddingsResp(vecs)
+
+
+class _DummyOpenAI:
+    def __init__(self, api_key):
+        self.embeddings = _DummyEmbeddingsAPI()
+
+
+class _DummyGen:
+    def __init__(self, *a, **k):
+        pass
+
+    def generate(self, question, contexts):
+        return f"answer:{question}:{len(contexts)}"
+
+
+@pytest.mark.integration
+def test_dense_and_hybrid_end_to_end(tmp_path, monkeypatch):
+    # Settings
+    db_path = tmp_path / "app.db"
+    index_path = tmp_path / "idx.faiss"
+    id_map_path = tmp_path / "id.pkl"
+
+    monkeypatch.setattr(settings, "sqlite_url", f"sqlite:///{db_path}", raising=False)
+    monkeypatch.setattr(settings, "index_path", str(index_path), raising=False)
+    monkeypatch.setattr(settings, "id_map_path", str(id_map_path), raising=False)
+    monkeypatch.setattr(settings, "openai_api_key", "k", raising=False)
+    monkeypatch.setattr(settings, "openai_embedding_model", "dummy-4", raising=False)
+    monkeypatch.setattr(openai_embedder_mod, "_MODEL_DIM", {"dummy-4": 4}, raising=False)
+    monkeypatch.setattr(openai_embedder_mod, "OpenAI", _DummyOpenAI, raising=True)
+
+    # DB setup
+    engine = create_engine(settings.sqlite_url, connect_args={"check_same_thread": False})
+    SessionLocal = sessionmaker(bind=engine, autocommit=False, autoflush=False)
+    Base.metadata.create_all(bind=engine)
+
+    doc_repo = SqlDocumentStorage(session_factory=SessionLocal)
+    history_repo = HistorySqlStorage(session_factory=SessionLocal)
+
+    embedder = OpenAIEmbedder(model="dummy-4")
+    vec_repo = FaissVectorStorage(index_path=str(index_path), id_map_path=str(id_map_path), dim=embedder.dim)
+
+    etl = ETLService(doc_repo, vec_repo, embedder)
+    ids = etl.ingest(["alpha alpha alpha", "zzzz zzzz zzzz"])
+    assert len(list(ids)) == 2
+
+    dense = DenseFaissRetriever(embedder=embedder, faiss_index=vec_repo, doc_repo=doc_repo)
+    docs, scores = dense.retrieve("alpha", k=1)
+    assert len(docs) == 1
+    assert docs[0].content.startswith("alpha")
+    assert len(scores) == 1
+
+    # Hybrid: ensure sparse is wired and returns something too.
+    corpus, doc_ids = get_corpus_and_ids(doc_repo)
+    sparse = SparseBM25Retriever(documents=corpus, doc_ids=doc_ids, doc_repo=doc_repo)
+    hybrid = HybridRetriever(dense=dense, sparse=sparse, alpha=0.5)
+
+    svc = RagService(retriever=hybrid, generator=_DummyGen(), history_storage=history_repo)
+    resp = svc.ask("alpha", top_k=1)
+    assert resp["answer"].startswith("answer:alpha:1")
+    assert resp["docs"]
diff --git a/tests/integration/test_build_index_sparse.py b/tests/integration/test_build_index_sparse.py
@@ -20,19 +20,17 @@ def test_build_index_sparse(tmp_path, monkeypatch):
     monkeypatch.setattr(settings, "faq_csv", str(f), raising=False)
     monkeypatch.setattr(settings, "sqlite_url", f"sqlite:///{tmp_path}/app.db", raising=False)
 
-    # Just test that build_index runs without error and creates database
+    # build_index should run without error and populate the DB.
     from local_rag_backend.scripts import build_index
 
     importlib.reload(build_index)
-    try:
-        build_index.main()
-    except Exception:
-        # If it fails, at least check the database was created
-        pass
+    build_index.main()
 
     # Check database was populated
     eng = create_engine(settings.sqlite_url, connect_args={"check_same_thread": False})
     Session = sessionmaker(bind=eng, autocommit=False, autoflush=False)
     Base.metadata.create_all(bind=eng)
     docs = SqlDocumentStorage(session_factory=Session).get_all_documents()
-    assert len(docs) >= 0  # At least database exists
+    assert len(docs) == 1
+    assert "T" in docs[0].content
+    assert "C" in docs[0].content
diff --git a/tests/integration/test_integration_faiss.py b/tests/integration/test_integration_faiss.py
@@ -1,7 +1,3 @@
-import pytest
-
-# Skip if faiss is not available in the environment
-pytest.importorskip("faiss")
 
 import numpy as np
 
diff --git a/tests/integration/test_integration_openai_embedder.py b/tests/integration/test_integration_openai_embedder.py
diff --git a/tests/integration/test_integration_sentencetransformers.py b/tests/integration/test_integration_sentencetransformers.py
diff --git a/tests/unit/infrastructure/embeddings/test_openai_embedder.py b/tests/unit/infrastructure/embeddings/test_openai_embedder.py
diff --git a/uv.lock b/uv.lock