feat: LID shadow mode, telemetry, reviewer fixes + null multilingual … (#680)

web1havv · github-actions[bot] · web-flow · commit 793466e1cd5f · 2026-05-02T11:21:49.000+05:30
* feat: LID shadow mode, telemetry, reviewer fixes + null multilingual guard



* bump: version 0.10.21 → 0.10.22

* feat: export LIDProvider/SarvamLID, add multilingual+active to Transcriber model



* bump: version 0.10.22 → 0.10.23

---------

Co-authored-by: github-actions[bot] &lt;github-actions[bot]@users.noreply.github.com&gt;
diff --git a/bolna/__init__.py b/bolna/__init__.py
@@ -1,4 +1,4 @@
-__version__ = "0.10.21"
+__version__ = "0.10.23"
 
 import os
 from bolna.helpers.logger_config import configure_logger
diff --git a/bolna/agent_manager/task_manager.py b/bolna/agent_manager/task_manager.py
@@ -348,6 +348,9 @@ def __init__(
 
         # Stores structured API call records for dashboard/backend persistence.
         self.function_tool_api_call_details = []
+        # Records every manual switch_language tool call — used post-call to
+        # compare against LID shadow detections (precision / latency analysis).
+        self.language_switch_events: list[dict] = []
         self.hangup_task = None
 
         self.conversation_config = None
@@ -1041,15 +1044,27 @@ def __setup_transcriber(self):
                         if label == active_label:
                             self.transcriber_provider = cfg.get("provider", cfg.get("model"))
 
+                    # Audio LID tap.
+                    # LID_PROVIDER — which backend to use (default: "sarvam").
+                    # LID_MODE     — "shadow" (default) logs detections without switching;
+                    #                "active" performs live transcriber/synthesizer/prompt swap.
+                    #                Keep "shadow" until detection quality is validated.
+                    LID_PROVIDER = os.getenv("LID_PROVIDER", "sarvam")
+                    _lid_config = {"telephony_provider": provider}
+
                     self.tools["transcriber"] = TranscriberPool(
                         transcribers=transcribers,
                         shared_input_queue=self.audio_queue,
                         output_queue=self.transcriber_output_queue,
                         active_label=active_label,
                         multilingual_config=multilingual,
+                        lid_provider=LID_PROVIDER,
+                        lid_config=_lid_config,
+                        on_lid_switch=self.switch_language,
                     )
                     logger.info(
-                        f"TranscriberPool created with labels={list(transcribers.keys())}, active='{active_label}'"
+                        f"TranscriberPool created with labels={list(transcribers.keys())}, "
+                        f"active='{active_label}', lid_provider={LID_PROVIDER!r}"
                     )
                     return
 
@@ -3329,14 +3344,27 @@ def _get_voice_name_for_label(self, label):
         """Get agent name for a language label from configured agent_names."""
         return self.agent_names.get(label, "")
 
-    async def switch_language(self, label, components=None):
+    async def switch_language(self, label, components=None, triggered_by: str = "manual"):
         """Switch the active language for multilingual pools.
 
         Args:
             label: language label to switch to (e.g. "hi", "en").
             components: list of component names to switch. Defaults to both.
+            triggered_by: "manual" (LLM tool call) or "lid" (automatic detection).
+                          Used in post-call telemetry to compare LID shadow detections
+                          against actual LLM-decided switches.
         """
         components = components or ["transcriber", "synthesizer"]
+
+        # Record every switch so shadow-eval can compare LID detections vs.
+        # actual LLM-decided switches on the same call.
+        self.language_switch_events.append({
+            "to_label":       label,
+            "from_label":     self.language,
+            "triggered_by":   triggered_by,
+            "switched_at":    time.time(),
+        })
+
         if "transcriber" in components and isinstance(self.tools.get("transcriber"), TranscriberPool):
             await self.tools["transcriber"].switch(label)
         if "synthesizer" in components and isinstance(self.tools.get("synthesizer"), SynthesizerPool):
@@ -4233,6 +4261,8 @@ async def run(self):
                     "conversation_time": time.time() - self.start_time,
                     "label_flow": self.label_flow,
                     "function_tool_api_call_details": copy.deepcopy(self.function_tool_api_call_details),
+                    "lid_detection_events": list(getattr(self.tools.get("transcriber"), "lid_detection_events", [])),
+                    "language_switch_events": list(self.language_switch_events),
                     "call_sid": self.call_sid,
                     "stream_sid": self.stream_sid,
                     "transcriber_duration": self.transcriber_duration,
diff --git a/bolna/models.py b/bolna/models.py
@@ -122,6 +122,8 @@ class Transcriber(BaseModel):
     keywords: Optional[str] = None
     task: Optional[str] = "transcribe"
     provider: Optional[str] = "deepgram"
+    multilingual: Optional[Dict[str, Any]] = None
+    active: Optional[str] = None
 
     @field_validator("provider")
     def validate_model(cls, value):
diff --git a/bolna/transcriber/__init__.py b/bolna/transcriber/__init__.py
@@ -9,3 +9,4 @@
 from .elevenlabs_transcriber import ElevenLabsTranscriber
 from .smallest_transcriber import SmallestTranscriber
 from .transcriber_pool import TranscriberPool
+from .lid_provider import LIDProvider, SarvamLID
diff --git a/bolna/transcriber/lid_provider.py b/bolna/transcriber/lid_provider.py
@@ -0,0 +1,181 @@
+"""
+lid_provider.py — Language Identification (LID) via Sarvam saaras:v3.
+
+Opens a dedicated WebSocket to Sarvam with language-code=unknown so the
+server auto-detects the spoken language and returns language_code in each
+data payload alongside the transcript. Audio is forwarded in real-time
+from the TranscriberPool audio router — zero added latency to the ASR path.
+
+Usage (in TranscriberPool):
+    lid = SarvamLID(on_language=callback, config={...})
+    await lid.start()
+    lid.feed(audio_chunk_bytes)   # called for every incoming audio packet
+    await lid.stop()
+"""
+
+from __future__ import annotations
+
+import asyncio
+import base64
+import io
+import json
+import os
+import wave
+from typing import Awaitable, Callable, Optional
+
+from bolna.helpers.logger_config import configure_logger
+
+logger = configure_logger(__name__)
+
+# Signature: async def on_language(lang: str, confidence: float) -> None
+OnLanguageCallback = Callable[[str, float], Awaitable[None]]
+
+
+class SarvamLID:
+    """
+    LID via Sarvam saaras:v3 with language_code=unknown.
+
+    Config keys (all optional, fall back to env vars):
+        sarvam_api_key     — SARVAM_API_KEY env var
+        sarvam_host        — api.sarvam.ai
+        telephony_provider — "twilio" | "plivo" | other
+        sampling_rate      — 16000
+    """
+
+    _WS_BASE = "wss://{host}/speech-to-text/ws"
+
+    def __init__(self, on_language: OnLanguageCallback, config: dict):
+        self.on_language = on_language
+        self.config = config
+        self._api_key = config.get("sarvam_api_key") or os.getenv("SARVAM_API_KEY", "")
+        self._host = config.get("sarvam_host") or os.getenv("SARVAM_HOST", "api.sarvam.ai")
+        self._telephony = config.get("telephony_provider", "")
+        self._sr = int(config.get("sampling_rate", 16000))
+        self._input_sr = 8000 if self._telephony in ("twilio", "plivo") else self._sr
+        self._encoding = "mulaw" if self._telephony == "twilio" else "linear16"
+
+        # Bounded queue: LID is best-effort. If the Sarvam WS stalls, we drop
+        # chunks rather than buffering unboundedly for the entire call duration.
+        self._queue: asyncio.Queue = asyncio.Queue(maxsize=200)
+        self._ws = None
+        self._sender_task: Optional[asyncio.Task] = None
+        self._receiver_task: Optional[asyncio.Task] = None
+        # Set to True if the receiver loop exits abnormally (WS drop / error).
+        # feed() will log a warning when dead so silent stat bias is visible.
+        self._dead: bool = False
+
+    def _build_url(self) -> str:
+        params = {
+            "model": "saaras:v3",
+            "mode": "transcribe",
+            "language-code": "unknown",
+            "high_vad_sensitivity": "true",
+        }
+        qs = "&".join(f"{k}={v}" for k, v in params.items())
+        return f"{self._WS_BASE.format(host=self._host)}?{qs}"
+
+    def _convert_to_wav_b64(self, raw: bytes) -> Optional[str]:
+        """Convert telephony audio to 16kHz WAV base64 for Sarvam."""
+        import audioop
+        try:
+            if self._encoding == "mulaw":
+                raw = audioop.ulaw2lin(raw, 2)
+            if self._input_sr != self._sr:
+                raw, _ = audioop.ratecv(raw, 2, 1, self._input_sr, self._sr, None)
+            buf = io.BytesIO()
+            with wave.open(buf, "wb") as wf:
+                wf.setnchannels(1)
+                wf.setsampwidth(2)
+                wf.setframerate(self._sr)
+                wf.writeframes(raw)
+            return base64.b64encode(buf.getvalue()).decode()
+        except Exception as e:
+            logger.warning(f"SarvamLID audio convert error: {e}")
+            return None
+
+    async def start(self) -> None:
+        import websockets as ws_lib
+        url = self._build_url()
+        headers = {"api-subscription-key": self._api_key}
+        logger.info(f"SarvamLID: connecting to {url}")
+        self._ws = await ws_lib.connect(url, additional_headers=headers)
+        self._sender_task = asyncio.create_task(self._sender_loop())
+        self._receiver_task = asyncio.create_task(self._receiver_loop())
+        logger.info("SarvamLID: connected")
+
+    def feed(self, audio_bytes: bytes) -> None:
+        if self._dead:
+            logger.warning("SarvamLID: feed() called but WS is dead — chunk dropped (LID inactive)")
+            return
+        try:
+            self._queue.put_nowait(audio_bytes)
+        except asyncio.QueueFull:
+            logger.debug("SarvamLID: audio queue full — chunk dropped (backpressure)")
+
+    async def _sender_loop(self) -> None:
+        try:
+            while True:
+                chunk = await self._queue.get()
+                if chunk is None:
+                    break
+                b64 = self._convert_to_wav_b64(chunk)
+                if b64:
+                    msg = {"audio": {"data": b64, "encoding": "audio/wav", "sample_rate": self._sr}}
+                    await self._ws.send(json.dumps(msg))
+        except asyncio.CancelledError:
+            pass
+        except Exception as e:
+            logger.error(f"SarvamLID sender error: {e}")
+            self._dead = True
+            logger.warning("SarvamLID: sender loop exited abnormally — LID inactive for remainder of call")
+
+    async def _receiver_loop(self) -> None:
+        try:
+            async for raw in self._ws:
+                try:
+                    data = json.loads(raw) if isinstance(raw, str) else {}
+                    if data.get("type") == "data":
+                        payload = data.get("data", {})
+                        lang = payload.get("language_code", "")
+                        # Sarvam returns language_probability=None when operating in
+                        # unknown-language mode — the language_code is the signal.
+                        # conf is passed through for API compatibility but the pool's
+                        # confidence gate is skipped for Sarvam (see _handle_lid_signal).
+                        conf = float(payload.get("language_probability") or 0.0)
+                        if lang and lang != "unknown":
+                            short = lang.split("-")[0].lower()
+                            logger.info(f"SarvamLID: detected {lang!r} (short={short!r}, conf={conf:.2f})")
+                            await self.on_language(short, conf)
+                except Exception as e:
+                    logger.error(f"SarvamLID receiver parse error: {e}")
+        except asyncio.CancelledError:
+            pass
+        except Exception as e:
+            logger.error(f"SarvamLID receiver error: {e}")
+            self._dead = True
+            logger.warning("SarvamLID: receiver loop exited abnormally — LID inactive for remainder of call")
+
+    async def stop(self) -> None:
+        self._queue.put_nowait(None)
+        for task in (self._sender_task, self._receiver_task):
+            if task and not task.done():
+                task.cancel()
+                try:
+                    await task
+                except asyncio.CancelledError:
+                    pass
+        if self._ws:
+            try:
+                await self._ws.close()
+            except Exception:
+                pass
+        logger.info("SarvamLID: stopped")
+
+
+# Thin factory shim for backward compatibility
+class LIDProvider:
+    @classmethod
+    def create(cls, provider: str, on_language: OnLanguageCallback, config: dict) -> SarvamLID:
+        if provider.lower() != "sarvam":
+            logger.warning(f"LIDProvider: unknown provider '{provider}', falling back to sarvam")
+        return SarvamLID(on_language=on_language, config=config)
diff --git a/bolna/transcriber/transcriber_pool.py b/bolna/transcriber/transcriber_pool.py
diff --git a/pyproject.toml b/pyproject.toml

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,4 @@`
`1`		`-__version__ = "0.10.21"`
	`1`	`+__version__ = "0.10.23"`
`2`	`2`
`3`	`3`	`import os`
`4`	`4`	`from bolna.helpers.logger_config import configure_logger`