fix(graph_engine): error strategy fall. (#26078)

Signed-off-by: -LAN- <laipz8200@outlook.com>
2025-09-23 01:51:43 +08:00
parent f4522fd695
commit 2e2c87c5a1
8 changed files with 255 additions and 84 deletions
--- a/api/tests/unit_tests/core/workflow/graph_engine/event_management/test_event_handlers.py
+++ b/api/tests/unit_tests/core/workflow/graph_engine/event_management/test_event_handlers.py
@@ -0,0 +1,120 @@
+"""Tests for graph engine event handlers."""
+
+from __future__ import annotations
+
+from datetime import datetime
+
+from core.workflow.entities import GraphRuntimeState, VariablePool
+from core.workflow.enums import NodeExecutionType, NodeState, NodeType, WorkflowNodeExecutionStatus
+from core.workflow.graph import Graph
+from core.workflow.graph_engine.domain.graph_execution import GraphExecution
+from core.workflow.graph_engine.event_management.event_handlers import EventHandler
+from core.workflow.graph_engine.event_management.event_manager import EventManager
+from core.workflow.graph_engine.graph_state_manager import GraphStateManager
+from core.workflow.graph_engine.ready_queue.in_memory import InMemoryReadyQueue
+from core.workflow.graph_engine.response_coordinator.coordinator import ResponseStreamCoordinator
+from core.workflow.graph_events import NodeRunRetryEvent, NodeRunStartedEvent
+from core.workflow.node_events import NodeRunResult
+from core.workflow.nodes.base.entities import RetryConfig
+
+
+class _StubEdgeProcessor:
+    """Minimal edge processor stub for tests."""
+
+
+class _StubErrorHandler:
+    """Minimal error handler stub for tests."""
+
+
+class _StubNode:
+    """Simple node stub exposing the attributes needed by the state manager."""
+
+    def __init__(self, node_id: str) -> None:
+        self.id = node_id
+        self.state = NodeState.UNKNOWN
+        self.title = "Stub Node"
+        self.execution_type = NodeExecutionType.EXECUTABLE
+        self.error_strategy = None
+        self.retry_config = RetryConfig()
+        self.retry = False
+
+
+def _build_event_handler(node_id: str) -> tuple[EventHandler, EventManager, GraphExecution]:
+    """Construct an EventHandler with in-memory dependencies for testing."""
+
+    node = _StubNode(node_id)
+    graph = Graph(nodes={node_id: node}, edges={}, in_edges={}, out_edges={}, root_node=node)
+
+    variable_pool = VariablePool()
+    runtime_state = GraphRuntimeState(variable_pool=variable_pool, start_at=0.0)
+    graph_execution = GraphExecution(workflow_id="test-workflow")
+
+    event_manager = EventManager()
+    state_manager = GraphStateManager(graph=graph, ready_queue=InMemoryReadyQueue())
+    response_coordinator = ResponseStreamCoordinator(variable_pool=variable_pool, graph=graph)
+
+    handler = EventHandler(
+        graph=graph,
+        graph_runtime_state=runtime_state,
+        graph_execution=graph_execution,
+        response_coordinator=response_coordinator,
+        event_collector=event_manager,
+        edge_processor=_StubEdgeProcessor(),
+        state_manager=state_manager,
+        error_handler=_StubErrorHandler(),
+    )
+
+    return handler, event_manager, graph_execution
+
+
+def test_retry_does_not_emit_additional_start_event() -> None:
+    """Ensure retry attempts do not produce duplicate start events."""
+
+    node_id = "test-node"
+    handler, event_manager, graph_execution = _build_event_handler(node_id)
+
+    execution_id = "exec-1"
+    node_type = NodeType.CODE
+    start_time = datetime.utcnow()
+
+    start_event = NodeRunStartedEvent(
+        id=execution_id,
+        node_id=node_id,
+        node_type=node_type,
+        node_title="Stub Node",
+        start_at=start_time,
+    )
+    handler.dispatch(start_event)
+
+    retry_event = NodeRunRetryEvent(
+        id=execution_id,
+        node_id=node_id,
+        node_type=node_type,
+        node_title="Stub Node",
+        start_at=start_time,
+        error="boom",
+        retry_index=1,
+        node_run_result=NodeRunResult(
+            status=WorkflowNodeExecutionStatus.FAILED,
+            error="boom",
+            error_type="TestError",
+        ),
+    )
+    handler.dispatch(retry_event)
+
+    # Simulate the node starting execution again after retry
+    second_start_event = NodeRunStartedEvent(
+        id=execution_id,
+        node_id=node_id,
+        node_type=node_type,
+        node_title="Stub Node",
+        start_at=start_time,
+    )
+    handler.dispatch(second_start_event)
+
+    collected_types = [type(event) for event in event_manager._events]  # type: ignore[attr-defined]
+
+    assert collected_types == [NodeRunStartedEvent, NodeRunRetryEvent]
+
+    node_execution = graph_execution.get_or_create_node_execution(node_id)
+    assert node_execution.retry_count == 1
--- a/api/tests/unit_tests/core/workflow/graph_engine/test_graph_engine.py
+++ b/api/tests/unit_tests/core/workflow/graph_engine/test_graph_engine.py
@@ -10,11 +10,18 @@ import time
 from hypothesis import HealthCheck, given, settings
 from hypothesis import strategies as st

+from core.workflow.enums import ErrorStrategy
 from core.workflow.graph_engine import GraphEngine
 from core.workflow.graph_engine.command_channels import InMemoryChannel
-from core.workflow.graph_events import GraphRunStartedEvent, GraphRunSucceededEvent
+from core.workflow.graph_events import (
+    GraphRunPartialSucceededEvent,
+    GraphRunStartedEvent,
+    GraphRunSucceededEvent,
+)
+from core.workflow.nodes.base.entities import DefaultValue, DefaultValueType

 # Import the test framework from the new module
+from .test_mock_config import MockConfigBuilder
 from .test_table_runner import TableTestRunner, WorkflowRunner, WorkflowTestCase


@@ -721,3 +728,39 @@ def test_event_sequence_validation_with_table_tests():
        else:
            assert result.event_sequence_match is True
        assert result.success, f"Test {i + 1} failed: {result.event_mismatch_details or result.error}"
+
+
+def test_graph_run_emits_partial_success_when_node_failure_recovered():
+    runner = TableTestRunner()
+
+    fixture_data = runner.workflow_runner.load_fixture("basic_chatflow")
+    mock_config = MockConfigBuilder().with_node_error("llm", "mock llm failure").build()
+
+    graph, graph_runtime_state = runner.workflow_runner.create_graph_from_fixture(
+        fixture_data=fixture_data,
+        query="hello",
+        use_mock_factory=True,
+        mock_config=mock_config,
+    )
+
+    llm_node = graph.nodes["llm"]
+    base_node_data = llm_node.get_base_node_data()
+    base_node_data.error_strategy = ErrorStrategy.DEFAULT_VALUE
+    base_node_data.default_value = [DefaultValue(key="text", value="fallback response", type=DefaultValueType.STRING)]
+
+    engine = GraphEngine(
+        workflow_id="test_workflow",
+        graph=graph,
+        graph_runtime_state=graph_runtime_state,
+        command_channel=InMemoryChannel(),
+    )
+
+    events = list(engine.run())
+
+    assert isinstance(events[-1], GraphRunPartialSucceededEvent)
+
+    partial_event = next(event for event in events if isinstance(event, GraphRunPartialSucceededEvent))
+    assert partial_event.exceptions_count == 1
+    assert partial_event.outputs.get("answer") == "fallback response"
+
+    assert not any(isinstance(event, GraphRunSucceededEvent) for event in events)
--- a/api/tests/unit_tests/core/workflow/nodes/test_retry.py
+++ b/api/tests/unit_tests/core/workflow/nodes/test_retry.py
@@ -1,65 +0,0 @@
-import pytest
-
-pytest.skip(
-    "Retry functionality is part of Phase 2 enhanced error handling - not implemented in MVP of queue-based engine",
-    allow_module_level=True,
-)
-
-DEFAULT_VALUE_EDGE = [
-    {
-        "id": "start-source-node-target",
-        "source": "start",
-        "target": "node",
-        "sourceHandle": "source",
-    },
-    {
-        "id": "node-source-answer-target",
-        "source": "node",
-        "target": "answer",
-        "sourceHandle": "source",
-    },
-]
-
-
-def test_retry_default_value_partial_success():
-    """retry default value node with partial success status"""
-    graph_config = {
-        "edges": DEFAULT_VALUE_EDGE,
-        "nodes": [
-            {"data": {"title": "start", "type": "start", "variables": []}, "id": "start"},
-            {"data": {"title": "answer", "type": "answer", "answer": "{{#node.result#}}"}, "id": "answer"},
-            ContinueOnErrorTestHelper.get_http_node(
-                "default-value",
-                [{"key": "result", "type": "string", "value": "http node got error response"}],
-                retry_config={"retry_config": {"max_retries": 2, "retry_interval": 1000, "retry_enabled": True}},
-            ),
-        ],
-    }
-
-    graph_engine = ContinueOnErrorTestHelper.create_test_graph_engine(graph_config)
-    events = list(graph_engine.run())
-    assert sum(1 for e in events if isinstance(e, NodeRunRetryEvent)) == 2
-    assert events[-1].outputs == {"answer": "http node got error response"}
-    assert any(isinstance(e, GraphRunPartialSucceededEvent) for e in events)
-    assert len(events) == 11
-
-
-def test_retry_failed():
-    """retry failed with success status"""
-    graph_config = {
-        "edges": DEFAULT_VALUE_EDGE,
-        "nodes": [
-            {"data": {"title": "start", "type": "start", "variables": []}, "id": "start"},
-            {"data": {"title": "answer", "type": "answer", "answer": "{{#node.result#}}"}, "id": "answer"},
-            ContinueOnErrorTestHelper.get_http_node(
-                None,
-                None,
-                retry_config={"retry_config": {"max_retries": 2, "retry_interval": 1000, "retry_enabled": True}},
-            ),
-        ],
-    }
-    graph_engine = ContinueOnErrorTestHelper.create_test_graph_engine(graph_config)
-    events = list(graph_engine.run())
-    assert sum(1 for e in events if isinstance(e, NodeRunRetryEvent)) == 2
-    assert any(isinstance(e, GraphRunFailedEvent) for e in events)
-    assert len(events) == 8