Model Runtime (#1858)

Co-authored-by: StyleZhang <jasonapring2015@outlook.com> Co-authored-by: Garfield Dai <dai.hai@foxmail.com> Co-authored-by: chenhe <guchenhe@gmail.com> Co-authored-by: jyong <jyong@dify.ai> Co-authored-by: Joel <iamjoel007@gmail.com> Co-authored-by: Yeuoly <admin@srmxy.cn>
2024-01-02 23:42:00 +08:00
parent e91dd28a76
commit d069c668f8
807 changed files with 171310 additions and 23806 deletions
--- a/api/core/memory/read_only_conversation_token_db_buffer_shared_memory.py
+++ b/api/core/memory/read_only_conversation_token_db_buffer_shared_memory.py
@@ -1,95 +0,0 @@
-from typing import Any, List, Dict
-
-from langchain.memory.chat_memory import BaseChatMemory
-from langchain.schema import get_buffer_string, BaseMessage
-
-from core.file.message_file_parser import MessageFileParser
-from core.model_providers.models.entity.message import PromptMessage, MessageType, to_lc_messages
-from core.model_providers.models.llm.base import BaseLLM
-from extensions.ext_database import db
-from models.model import Conversation, Message
-
-
-class ReadOnlyConversationTokenDBBufferSharedMemory(BaseChatMemory):
-    conversation: Conversation
-    human_prefix: str = "Human"
-    ai_prefix: str = "Assistant"
-    model_instance: BaseLLM
-    memory_key: str = "chat_history"
-    max_token_limit: int = 2000
-    message_limit: int = 10
-
-    @property
-    def buffer(self) -> List[BaseMessage]:
-        """String buffer of memory."""
-        app_model = self.conversation.app
-
-        # fetch limited messages desc, and return reversed
-        messages = db.session.query(Message).filter(
-            Message.conversation_id == self.conversation.id,
-            Message.answer != ''
-        ).order_by(Message.created_at.desc()).limit(self.message_limit).all()
-
-        messages = list(reversed(messages))
-        message_file_parser = MessageFileParser(tenant_id=app_model.tenant_id, app_id=self.conversation.app_id)
-
-        chat_messages: List[PromptMessage] = []
-        for message in messages:
-            files = message.message_files
-            if files:
-                file_objs = message_file_parser.transform_message_files(
-                    files, message.app_model_config
-                )
-
-                prompt_message_files = [file_obj.prompt_message_file for file_obj in file_objs]
-                chat_messages.append(PromptMessage(
-                    content=message.query,
-                    type=MessageType.USER,
-                    files=prompt_message_files
-                ))
-            else:
-                chat_messages.append(PromptMessage(content=message.query, type=MessageType.USER))
-
-            chat_messages.append(PromptMessage(content=message.answer, type=MessageType.ASSISTANT))
-
-        if not chat_messages:
-            return []
-
-        # prune the chat message if it exceeds the max token limit
-        curr_buffer_length = self.model_instance.get_num_tokens(chat_messages)
-        if curr_buffer_length > self.max_token_limit:
-            pruned_memory = []
-            while curr_buffer_length > self.max_token_limit and chat_messages:
-                pruned_memory.append(chat_messages.pop(0))
-                curr_buffer_length = self.model_instance.get_num_tokens(chat_messages)
-
-        return to_lc_messages(chat_messages)
-
-    @property
-    def memory_variables(self) -> List[str]:
-        """Will always return list of memory variables.
-
-        :meta private:
-        """
-        return [self.memory_key]
-
-    def load_memory_variables(self, inputs: Dict[str, Any]) -> Dict[str, Any]:
-        """Return history buffer."""
-        buffer: Any = self.buffer
-        if self.return_messages:
-            final_buffer: Any = buffer
-        else:
-            final_buffer = get_buffer_string(
-                buffer,
-                human_prefix=self.human_prefix,
-                ai_prefix=self.ai_prefix,
-            )
-        return {self.memory_key: final_buffer}
-
-    def save_context(self, inputs: Dict[str, Any], outputs: Dict[str, str]) -> None:
-        """Nothing should be saved or changed"""
-        pass
-
-    def clear(self) -> None:
-        """Nothing to clear, got a memory like a vault."""
-        pass
--- a/api/core/memory/read_only_conversation_token_db_string_buffer_shared_memory.py
+++ b/api/core/memory/read_only_conversation_token_db_string_buffer_shared_memory.py
@@ -1,36 +0,0 @@
-from typing import Any, List, Dict
-
-from langchain.memory.chat_memory import BaseChatMemory
-from langchain.schema import get_buffer_string
-
-from core.memory.read_only_conversation_token_db_buffer_shared_memory import \
-    ReadOnlyConversationTokenDBBufferSharedMemory
-
-
-class ReadOnlyConversationTokenDBStringBufferSharedMemory(BaseChatMemory):
-    memory: ReadOnlyConversationTokenDBBufferSharedMemory
-
-    @property
-    def memory_variables(self) -> List[str]:
-        """Return memory variables."""
-        return self.memory.memory_variables
-
-    def load_memory_variables(self, inputs: Dict[str, Any]) -> Dict[str, str]:
-        """Load memory variables from memory."""
-        buffer: Any = self.memory.buffer
-
-        final_buffer = get_buffer_string(
-            buffer,
-            human_prefix=self.memory.human_prefix,
-            ai_prefix=self.memory.ai_prefix,
-        )
-
-        return {self.memory.memory_key: final_buffer}
-
-    def save_context(self, inputs: Dict[str, Any], outputs: Dict[str, str]) -> None:
-        """Nothing should be saved or changed"""
-        pass
-
-    def clear(self) -> None:
-        """Nothing to clear, got a memory like a vault."""
-        pass
--- a/api/core/memory/token_buffer_memory.py
+++ b/api/core/memory/token_buffer_memory.py
@@ -0,0 +1,109 @@
+from core.file.message_file_parser import MessageFileParser
+from core.model_manager import ModelInstance
+from core.model_runtime.entities.message_entities import PromptMessage, TextPromptMessageContent, UserPromptMessage, \
+    AssistantPromptMessage, PromptMessageRole
+from core.model_runtime.entities.model_entities import ModelType
+from core.model_runtime.model_providers import model_provider_factory
+from extensions.ext_database import db
+from models.model import Conversation, Message
+
+
+class TokenBufferMemory:
+    def __init__(self, conversation: Conversation, model_instance: ModelInstance) -> None:
+        self.conversation = conversation
+        self.model_instance = model_instance
+
+    def get_history_prompt_messages(self, max_token_limit: int = 2000,
+                                    message_limit: int = 10) -> list[PromptMessage]:
+        """
+        Get history prompt messages.
+        :param max_token_limit: max token limit
+        :param message_limit: message limit
+        """
+        app_record = self.conversation.app
+
+        # fetch limited messages, and return reversed
+        messages = db.session.query(Message).filter(
+            Message.conversation_id == self.conversation.id,
+            Message.answer != ''
+        ).order_by(Message.created_at.desc()).limit(message_limit).all()
+
+        messages = list(reversed(messages))
+        message_file_parser = MessageFileParser(
+            tenant_id=app_record.tenant_id,
+            app_id=app_record.id
+        )
+
+        prompt_messages = []
+        for message in messages:
+            files = message.message_files
+            if files:
+                file_objs = message_file_parser.transform_message_files(
+                    files, message.app_model_config
+                )
+
+                prompt_message_contents = [TextPromptMessageContent(data=message.query)]
+                for file_obj in file_objs:
+                    prompt_message_contents.append(file_obj.prompt_message_content)
+
+                prompt_messages.append(UserPromptMessage(content=prompt_message_contents))
+            else:
+                prompt_messages.append(UserPromptMessage(content=message.query))
+
+            prompt_messages.append(AssistantPromptMessage(content=message.answer))
+
+        if not prompt_messages:
+            return []
+
+        # prune the chat message if it exceeds the max token limit
+        provider_instance = model_provider_factory.get_provider_instance(self.model_instance.provider)
+        model_type_instance = provider_instance.get_model_instance(ModelType.LLM)
+
+        curr_message_tokens = model_type_instance.get_num_tokens(
+            self.model_instance.model,
+            self.model_instance.credentials,
+            prompt_messages
+        )
+
+        if curr_message_tokens > max_token_limit:
+            pruned_memory = []
+            while curr_message_tokens > max_token_limit and prompt_messages:
+                pruned_memory.append(prompt_messages.pop(0))
+                curr_message_tokens = model_type_instance.get_num_tokens(
+                    self.model_instance.model,
+                    self.model_instance.credentials,
+                    prompt_messages
+                )
+
+        return prompt_messages
+
+    def get_history_prompt_text(self, human_prefix: str = "Human",
+                                ai_prefix: str = "Assistant",
+                                max_token_limit: int = 2000,
+                                message_limit: int = 10) -> str:
+        """
+        Get history prompt text.
+        :param human_prefix: human prefix
+        :param ai_prefix: ai prefix
+        :param max_token_limit: max token limit
+        :param message_limit: message limit
+        :return:
+        """
+        prompt_messages = self.get_history_prompt_messages(
+            max_token_limit=max_token_limit,
+            message_limit=message_limit
+        )
+
+        string_messages = []
+        for m in prompt_messages:
+            if m.role == PromptMessageRole.USER:
+                role = human_prefix
+            elif m.role == PromptMessageRole.ASSISTANT:
+                role = ai_prefix
+            else:
+                continue
+
+            message = f"{role}: {m.content}"
+            string_messages.append(message)
+
+        return "\n".join(string_messages)