chore(api/core): apply ruff reformatting (#7624)

2024-09-10 17:00:20 +08:00
parent 178730266d
commit 2cf1187b32
724 changed files with 21180 additions and 21123 deletions
--- a/api/core/rag/datasource/vdb/qdrant/qdrant_vector.py
+++ b/api/core/rag/datasource/vdb/qdrant/qdrant_vector.py
@@ -48,28 +48,25 @@ class QdrantConfig(BaseModel):
    prefer_grpc: bool = False

    def to_qdrant_params(self):
-        if self.endpoint and self.endpoint.startswith('path:'):
-            path = self.endpoint.replace('path:', '')
+        if self.endpoint and self.endpoint.startswith("path:"):
+            path = self.endpoint.replace("path:", "")
            if not os.path.isabs(path):
                path = os.path.join(self.root_path, path)

-            return {
-                'path': path
-            }
+            return {"path": path}
        else:
            return {
-                'url': self.endpoint,
-                'api_key': self.api_key,
-                'timeout': self.timeout,
-                'verify': self.endpoint.startswith('https'),
-                'grpc_port': self.grpc_port,
-                'prefer_grpc': self.prefer_grpc
+                "url": self.endpoint,
+                "api_key": self.api_key,
+                "timeout": self.timeout,
+                "verify": self.endpoint.startswith("https"),
+                "grpc_port": self.grpc_port,
+                "prefer_grpc": self.prefer_grpc,
            }


 class QdrantVector(BaseVector):
-
-    def __init__(self, collection_name: str, group_id: str, config: QdrantConfig, distance_func: str = 'Cosine'):
+    def __init__(self, collection_name: str, group_id: str, config: QdrantConfig, distance_func: str = "Cosine"):
        super().__init__(collection_name)
        self._client_config = config
        self._client = qdrant_client.QdrantClient(**self._client_config.to_qdrant_params())
@@ -80,10 +77,7 @@ class QdrantVector(BaseVector):
        return VectorType.QDRANT

    def to_index_struct(self) -> dict:
-        return {
-            "type": self.get_type(),
-            "vector_store": {"class_prefix": self._collection_name}
-        }
+        return {"type": self.get_type(), "vector_store": {"class_prefix": self._collection_name}}

    def create(self, texts: list[Document], embeddings: list[list[float]], **kwargs):
        if texts:
@@ -97,9 +91,9 @@ class QdrantVector(BaseVector):
            self.add_texts(texts, embeddings, **kwargs)

    def create_collection(self, collection_name: str, vector_size: int):
-        lock_name = 'vector_indexing_lock_{}'.format(collection_name)
+        lock_name = "vector_indexing_lock_{}".format(collection_name)
        with redis_client.lock(lock_name, timeout=20):
-            collection_exist_cache_key = 'vector_indexing_{}'.format(self._collection_name)
+            collection_exist_cache_key = "vector_indexing_{}".format(self._collection_name)
            if redis_client.get(collection_exist_cache_key):
                return
            collection_name = collection_name or uuid.uuid4().hex
@@ -110,12 +104,19 @@ class QdrantVector(BaseVector):
                all_collection_name.append(collection.name)
            if collection_name not in all_collection_name:
                from qdrant_client.http import models as rest
+
                vectors_config = rest.VectorParams(
                    size=vector_size,
                    distance=rest.Distance[self._distance_func],
                )
-                hnsw_config = HnswConfigDiff(m=0, payload_m=16, ef_construct=100, full_scan_threshold=10000,
-                                             max_indexing_threads=0, on_disk=False)
+                hnsw_config = HnswConfigDiff(
+                    m=0,
+                    payload_m=16,
+                    ef_construct=100,
+                    full_scan_threshold=10000,
+                    max_indexing_threads=0,
+                    on_disk=False,
+                )
                self._client.recreate_collection(
                    collection_name=collection_name,
                    vectors_config=vectors_config,
@@ -124,21 +125,24 @@ class QdrantVector(BaseVector):
                )

                # create group_id payload index
-                self._client.create_payload_index(collection_name, Field.GROUP_KEY.value,
-                                                  field_schema=PayloadSchemaType.KEYWORD)
+                self._client.create_payload_index(
+                    collection_name, Field.GROUP_KEY.value, field_schema=PayloadSchemaType.KEYWORD
+                )
                # create doc_id payload index
-                self._client.create_payload_index(collection_name, Field.DOC_ID.value,
-                                                  field_schema=PayloadSchemaType.KEYWORD)
+                self._client.create_payload_index(
+                    collection_name, Field.DOC_ID.value, field_schema=PayloadSchemaType.KEYWORD
+                )
                # create full text index
                text_index_params = TextIndexParams(
                    type=TextIndexType.TEXT,
                    tokenizer=TokenizerType.MULTILINGUAL,
                    min_token_len=2,
                    max_token_len=20,
-                    lowercase=True
+                    lowercase=True,
+                )
+                self._client.create_payload_index(
+                    collection_name, Field.CONTENT_KEY.value, field_schema=text_index_params
                )
-                self._client.create_payload_index(collection_name, Field.CONTENT_KEY.value,
-                                                  field_schema=text_index_params)
            redis_client.set(collection_exist_cache_key, 1, ex=3600)

    def add_texts(self, documents: list[Document], embeddings: list[list[float]], **kwargs):
@@ -147,26 +151,23 @@ class QdrantVector(BaseVector):
        metadatas = [d.metadata for d in documents]

        added_ids = []
-        for batch_ids, points in self._generate_rest_batches(
-                texts, embeddings, metadatas, uuids, 64, self._group_id
-        ):
-            self._client.upsert(
-                collection_name=self._collection_name, points=points
-            )
+        for batch_ids, points in self._generate_rest_batches(texts, embeddings, metadatas, uuids, 64, self._group_id):
+            self._client.upsert(collection_name=self._collection_name, points=points)
            added_ids.extend(batch_ids)

        return added_ids

    def _generate_rest_batches(
-            self,
-            texts: Iterable[str],
-            embeddings: list[list[float]],
-            metadatas: Optional[list[dict]] = None,
-            ids: Optional[Sequence[str]] = None,
-            batch_size: int = 64,
-            group_id: Optional[str] = None,
+        self,
+        texts: Iterable[str],
+        embeddings: list[list[float]],
+        metadatas: Optional[list[dict]] = None,
+        ids: Optional[Sequence[str]] = None,
+        batch_size: int = 64,
+        group_id: Optional[str] = None,
    ) -> Generator[tuple[list[str], list[rest.PointStruct]], None, None]:
        from qdrant_client.http import models as rest
+
        texts_iterator = iter(texts)
        embeddings_iterator = iter(embeddings)
        metadatas_iterator = iter(metadatas or [])
@@ -203,13 +204,13 @@ class QdrantVector(BaseVector):

    @classmethod
    def _build_payloads(
-            cls,
-            texts: Iterable[str],
-            metadatas: Optional[list[dict]],
-            content_payload_key: str,
-            metadata_payload_key: str,
-            group_id: str,
-            group_payload_key: str
+        cls,
+        texts: Iterable[str],
+        metadatas: Optional[list[dict]],
+        content_payload_key: str,
+        metadata_payload_key: str,
+        group_id: str,
+        group_payload_key: str,
    ) -> list[dict]:
        payloads = []
        for i, text in enumerate(texts):
@@ -219,18 +220,11 @@ class QdrantVector(BaseVector):
                    "calling .from_texts or .add_texts on Qdrant instance."
                )
            metadata = metadatas[i] if metadatas is not None else None
-            payloads.append(
-                {
-                    content_payload_key: text,
-                    metadata_payload_key: metadata,
-                    group_payload_key: group_id
-                }
-            )
+            payloads.append({content_payload_key: text, metadata_payload_key: metadata, group_payload_key: group_id})

        return payloads

    def delete_by_metadata_field(self, key: str, value: str):
-
        from qdrant_client.http import models
        from qdrant_client.http.exceptions import UnexpectedResponse

@@ -248,9 +242,7 @@ class QdrantVector(BaseVector):

            self._client.delete(
                collection_name=self._collection_name,
-                points_selector=FilterSelector(
-                    filter=filter
-                ),
+                points_selector=FilterSelector(filter=filter),
            )
        except UnexpectedResponse as e:
            # Collection does not exist, so return
@@ -275,9 +267,7 @@ class QdrantVector(BaseVector):
            )
            self._client.delete(
                collection_name=self._collection_name,
-                points_selector=FilterSelector(
-                    filter=filter
-                ),
+                points_selector=FilterSelector(filter=filter),
            )
        except UnexpectedResponse as e:
            # Collection does not exist, so return
@@ -288,7 +278,6 @@ class QdrantVector(BaseVector):
                raise e

    def delete_by_ids(self, ids: list[str]) -> None:
-
        from qdrant_client.http import models
        from qdrant_client.http.exceptions import UnexpectedResponse

@@ -304,9 +293,7 @@ class QdrantVector(BaseVector):
                )
                self._client.delete(
                    collection_name=self._collection_name,
-                    points_selector=FilterSelector(
-                        filter=filter
-                    ),
+                    points_selector=FilterSelector(filter=filter),
                )
            except UnexpectedResponse as e:
                # Collection does not exist, so return
@@ -324,15 +311,13 @@ class QdrantVector(BaseVector):
            all_collection_name.append(collection.name)
        if self._collection_name not in all_collection_name:
            return False
-        response = self._client.retrieve(
-            collection_name=self._collection_name,
-            ids=[id]
-        )
+        response = self._client.retrieve(collection_name=self._collection_name, ids=[id])

        return len(response) > 0

    def search_by_vector(self, query_vector: list[float], **kwargs: Any) -> list[Document]:
        from qdrant_client.http import models
+
        filter = models.Filter(
            must=[
                models.FieldCondition(
@@ -348,22 +333,22 @@ class QdrantVector(BaseVector):
            limit=kwargs.get("top_k", 4),
            with_payload=True,
            with_vectors=True,
-            score_threshold=kwargs.get("score_threshold", .0)
+            score_threshold=kwargs.get("score_threshold", 0.0),
        )
        docs = []
        for result in results:
            metadata = result.payload.get(Field.METADATA_KEY.value) or {}
            # duplicate check score threshold
-            score_threshold = kwargs.get("score_threshold", .0) if kwargs.get('score_threshold', .0) else 0.0
+            score_threshold = kwargs.get("score_threshold", 0.0) if kwargs.get("score_threshold", 0.0) else 0.0
            if result.score > score_threshold:
-                metadata['score'] = result.score
+                metadata["score"] = result.score
                doc = Document(
                    page_content=result.payload.get(Field.CONTENT_KEY.value),
                    metadata=metadata,
                )
                docs.append(doc)
        # Sort the documents by score in descending order
-        docs = sorted(docs, key=lambda x: x.metadata['score'], reverse=True)
+        docs = sorted(docs, key=lambda x: x.metadata["score"], reverse=True)
        return docs

    def search_by_full_text(self, query: str, **kwargs: Any) -> list[Document]:
@@ -372,6 +357,7 @@ class QdrantVector(BaseVector):
            List of documents most similar to the query text and distance for each.
        """
        from qdrant_client.http import models
+
        scroll_filter = models.Filter(
            must=[
                models.FieldCondition(
@@ -381,24 +367,21 @@ class QdrantVector(BaseVector):
                models.FieldCondition(
                    key="page_content",
                    match=models.MatchText(text=query),
-                )
+                ),
            ]
        )
        response = self._client.scroll(
            collection_name=self._collection_name,
            scroll_filter=scroll_filter,
-            limit=kwargs.get('top_k', 2),
+            limit=kwargs.get("top_k", 2),
            with_payload=True,
-            with_vectors=True
-
+            with_vectors=True,
        )
        results = response[0]
        documents = []
        for result in results:
            if result:
-                document = self._document_from_scored_point(
-                    result, Field.CONTENT_KEY.value, Field.METADATA_KEY.value
-                )
+                document = self._document_from_scored_point(result, Field.CONTENT_KEY.value, Field.METADATA_KEY.value)
                documents.append(document)

        return documents
@@ -410,10 +393,10 @@ class QdrantVector(BaseVector):

    @classmethod
    def _document_from_scored_point(
-            cls,
-            scored_point: Any,
-            content_payload_key: str,
-            metadata_payload_key: str,
+        cls,
+        scored_point: Any,
+        content_payload_key: str,
+        metadata_payload_key: str,
    ) -> Document:
        return Document(
            page_content=scored_point.payload.get(content_payload_key),
@@ -425,24 +408,25 @@ class QdrantVector(BaseVector):
 class QdrantVectorFactory(AbstractVectorFactory):
    def init_vector(self, dataset: Dataset, attributes: list, embeddings: Embeddings) -> QdrantVector:
        if dataset.collection_binding_id:
-            dataset_collection_binding = db.session.query(DatasetCollectionBinding). \
-                filter(DatasetCollectionBinding.id == dataset.collection_binding_id). \
-                one_or_none()
+            dataset_collection_binding = (
+                db.session.query(DatasetCollectionBinding)
+                .filter(DatasetCollectionBinding.id == dataset.collection_binding_id)
+                .one_or_none()
+            )
            if dataset_collection_binding:
                collection_name = dataset_collection_binding.collection_name
            else:
-                raise ValueError('Dataset Collection Bindings is not exist!')
+                raise ValueError("Dataset Collection Bindings is not exist!")
        else:
            if dataset.index_struct_dict:
-                class_prefix: str = dataset.index_struct_dict['vector_store']['class_prefix']
+                class_prefix: str = dataset.index_struct_dict["vector_store"]["class_prefix"]
                collection_name = class_prefix
            else:
                dataset_id = dataset.id
                collection_name = Dataset.gen_collection_name_by_id(dataset_id)

        if not dataset.index_struct_dict:
-            dataset.index_struct = json.dumps(
-                self.gen_index_struct_dict(VectorType.QDRANT, collection_name))
+            dataset.index_struct = json.dumps(self.gen_index_struct_dict(VectorType.QDRANT, collection_name))

        config = current_app.config
        return QdrantVector(
@@ -454,6 +438,6 @@ class QdrantVectorFactory(AbstractVectorFactory):
                root_path=config.root_path,
                timeout=dify_config.QDRANT_CLIENT_TIMEOUT,
                grpc_port=dify_config.QDRANT_GRPC_PORT,
-                prefer_grpc=dify_config.QDRANT_GRPC_ENABLED
-            )
+                prefer_grpc=dify_config.QDRANT_GRPC_ENABLED,
+            ),
        )