support images and tables extract from docx (#4619)

2024-11-16 11:42:29 +08:00 · 2024-05-23 18:05:23 +08:00 · 2024-05-23 18:05:23 +08:00 · 233c4150d1
commit 233c4150d1
parent 5893ebec55
10 changed files with 163 additions and 23 deletions
--- a/api/core/indexing_runner.py
+++ b/api/core/indexing_runner.py
@ -428,7 +428,7 @@ class IndexingRunner:
                chunk_size=segmentation["max_tokens"],
                chunk_overlap=chunk_overlap,
                fixed_separator=separator,
-                separators=["\n\n", "。", ".", " ", ""],
+                separators=["\n\n", "。", ". ", " ", ""],
                embedding_model_instance=embedding_model_instance
            )
        else:
@ -436,7 +436,7 @@ class IndexingRunner:
            character_splitter = EnhanceRecursiveCharacterTextSplitter.from_encoder(
                chunk_size=DatasetProcessRule.AUTOMATIC_RULES['segmentation']['max_tokens'],
                chunk_overlap=DatasetProcessRule.AUTOMATIC_RULES['segmentation']['chunk_overlap'],
-                separators=["\n\n", "。", ".", " ", ""],
+                separators=["\n\n", "。", ". ", " ", ""],
                embedding_model_instance=embedding_model_instance
            )
--- a/api/core/rag/extractor/extract_processor.py
+++ b/api/core/rag/extractor/extract_processor.py
@ -16,7 +16,6 @@ from core.rag.extractor.markdown_extractor import MarkdownExtractor
 from core.rag.extractor.notion_extractor import NotionExtractor
 from core.rag.extractor.pdf_extractor import PdfExtractor
 from core.rag.extractor.text_extractor import TextExtractor
 from core.rag.extractor.unstructured.unstructured_doc_extractor import UnstructuredWordExtractor
 from core.rag.extractor.unstructured.unstructured_eml_extractor import UnstructuredEmailExtractor
 from core.rag.extractor.unstructured.unstructured_epub_extractor import UnstructuredEpubExtractor
 from core.rag.extractor.unstructured.unstructured_markdown_extractor import UnstructuredMarkdownExtractor
@ -108,7 +107,7 @@ class ExtractProcessor:
                    elif file_extension in ['.htm', '.html']:
                        extractor = HtmlExtractor(file_path)
                    elif file_extension in ['.docx']:
-                        extractor = UnstructuredWordExtractor(file_path, unstructured_api_url)
+                        extractor = WordExtractor(file_path, upload_file.tenant_id, upload_file.created_by)
                    elif file_extension == '.csv':
                        extractor = CSVExtractor(file_path, autodetect_encoding=True)
                    elif file_extension == '.msg':
@ -137,7 +136,7 @@ class ExtractProcessor:
                    elif file_extension in ['.htm', '.html']:
                        extractor = HtmlExtractor(file_path)
                    elif file_extension in ['.docx']:
-                        extractor = WordExtractor(file_path)
+                        extractor = WordExtractor(file_path, upload_file.tenant_id, upload_file.created_by)
                    elif file_extension == '.csv':
                        extractor = CSVExtractor(file_path, autodetect_encoding=True)
                    elif file_extension == 'epub':
--- a/api/core/rag/extractor/word_extractor.py
+++ b/api/core/rag/extractor/word_extractor.py
@ -1,12 +1,20 @@
 """Abstract interface for document loader implementations."""
 import datetime
 import mimetypes
 import os
 import tempfile
 import uuid
 from urllib.parse import urlparse
 import requests
 from docx import Document as DocxDocument
 from flask import current_app
 from core.rag.extractor.extractor_base import BaseExtractor
 from core.rag.models.document import Document
 from extensions.ext_database import db
 from extensions.ext_storage import storage
 from models.model import UploadFile
 class WordExtractor(BaseExtractor):
@ -17,9 +25,12 @@ class WordExtractor(BaseExtractor):
        file_path: Path to the file to load.
    """
-    def __init__(self, file_path: str):
+    def __init__(self, file_path: str, tenant_id: str, user_id: str):
        """Initialize with file path."""
        self.file_path = file_path
        self.tenant_id = tenant_id
        self.user_id = user_id
        if "~" in self.file_path:
            self.file_path = os.path.expanduser(self.file_path)
@ -45,12 +56,7 @@ class WordExtractor(BaseExtractor):
    def extract(self) -> list[Document]:
        """Load given path as single page."""
-        from docx import Document as docx_Document
+        content = self.parse_docx(self.file_path, 'storage')
        document = docx_Document(self.file_path)
        doc_texts = [paragraph.text for paragraph in document.paragraphs]
        content = '\n'.join(doc_texts)
        return [Document(
            page_content=content,
            metadata={"source": self.file_path},
@ -61,3 +67,111 @@ class WordExtractor(BaseExtractor):
        """Check if the url is valid."""
        parsed = urlparse(url)
        return bool(parsed.netloc) and bool(parsed.scheme)
    def _extract_images_from_docx(self, doc, image_folder):
        os.makedirs(image_folder, exist_ok=True)
        image_count = 0
        image_map = {}
        for rel in doc.part.rels.values():
            if "image" in rel.target_ref:
                image_count += 1
                image_ext = rel.target_ref.split('.')[-1]
                # user uuid as file name
                file_uuid = str(uuid.uuid4())
                file_key = 'image_files/' + self.tenant_id + '/' + file_uuid + '.' + image_ext
                mime_type, _ = mimetypes.guess_type(file_key)
                storage.save(file_key, rel.target_part.blob)
                # save file to db
                config = current_app.config
                upload_file = UploadFile(
                    tenant_id=self.tenant_id,
                    storage_type=config['STORAGE_TYPE'],
                    key=file_key,
                    name=file_key,
                    size=0,
                    extension=image_ext,
                    mime_type=mime_type,
                    created_by=self.user_id,
                    created_at=datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None),
                    used=True,
                    used_by=self.user_id,
                    used_at=datetime.datetime.now(datetime.timezone.utc).replace(tzinfo=None)
                )
                db.session.add(upload_file)
                db.session.commit()
                image_map[rel.target_part] = f"![image]({current_app.config.get('CONSOLE_API_URL')}/files/{upload_file.id}/image-preview)"
        return image_map
    def _table_to_markdown(self, table):
        markdown = ""
        # deal with table headers
        header_row = table.rows[0]
        headers = [cell.text for cell in header_row.cells]
        markdown += "| " + " | ".join(headers) + " |\n"
        markdown += "| " + " | ".join(["---"] * len(headers)) + " |\n"
        # deal with table rows
        for row in table.rows[1:]:
            row_cells = [cell.text for cell in row.cells]
            markdown += "| " + " | ".join(row_cells) + " |\n"
        return markdown
    def _parse_paragraph(self, paragraph, image_map):
        paragraph_content = []
        for run in paragraph.runs:
            if run.element.xpath('.//a:blip'):
                for blip in run.element.xpath('.//a:blip'):
                    embed_id = blip.get('{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed')
                    if embed_id:
                        rel_target = run.part.rels[embed_id].target_ref
                        if rel_target in image_map:
                            paragraph_content.append(image_map[rel_target])
            if run.text.strip():
                paragraph_content.append(run.text.strip())
        return ' '.join(paragraph_content) if paragraph_content else ''
    def parse_docx(self, docx_path, image_folder):
        doc = DocxDocument(docx_path)
        os.makedirs(image_folder, exist_ok=True)
        content = []
        image_map = self._extract_images_from_docx(doc, image_folder)
        def parse_paragraph(paragraph):
            paragraph_content = []
            for run in paragraph.runs:
                if run.element.tag.endswith('r'):
                    drawing_elements = run.element.findall(
                        './/{http://schemas.openxmlformats.org/wordprocessingml/2006/main}drawing')
                    for drawing in drawing_elements:
                        blip_elements = drawing.findall(
                            './/{http://schemas.openxmlformats.org/drawingml/2006/main}blip')
                        for blip in blip_elements:
                            embed_id = blip.get(
                                '{http://schemas.openxmlformats.org/officeDocument/2006/relationships}embed')
                            if embed_id:
                                image_part = doc.part.related_parts.get(embed_id)
                                if image_part in image_map:
                                    paragraph_content.append(image_map[image_part])
                if run.text.strip():
                    paragraph_content.append(run.text.strip())
            return ''.join(paragraph_content) if paragraph_content else ''
        paragraphs = doc.paragraphs.copy()
        tables = doc.tables.copy()
        for element in doc.element.body:
            if element.tag.endswith('p'):  # paragraph
                para = paragraphs.pop(0)
                parsed_paragraph = parse_paragraph(para)
                if parsed_paragraph:
                    content.append(parsed_paragraph)
            elif element.tag.endswith('tbl'):  # table
                table = tables.pop(0)
                content.append(self._table_to_markdown(table))
        return '\n'.join(content)
--- a/api/core/rag/index_processor/index_processor_base.py
+++ b/api/core/rag/index_processor/index_processor_base.py
@ -57,7 +57,7 @@ class BaseIndexProcessor(ABC):
                chunk_size=segmentation["max_tokens"],
                chunk_overlap=segmentation.get('chunk_overlap', 0),
                fixed_separator=separator,
-                separators=["\n\n", "。", ".", " ", ""],
+                separators=["\n\n", "。", ". ", " ", ""],
                embedding_model_instance=embedding_model_instance
            )
        else:
@ -65,7 +65,7 @@ class BaseIndexProcessor(ABC):
            character_splitter = EnhanceRecursiveCharacterTextSplitter.from_encoder(
                chunk_size=DatasetProcessRule.AUTOMATIC_RULES['segmentation']['max_tokens'],
                chunk_overlap=DatasetProcessRule.AUTOMATIC_RULES['segmentation']['chunk_overlap'],
-                separators=["\n\n", "。", ".", " ", ""],
+                separators=["\n\n", "。", ". ", " ", ""],
                embedding_model_instance=embedding_model_instance
            )
--- a/api/core/rag/retrieval/dataset_retrieval.py
+++ b/api/core/rag/retrieval/dataset_retrieval.py
@ -144,9 +144,9 @@ class DatasetRetrieval:
                                                                                       float('inf')))
            for segment in sorted_segments:
                if segment.answer:
-                    document_context_list.append(f'question:{segment.content} answer:{segment.answer}')
+                    document_context_list.append(f'question:{segment.get_sign_content()} answer:{segment.answer}')
                else:
-                    document_context_list.append(segment.content)
+                    document_context_list.append(segment.get_sign_content())
            if show_retrieve_source:
                context_list = []
                resource_number = 1
--- a/api/core/splitter/text_splitter.py
+++ b/api/core/splitter/text_splitter.py
@ -94,7 +94,7 @@ class TextSplitter(BaseDocumentTransformer, ABC):
                documents.append(new_doc)
        return documents
-    def split_documents(self, documents: Iterable[Document] ) -> list[Document]:
+    def split_documents(self, documents: Iterable[Document]) -> list[Document]:
        """Split documents."""
        texts, metadatas = [], []
        for doc in documents:
--- a/api/core/tools/tool/dataset_retriever/dataset_multi_retriever_tool.py
+++ b/api/core/tools/tool/dataset_retriever/dataset_multi_retriever_tool.py
@ -99,9 +99,9 @@ class DatasetMultiRetrieverTool(DatasetRetrieverBaseTool):
                                                                                       float('inf')))
            for segment in sorted_segments:
                if segment.answer:
-                    document_context_list.append(f'question:{segment.content} answer:{segment.answer}')
+                    document_context_list.append(f'question:{segment.get_sign_content()} answer:{segment.answer}')
                else:
-                    document_context_list.append(segment.content)
+                    document_context_list.append(segment.get_sign_content())
            if self.return_resource:
                context_list = []
                resource_number = 1
--- a/api/core/tools/tool/dataset_retriever/dataset_retriever_tool.py
+++ b/api/core/tools/tool/dataset_retriever/dataset_retriever_tool.py
@ -105,9 +105,9 @@ class DatasetRetrieverTool(DatasetRetrieverBaseTool):
                                                                                           float('inf')))
                for segment in sorted_segments:
                    if segment.answer:
-                        document_context_list.append(f'question:{segment.content} answer:{segment.answer}')
+                        document_context_list.append(f'question:{segment.get_sign_content()} answer:{segment.answer}')
                    else:
-                        document_context_list.append(segment.content)
+                        document_context_list.append(segment.get_sign_content())
                if self.return_resource:
                    context_list = []
                    resource_number = 1
--- a/api/core/workflow/nodes/knowledge_retrieval/knowledge_retrieval_node.py
+++ b/api/core/workflow/nodes/knowledge_retrieval/knowledge_retrieval_node.py
@ -191,9 +191,9 @@ class KnowledgeRetrievalNode(BaseNode):
                            'title': document.name
                        }
                        if segment.answer:
-                            source['content'] = f'question:{segment.content} \nanswer:{segment.answer}'
+                            source['content'] = f'question:{segment.get_sign_content()} \nanswer:{segment.answer}'
                        else:
-                            source['content'] = segment.content
+                            source['content'] = segment.get_sign_content()
                        context_list.append(source)
                        resource_number += 1
        return context_list
--- a/api/models/dataset.py
+++ b/api/models/dataset.py
@ -1,8 +1,15 @@
 import base64
 import hashlib
 import hmac
 import json
 import logging
 import os
 import pickle
 import re
 import time
 from json import JSONDecodeError
 from flask import current_app
 from sqlalchemy import func
 from sqlalchemy.dialects.postgresql import JSONB
@ -414,6 +421,26 @@ class DocumentSegment(db.Model):
            DocumentSegment.position == self.position + 1
        ).first()
    def get_sign_content(self):
        pattern = r"/files/([a-f0-9\-]+)/image-preview"
        text = self.content
        match = re.search(pattern, text)
        if match:
            upload_file_id = match.group(1)
            nonce = os.urandom(16).hex()
            timestamp = str(int(time.time()))
            data_to_sign = f"image-preview|{upload_file_id}|{timestamp}|{nonce}"
            secret_key = current_app.config['SECRET_KEY'].encode()
            sign = hmac.new(secret_key, data_to_sign.encode(), hashlib.sha256).digest()
            encoded_sign = base64.urlsafe_b64encode(sign).decode()
            params = f"timestamp={timestamp}&nonce={nonce}&sign={encoded_sign}"
            replacement = r"\g<0>?{params}".format(params=params)
            text = re.sub(pattern, replacement, text)
        return text
 class AppDatasetJoin(db.Model):
    __tablename__ = 'app_dataset_joins'