Переглянути джерело

性能优化,优化计算 token 的 cpu 开销

luojunhui 1 тиждень тому
батько
коміт
9f2fd7770f
1 змінених файлів з 1 додано та 1 видалено
  1. 1 1
      applications/utils/nlp/split_text_into_sentences.py

+ 1 - 1
applications/utils/nlp/split_text_into_sentences.py

@@ -13,6 +13,6 @@ class SplitTextIntoSentences:
 
     @staticmethod
     def lang_chain_tokenize(text: str) -> List[str]:
-        splitter = RecursiveCharacterTextSplitter(chunk_size=100, chunk_overlap=10)
+        splitter = RecursiveCharacterTextSplitter(chunk_size=64, chunk_overlap=16)
         docs = splitter.split_text(text)
         return docs