buscador_analistas_IA

Running

App Files Files Community

tuliodisanto commited on Jul 2

Commit

bbe0e55

verified ·

1 Parent(s): b75d7bb

Update dic_convert.py

Browse files

Files changed (1) hide show

dic_convert.py +32 -26

dic_convert.py CHANGED Viewed

@@ -1,26 +1,21 @@
 # -*- coding: utf-8 -*-
 """
-Script para processar a planilha TUSS, extrair termos de colunas específicas.
 Versão do Python: 3.12+
 Bibliotecas necessárias: pandas, openpyxl
------------------------------------------------------------------------------
-*** ANTES DE EXECUTAR, INSTALE AS BIBLIOTECAS NECESSÁRIAS ***
-Abra o terminal e digite:
-pip install pandas openpyxl
------------------------------------------------------------------------------
 """
 import pandas as pd
 import re
 import os
 def gerar_dicionario_de_termos(input_file: str, output_file: str):
     """
-    Lê uma planilha Excel, extrai palavras de colunas predefinidas, aplica filtros
-    para remover stop words e números, e salva uma lista de palavras únicas em um
-    arquivo CSV compatível com Excel.
     Args:
         input_file (str): O caminho para a planilha Excel de entrada.
@@ -33,32 +28,44 @@ def gerar_dicionario_de_termos(input_file: str, output_file: str):
     # --- 2. VALIDAÇÃO DO ARQUIVO DE ENTRADA ---
     if not os.path.exists(input_file):
         print(f"ERRO: O arquivo de entrada '{input_file}' não foi encontrado.")
-        print("Certifique-se de que ele está no mesmo diretório do script ou forneça o caminho completo.")
         return
     print(f"Iniciando o processamento do arquivo: '{input_file}'...")
     try:
         # --- 3. LEITURA E PROCESSAMENTO ---
-        df = pd.read_excel(input_file, header=0, usecols=colunas_para_usar)
         print(f"Colunas lidas com sucesso: {list(df.columns)}")
-        palavras_validas = []
         for column in df.columns:
-            phrases = df[column].dropna().astype(str)
-            for phrase in phrases:
-                words = re.findall(r'\w+|[^\s\w]', phrase.lower())
         # --- 4. GERAÇÃO DO DATAFRAME FINAL ---
-        if not palavras_validas:
-            print("Nenhuma palavra válida foi encontrada após a aplicação dos filtros.")
             return
-        output_df = pd.DataFrame(palavras_validas, columns=['Termo_Correto'])
-        print(f"\nTotal de termos extraídos (após filtros, com duplicatas): {len(output_df)}")
-        output_df = output_df.drop_duplicates().sort_values(by='Termo_Correto').reset_index(drop=True)
-        print(f"Total de termos únicos no dicionário final: {len(output_df)}")
         # --- 5. SALVANDO O RESULTADO EM CSV ---
         # Usa 'utf-8-sig' para que os acentos abram corretamente no Excel.
@@ -67,7 +74,7 @@ def gerar_dicionario_de_termos(input_file: str, output_file: str):
         print("\n--- Processamento Concluído! ---")
         print(f"O arquivo '{output_file}' foi criado com sucesso.")
         print("\nAmostra do dicionário gerado:")
-        print(output_df.head())
     except Exception as e:
         print(f"\nOcorreu um erro inesperado durante o processamento: {e}")
@@ -77,7 +84,6 @@ def gerar_dicionario_de_termos(input_file: str, output_file: str):
 # --- PONTO DE ENTRADA DO SCRIPT ---
 if __name__ == "__main__":
     arquivo_excel_entrada = 'TUSSxRolxSinônimosvs2.xlsx'
-    # Nome do arquivo de saída alterado conforme solicitado
     arquivo_csv_saida = 'Dic.csv'
     # Executa a função principal

+# dic_convert.py (CORRIGIDO PARA MANTER ACENTOS, PONTUAÇÃO E STOPWORDS)
 # -*- coding: utf-8 -*-
 """
+Script para processar a planilha TUSS, extrair TODOS os termos (incluindo
+palavras com acentos, números, pontuação e stopwords) de colunas específicas.
 Versão do Python: 3.12+
 Bibliotecas necessárias: pandas, openpyxl
 """
 import pandas as pd
 import re
 import os
 def gerar_dicionario_de_termos(input_file: str, output_file: str):
     """
+    Lê uma planilha Excel, extrai todos os tokens (palavras com acentos,
+    números, pontuação) de colunas predefinidas, converte para minúsculas,
+    e salva uma lista de tokens únicos em um arquivo CSV compatível com Excel.
     Args:
         input_file (str): O caminho para a planilha Excel de entrada.
     # --- 2. VALIDAÇÃO DO ARQUIVO DE ENTRADA ---
     if not os.path.exists(input_file):
         print(f"ERRO: O arquivo de entrada '{input_file}' não foi encontrado.")
         return
     print(f"Iniciando o processamento do arquivo: '{input_file}'...")
     try:
         # --- 3. LEITURA E PROCESSAMENTO ---
+        # Lê o Excel forçando todas as colunas a serem texto para evitar erros
+        df = pd.read_excel(input_file, header=0, usecols=colunas_para_usar, dtype=str)
         print(f"Colunas lidas com sucesso: {list(df.columns)}")
+        # Usamos um 'set' para armazenar os termos e evitar duplicatas automaticamente
+        termos_unicos = set()
         for column in df.columns:
+            # Pega todas as frases da coluna, ignorando valores vazios (NaN)
+            frases = df[column].dropna()
+            for frase in frases:
+                # --- LÓGICA DE EXTRAÇÃO MODIFICADA ---
+                # Esta expressão regular extrai:
+                # 1. [a-zA-Záàâãéèêíïóôõöúçñ]+ : Palavras com acentos.
+                # 2. \d+ : Números inteiros.
+                # 3. [^\s\w] : Qualquer caractere que NÃO seja espaço ou alfanumérico (pontuação).
+                tokens = re.findall(r'[a-zA-Záàâãéèêíïóôõöúçñ]+|\d+|[^\s\w]', str(frase).lower())
+                # Adiciona cada token extraído ao nosso conjunto de termos únicos
+                for token in tokens:
+                    if token: # Garante que não adicionamos strings vazias
+                        termos_unicos.add(token)
         # --- 4. GERAÇÃO DO DATAFRAME FINAL ---
+        if not termos_unicos:
+            print("Nenhum termo foi encontrado nas colunas especificadas.")
             return
+        # Converte o conjunto de termos únicos para um DataFrame, ordenando-o
+        output_df = pd.DataFrame(sorted(list(termos_unicos)), columns=['Termo_Correto'])
+        print(f"\nTotal de termos únicos no dicionário final: {len(output_df)}")
         # --- 5. SALVANDO O RESULTADO EM CSV ---
         # Usa 'utf-8-sig' para que os acentos abram corretamente no Excel.
         print("\n--- Processamento Concluído! ---")
         print(f"O arquivo '{output_file}' foi criado com sucesso.")
         print("\nAmostra do dicionário gerado:")
+        print(output_df.head(15)) # Mostra uma amostra maior
     except Exception as e:
         print(f"\nOcorreu um erro inesperado durante o processamento: {e}")
 # --- PONTO DE ENTRADA DO SCRIPT ---
 if __name__ == "__main__":
     arquivo_excel_entrada = 'TUSSxRolxSinônimosvs2.xlsx'
     arquivo_csv_saida = 'Dic.csv'
     # Executa a função principal