Spaces:

ChAbhishek28
/

PensionBot

Sleeping

App Files Files Community

ChAbhishek28 commited on Oct 2

Commit

a678780

1 Parent(s): 60ce103

Implement comprehensive multi-category query handling - Add relevance scoring and query enhancement for all document types (pension, leave, allowance, procurement, medical, etc.)

Browse files

Files changed (1) hide show

rag_service.py +77 -29

rag_service.py CHANGED Viewed

@@ -196,14 +196,35 @@ async def search_documents_async(query: str, limit: int = 5) -> List[Dict[str, A
         knowledge_bases = ["government_docs"]  # Default
         query_lower = query.lower()
-        # Enhance query for better relevance
         enhanced_query = query
-        if "pension rules changes" in query_lower or "pension rule changes" in query_lower:
-            enhanced_query = "pension rules modifications amendments updates changes revisions"
-        elif "pension rules impact" in query_lower or "pension impact" in query_lower:
-            enhanced_query = "pension rules impact analysis effects benefits retirement financial"
-        elif "pension" in query_lower and any(word in query_lower for word in ["rules", "changes", "updates", "modifications", "impact"]):
-            enhanced_query = f"{query} pension rules retirement benefits"
         logger.info(f"🔍 Enhanced query: '{enhanced_query}' (original: '{query}')")
@@ -242,32 +263,59 @@ async def search_documents_async(query: str, limit: int = 5) -> List[Dict[str, A
                 title = ''
             # Calculate relevance score based on query intent
-            relevance_score = 0
-            # Check if query is pension-related
-            pension_keywords = ['pension', 'retirement', 'gratuity', 'provident fund', 'gpf', 'cpf']
-            is_pension_query = any(keyword in query_lower for keyword in pension_keywords)
-            if is_pension_query:
-                # Boost pension-related content
-                if any(keyword in content for keyword in ['pension', 'retirement benefit', 'gratuity', 'provident fund', 'superannuation']):
                     relevance_score += 1.0
-                if any(keyword in content for keyword in ['pension rules', 'pension regulation', 'pension scheme', 'retirement']):
-                    relevance_score += 0.8
-                if any(keyword in content for keyword in ['changes', 'modifications', 'amendments', 'updates', 'revised', 'impact']):
-                    relevance_score += 0.3
-                # Heavily penalize non-pension documents for pension queries
-                if any(keyword in content for keyword in ['leave rules', 'casual leave', 'earned leave', 'medical leave']):
-                    relevance_score -= 1.5
-                if any(keyword in content for keyword in ['procurement', 'tender', 'bidding', 'contract']):
-                    relevance_score -= 1.5
-                if any(keyword in content for keyword in ['transfer policy', 'posting policy', 'transfer rules']):
-                    relevance_score -= 1.5
-            else:
-                # For non-pension queries, use default scoring
-                relevance_score = getattr(doc, 'score', 0.5)
             if relevance_score > 0.3:  # Only include relevant documents
                 # Add relevance score to document (create dict if needed)

         knowledge_bases = ["government_docs"]  # Default
         query_lower = query.lower()
+        # Enhance query for better relevance based on category
         enhanced_query = query
+        # Pension queries
+        if "pension" in query_lower:
+            if any(word in query_lower for word in ["changes", "impact", "rules"]):
+                enhanced_query = f"{query} pension rules retirement benefits modifications"
+            elif "calculation" in query_lower or "formula" in query_lower:
+                enhanced_query = f"{query} pension calculation retirement benefits formula"
+        # Leave queries
+        elif any(word in query_lower for word in ["leave", "casual", "earned"]):
+            enhanced_query = f"{query} leave rules entitlement policy"
+        # Allowance queries
+        elif any(word in query_lower for word in ["allowance", "da", "dearness"]):
+            enhanced_query = f"{query} allowance rates dearness increment"
+        # Procurement queries
+        elif any(word in query_lower for word in ["tender", "procurement", "bid"]):
+            enhanced_query = f"{query} procurement tender bidding process"
+        # Medical queries
+        elif any(word in query_lower for word in ["medical", "health", "reimbursement"]):
+            enhanced_query = f"{query} medical health reimbursement cghs"
+        # Transfer queries
+        elif any(word in query_lower for word in ["transfer", "posting"]):
+            enhanced_query = f"{query} transfer posting policy rules"
         logger.info(f"🔍 Enhanced query: '{enhanced_query}' (original: '{query}')")
                 title = ''
             # Calculate relevance score based on query intent
+            relevance_score = getattr(doc, 'score', 0.5)  # Base score
+            # Define query categories and their keywords
+            query_categories = {
+                'pension': ['pension', 'retirement', 'gratuity', 'provident fund', 'gpf', 'cpf', 'superannuation'],
+                'leave': ['leave', 'casual leave', 'earned leave', 'medical leave', 'maternity', 'paternity'],
+                'allowance': ['allowance', 'dearness allowance', 'da', 'hra', 'house rent', 'travel allowance'],
+                'procurement': ['procurement', 'tender', 'bid', 'contract', 'purchase', 'vendor'],
+                'medical': ['medical', 'health', 'treatment', 'reimbursement', 'cghs', 'hospital'],
+                'transfer': ['transfer', 'posting', 'deputation', 'cadre'],
+                'promotion': ['promotion', 'seniority', 'grade', 'advancement', 'career progression'],
+                'service': ['service', 'conduct', 'discipline', 'rules', 'regulation']
+            }
+            # Determine query category
+            query_category = None
+            for category, keywords in query_categories.items():
+                if any(keyword in query_lower for keyword in keywords):
+                    query_category = category
+                    break
+            if query_category:
+                # Boost content matching the query category
+                category_keywords = query_categories[query_category]
+                if any(keyword in content for keyword in category_keywords):
                     relevance_score += 1.0
+                # Add specific boosts for each category
+                if query_category == 'pension':
+                    if any(keyword in content for keyword in ['pension rules', 'retirement benefit', 'pension scheme']):
+                        relevance_score += 0.8
+                elif query_category == 'leave':
+                    if any(keyword in content for keyword in ['leave rules', 'leave entitlement', 'leave policy']):
+                        relevance_score += 0.8
+                elif query_category == 'allowance':
+                    if any(keyword in content for keyword in ['allowance rates', 'da revision', 'allowance rules']):
+                        relevance_score += 0.8
+                elif query_category == 'procurement':
+                    if any(keyword in content for keyword in ['tender process', 'procurement rules', 'bidding']):
+                        relevance_score += 0.8
+                elif query_category == 'medical':
+                    if any(keyword in content for keyword in ['medical rules', 'reimbursement policy', 'cghs']):
+                        relevance_score += 0.8
+                elif query_category == 'transfer':
+                    if any(keyword in content for keyword in ['transfer policy', 'posting rules', 'cadre']):
+                        relevance_score += 0.8
+                # Penalize irrelevant content for specific queries
+                other_categories = [cat for cat in query_categories.keys() if cat != query_category]
+                for other_cat in other_categories:
+                    other_keywords = query_categories[other_cat]
+                    if any(keyword in content for keyword in other_keywords[:3]):  # Check top 3 keywords
+                        relevance_score -= 0.7
             if relevance_score > 0.3:  # Only include relevant documents
                 # Add relevance score to document (create dict if needed)