Add source code files

2026-02-01 02:55:40 +00:00
parent a8b62c9ab3
commit 57ea6acf56
1 changed files with 259 additions and 0 deletions
--- a/src/codeguard/analyzers/security_analyzer.py
+++ b/src/codeguard/analyzers/security_analyzer.py
@@ -0,0 +1,259 @@
 """Security analysis module."""
 import json
 import re
 from codeguard.core.models import (
    Finding,
    FindingType,
    FixSuggestion,
    Language,
    Location,
    Severity,
 )
 from codeguard.llm.client import LLMClient
 class SecurityAnalyzer:
    def __init__(self, client: LLMClient, model: str = "codellama"):
        self.client = client
        self.model = model
        self.system_prompts = self._load_system_prompts()
        self.vulnerability_patterns = self._load_vulnerability_patterns()
    def _load_system_prompts(self) -> dict[Language, str]:
        return {
            Language.PYTHON: """You are a security expert specializing in Python code analysis.
 Analyze the provided Python code for:
 1. SQL injection vulnerabilities
 2. XSS vulnerabilities
 3. Hardcoded secrets (API keys, passwords)
 4. Command injection
 5. Insecure deserialization
 6. Path traversal
 7. Authentication bypasses
 8. Input validation issues
 Provide findings in JSON format with: id, type, severity, title, description, location (file, line), cwe_id, and fix suggestion.
 Return only valid JSON array.""",
            Language.JAVASCRIPT: """You are a security expert specializing in JavaScript/TypeScript code analysis.
 Analyze the provided code for:
 1. SQL injection
 2. XSS vulnerabilities
 3. Hardcoded secrets
 4. Command injection
 5. Insecure dependencies
 6. Prototype pollution
 7. Authentication issues
 8. Input validation problems
 Provide findings in JSON format with: id, type, severity, title, description, location (file, line), cwe_id, and fix suggestion.
 Return only valid JSON array.""",
            Language.GO: """You are a security expert specializing in Go code analysis.
 Analyze the provided Go code for:
 1. SQL injection
 2. XSS vulnerabilities
 3. Hardcoded secrets
 4. Command injection
 5. Race conditions
 6. Error handling issues
 7. Concurrency problems
 8. Input validation
 Provide findings in JSON format with: id, type, severity, title, description, location (file, line), cwe_id, and fix suggestion.
 Return only valid JSON array.""",
            Language.RUST: """You are a security expert specializing in Rust code analysis.
 Analyze the provided Rust code for:
 1. Memory safety issues
 2. Concurrency problems
 3. Error handling issues
 4. Unsafe code usage
 5. Cryptographic weaknesses
 6. Input validation
 Provide findings in JSON format with: id, type, severity, title, description, location (file, line), cwe_id, and fix suggestion.
 Return only valid JSON array.""",
        }
    def _load_vulnerability_patterns(self) -> dict[str, list[str]]:
        return {
            "hardcoded_secret": [
                r"(?i)(api_key|apikey|secret|password|passwd|pwd)\s*=\s*['\"][^'\"]+['\"]",
                r"(?i)AWS_ACCESS_KEY_ID\s*=\s*['\"][^'\"]+['\"]",
                r"(?i)AWS_SECRET_ACCESS_KEY\s*=\s*['\"][^'\"]+['\"]",
                r"(?i)Bearer\s+[a-zA-Z0-9\-_]+\.[a-zA-Z0-9\-_]+",
            ],
            "sql_injection": [
                r"(?i).*execute\s*\(\s*f?['\"].*['\"]\s*\)",
                r"(?i).*\.query\s*\(\s*f?['\"][^'\"]*%\s*s[^'\"]*['\"]",
            ],
            "command_injection": [
                r"(?i)os\.system\s*\(",
                r"(?i)subprocess\.\w+\s*\(\s*['\"][^'\"]*['\"]",
                r"(?i)eval\s*\(\s*f?['\"]",
            ],
            "path_traversal": [
                r"(?i)open\s*\([^,]+,\s*['\"][rwa]",
                r"(?i)os\.path\.join\s*\([^)]*\.",
            ],
        }
    def analyze(
        self, code: str, language: Language, file_path: str
    ) -> list[Finding]:
        findings: list[Finding] = []
        pattern_findings = self._scan_patterns(code, file_path, language)
        findings.extend(pattern_findings)
        llm_findings = self._analyze_with_llm(code, language, file_path)
        findings.extend(llm_findings)
        return findings
    def _scan_patterns(
        self, code: str, file_path: str, language: Language
    ) -> list[Finding]:
        findings = []
        lines = code.split("\n")
        for pattern_name, patterns in self.vulnerability_patterns.items():
            for pattern in patterns:
                try:
                    regex = re.compile(pattern)
                    for i, line in enumerate(lines, 1):
                        if regex.search(line):
                            finding = self._create_finding(
                                pattern_name=pattern_name,
                                line=i,
                                code_snippet=line.strip(),
                                file_path=file_path,
                                language=language,
                            )
                            findings.append(finding)
                except re.error:
                    continue
        return findings
    def _analyze_with_llm(
        self, code: str, language: Language, file_path: str
    ) -> list[Finding]:
        findings: list[Finding] = []
        if language not in self.system_prompts:
            return findings
        system_prompt = self.system_prompts[language]
        try:
            response = self.client.chat(
                messages=[
                    {"role": "system", "content": system_prompt},
                    {"role": "user", "content": f"File: {file_path}\n\n{code}"},
                ],
                model=self.model,
            )
            parsed_findings = self._parse_llm_response(response, file_path, language)
            findings.extend(parsed_findings)
        except Exception:
            pass
        return findings
    def _parse_llm_response(
        self, response: str, file_path: str, language: Language
    ) -> list[Finding]:
        findings: list[Finding] = []
        try:
            json_match = re.search(r'\[.*\]', response, re.DOTALL)
            if json_match:
                data = json.loads(json_match.group())
                for item in data:
                    finding = self._create_finding_from_llm(item, file_path, language)
                    findings.append(finding)
        except (json.JSONDecodeError, KeyError):
            pass
        return findings
    def _create_finding(
        self,
        pattern_name: str,
        line: int,
        code_snippet: str,
        file_path: str,
        language: Language,
    ) -> Finding:
        severity_map = {
            "hardcoded_secret": Severity.HIGH,
            "sql_injection": Severity.CRITICAL,
            "command_injection": Severity.CRITICAL,
            "path_traversal": Severity.HIGH,
        }
        title_map = {
            "hardcoded_secret": "Hardcoded Secret Found",
            "sql_injection": "Potential SQL Injection",
            "command_injection": "Potential Command Injection",
            "path_traversal": "Potential Path Traversal",
        }
        cwe_map = {
            "hardcoded_secret": "CWE-798",
            "sql_injection": "CWE-89",
            "command_injection": "CWE-78",
            "path_traversal": "CWE-22",
        }
        return Finding(
            id=f"pattern-{pattern_name}-{line}",
            type=FindingType.VULNERABILITY,
            severity=severity_map.get(pattern_name, Severity.MEDIUM),
            title=title_map.get(pattern_name, f"Security Issue: {pattern_name}"),
            description=f"Potential {pattern_name} vulnerability detected",
            location=Location(
                file=file_path,
                line=line,
                end_line=line,
                column=0,
                code_snippet=code_snippet,
            ),
            cwe_id=cwe_map.get(pattern_name),
            fix=None,
            language=language,
        )
    def _create_finding_from_llm(
        self, item: dict, file_path: str, language: Language
    ) -> Finding:
        location_data = item.get("location", {})
        fix_data = item.get("fix", {})
        fix_suggestion = None
        if fix_data:
            fix_suggestion = FixSuggestion(
                description=fix_data.get("description", ""),
                code=fix_data.get("code"),
                explanation=fix_data.get("explanation"),
            )
        return Finding(
            id=item.get("id", f"llm-{hash(item.get('title', ''))}"),
            type=FindingType(item.get("type", "vulnerability")),
            severity=Severity(item.get("severity", "medium")),
            title=item.get("title", "Security Issue"),
            description=item.get("description", ""),
            location=Location(
                file=file_path,
                line=location_data.get("line", 1),
                end_line=location_data.get("end_line"),
                column=location_data.get("column"),
                code_snippet=location_data.get("code_snippet"),
            ),
            cwe_id=item.get("cwe_id"),
            fix=fix_suggestion,
            language=language,
        )