Models
Datasets
Spaces
Docs
Enterprise
Pricing
Log In
Sign Up

walterShen's picture

17 2

walterShen

walterShen

drgitt's profile picture

·

_walterShen

AI & ML interests

None yet

Organizations

None yet

walterShen 's collections 8

Code LMs Evaluation

Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code

Paper • 2311.07989 • Published Nov 14, 2023 • 26
SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Paper • 2310.06770 • Published Oct 10, 2023 • 9
CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Paper • 2401.03065 • Published Jan 5, 2024 • 11
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming

Paper • 2402.14261 • Published Feb 22, 2024 • 11

Prompt Engineering

Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

Paper • 2311.04155 • Published Nov 7, 2023 • 1
DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

Paper • 2310.03714 • Published Oct 5, 2023 • 37
OpenPrompt: An Open-source Framework for Prompt-learning

Paper • 2111.01998 • Published Nov 3, 2021 • 1

Best Practices and Lessons Learned on Synthetic Data for Language Models

Paper • 2404.07503 • Published Apr 11, 2024 • 31
Better Synthetic Data by Retrieving and Transforming Existing Datasets

Paper • 2404.14361 • Published Apr 22, 2024 • 2
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

Paper • 2409.08239 • Published Sep 12, 2024 • 21

Understanding the planning of LLM agents: A survey

Paper • 2402.02716 • Published Feb 5, 2024 • 1
LLM Agent Operating System

Paper • 2403.16971 • Published Mar 25, 2024 • 72
LLM Multi-Agent Systems: Challenges and Open Problems

Paper • 2402.03578 • Published Feb 5, 2024 • 1
CACA Agent: Capability Collaboration based AI Agent

Paper • 2403.15137 • Published Mar 22, 2024

Code LMs Benchmark

Running

1.46k

1.46k

Big Code Models Leaderboard

📈

Submit code models for evaluation and view leaderboard
Running

449

449

Can Ai Code Results

🏆

Can AI Code? An LLM leaderboard inclquantized models.
openai/openai_humaneval

Viewer • Updated Jan 4, 2024 • 164 • 82.4k • 345
google-research-datasets/mbpp

Viewer • Updated Jan 4, 2024 • 1.4k • 34.9k • 185

Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning

Paper • 2312.05230 • Published Dec 8, 2023

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 258

Sketch Then Generate: Providing Incremental User Feedback and Guiding LLM Code Generation through Language-Oriented Code Sketches

Paper • 2405.03998 • Published May 7, 2024 • 1
Low-code LLM: Graphical User Interface over Large Language Models

Paper • 2304.08103 • Published Apr 17, 2023 • 1

Code LMs Evaluation

Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code

Paper • 2311.07989 • Published Nov 14, 2023 • 26
SWE-bench: Can Language Models Resolve Real-World GitHub Issues?

Paper • 2310.06770 • Published Oct 10, 2023 • 9
CRUXEval: A Benchmark for Code Reasoning, Understanding and Execution

Paper • 2401.03065 • Published Jan 5, 2024 • 11
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming

Paper • 2402.14261 • Published Feb 22, 2024 • 11

Code LMs Benchmark

Running

1.46k

1.46k

Big Code Models Leaderboard

📈

Submit code models for evaluation and view leaderboard
Running

449

449

Can Ai Code Results

🏆

Can AI Code? An LLM leaderboard inclquantized models.
openai/openai_humaneval

Viewer • Updated Jan 4, 2024 • 164 • 82.4k • 345
google-research-datasets/mbpp

Viewer • Updated Jan 4, 2024 • 1.4k • 34.9k • 185

Prompt Engineering

Black-Box Prompt Optimization: Aligning Large Language Models without Model Training

Paper • 2311.04155 • Published Nov 7, 2023 • 1
DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

Paper • 2310.03714 • Published Oct 5, 2023 • 37
OpenPrompt: An Open-source Framework for Prompt-learning

Paper • 2111.01998 • Published Nov 3, 2021 • 1

Language Models, Agent Models, and World Models: The LAW for Machine Reasoning and Planning

Paper • 2312.05230 • Published Dec 8, 2023

Best Practices and Lessons Learned on Synthetic Data for Language Models

Paper • 2404.07503 • Published Apr 11, 2024 • 31
Better Synthetic Data by Retrieving and Transforming Existing Datasets

Paper • 2404.14361 • Published Apr 22, 2024 • 2
Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources

Paper • 2409.08239 • Published Sep 12, 2024 • 21

Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Paper • 2404.14219 • Published Apr 22, 2024 • 258

Understanding the planning of LLM agents: A survey

Paper • 2402.02716 • Published Feb 5, 2024 • 1
LLM Agent Operating System

Paper • 2403.16971 • Published Mar 25, 2024 • 72
LLM Multi-Agent Systems: Challenges and Open Problems

Paper • 2402.03578 • Published Feb 5, 2024 • 1
CACA Agent: Capability Collaboration based AI Agent

Paper • 2403.15137 • Published Mar 22, 2024

Sketch Then Generate: Providing Incremental User Feedback and Guiding LLM Code Generation through Language-Oriented Code Sketches

Paper • 2405.03998 • Published May 7, 2024 • 1
Low-code LLM: Graphical User Interface over Large Language Models

Paper • 2304.08103 • Published Apr 17, 2023 • 1

Company

TOS Privacy About Jobs

Website

Models Datasets Spaces Pricing Docs