Orion Weller | publications

2025

mmBERT: A Modern Multilingual Encoder with Annealed Language Learning

Marc Marone, Orion Weller, William Fleshman, Eugene Yang, Dawn Lawrie, and Benjamin Van Durme

arXiv preprint arXiv:2509.06888 2025

PDF Code
Rank1: Test-Time Compute for Reranking in Information Retrieval

Orion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, and Benjamin Van Durme

In 2025

PDF Code
Rank-K: Test-Time Reasoning for Listwise Reranking

Eugene Yang, Andrew Yates, Kathryn Ricci, Orion Weller, Vivek Chari, Benjamin Van Durme, and Dawn Lawrie

In 2025

PDF Code
mFollowIR: a Multilingual Benchmark for Instruction Following in IR

Orion Weller, Benjamin Chang, Mahsa Yarmohammadi, Sam Barham, Sean MacAvaney, Arman Cohan, Luca Soldaini, Benjamin Van Durme, and Dawn Lawrie

In ECIR 2025

PDF Code
Harder, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Benjamin Warner, Antoine Chaffin, Benjamin Clavié, Orion Weller, Oskar Hallström, Said Taghadouini, Alexis Gallagher, Raja Biswas, Faisal Ladhak, Tom Aarsen, Nathan Cooper, Griffin Adams, Jeremy Howard, and Iacopo Poli

In ACL 2025

PDF Code
MMTEB: Massive Multilingual Text Embedding Benchmark

Kenneth Enevoldsen, Isaac Chung, Imene Kerboua, Márton Kardos, ..., Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, and Niklas Muennighoff

In ICLR 2025

PDF Code
From Models to Microtheories: Distilling a Model’s Topical Knowledge for Grounded Question Answering

Nathaniel Weir, Bhavana Dalvi, Orion Weller, Oyvind Tafjord, Sam Hornstein, Alexander Sabol, Peter Jansen, Benjamin Van Durme, and Peter Clark

In ICLR 2025

PDF Code
CLERC: A Dataset for Legal Case Retrieval and Retrieval-Augmented Analysis Generation

Abe Bohan Hou, Orion Weller, Guanghui Qin, Eugene Yang, Dawn Lawrie, Nils Holzenberger, Andrew Blair-Stanek, and Benjamin Van Durme

In NAACL 2025

PDF Code
Self-[In]correct: LLMs Struggle with Refining Self-Generated Responses

Dongwei Jiang, Jingyu Zhang, Orion Weller, Nathaniel Weir, Benjamin Van Durme, and Daniel Khashabi

In AAAI 2025

PDF
Promptriever: Instruction-Trained Retrievers Can Be Prompted Like Language Models

Orion Weller, Benjamin Van Durme, Dawn Lawrie, Ashwin Paranjape, Yuhao Zhang, and Jack Hessel

In ICLR 2025

PDF Code
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions

Orion Weller, Benjamin Chang, Sean MacAvaney, Kyle Lo, Arman Cohan, Benjamin Van Durme, Dawn Lawrie, and Luca Soldaini

In NAACL 2025

PDF Code

2024

Dated Data: Tracing Knowledge Cutoffs in Large Language Models

Jeffrey Cheng, Marc Marone, Orion Weller, Dawn Lawrie, Daniel Khashabi, and Benjamin Van Durme

In Conference on Language Models (CoLM) 2024

PDF Code
Learning to Reason via Program Generation, Emulation, and Search

Nathaniel Weir, Muhammad Khalifa, Linlu Qiu, Orion Weller, and Peter Clark

In NeurIPS 2024

PDF Code
A Waterlog for Detecting and Tracing Synthetic Text from Large Language Models

Brennon Brimhall, Orion Weller, Matthew Green, and Ian Miers

In Cryptology ePrint Archive 2024

PDF
On the Evaluation of Machine-Generated Reports

James Mayfield, Eugene Yang, Dawn Lawrie, Sean MacAvaney, Paul McNamee, Douglas W Oard, Luca Soldaini, Ian Soboroff, Orion Weller, Efsun Kayi, and others

In SIGIR 2024

PDF
Enhancing Systematic Decompositional Natural Language Inference Using Informal Logic

Nathaniel Weir, Kate Sanders, Orion Weller, Shreya Sharma, Dongwei Jiang, Zhengping Zhang, Bhavana Dalvi Mishra, Oyvind Tafjord, Peter Jansen, Peter Clark, and others

In Empircal Methods in Natural Language Processing (ENNLP) 2024

PDF
NevIR: Negation in Neural Information Retrieval

Orion Weller, Dawn Lawrie, and Benjamin Van Durme

In European Chapter of the Association for Computational Linguistics (EACL) 2024

PDF Code
When do Generative Query and Document Expansions Fail? A Comprehensive Study Across Methods, Retrievers, and Datasets

Orion Weller, Kyle Lo, David Wadden, Dawn Lawrie, Benjamin Van Durme, Arman Cohan, and Luca Soldaini

In Findings of the European Chapter of the Association for Computational Linguistics (EACL) 2024

PDF Code
“According to..." Prompting Language Models Improves Quoting from Pre-Training Data

∗Orion Weller, ∗Marc Marone, Nathaniel Weir, Dawn Lawrie, Daniel Khashabi, and Benjamin Van Durme

In European Chapter of the Association for Computational Linguistics (EACL) 2024

PDF Code
Defending Against Misinformation Attacks in Open-Domain Question Answering

∗Orion Weller, ∗Aleem Khan, Nathaniel Weir, Dawn J Lawrie, and Benjamin Van Durme

In European Chapter of the Association for Computational Linguistics (EACL) 2024

PDF Code

2023

When Do Decompositions Help for Machine Reading?

Kangda Wei, Dawn J Lawrie, Benjamin Van Durme, Yunmo Chen, and Orion Weller

In Empirical Methods in Natural Language Processing (EMNLP) 2023

PDF Code
Synthetic Cross-language Information Retrieval Training Data

James Mayfield, Eugene Yang, Dawn Lawrie, Samuel Barham, Orion Weller, Marc Mason, Suraj Nair, and Scott Miller

Preprint 2023

PDF
MegaWika: Millions of reports and their sources across 50 diverse languages

Samuel Barham, Orion Weller, Michelle Yuan, Kenton Murray, Mahsa Yarmohammadi, Zhengping Jiang, Siddharth Vashishtha, Alexander Martin, Anqi Liu, Aaron Steven White, and others

Preprint 2023

PDF Code

2022

Pretrained Models for Multilingual Federated Learning

∗Orion Weller, ∗Marc Marone, Vladimir Braverman, Dawn Lawrie, and Benjamin Van Durme

In North American Chapter of the Association for Computational Linguistics (NAACL) 2022

PDF Code
When to Use Multi-Task Learning vs Intermediate Fine-Tuning for Pre-Trained Encoder Transfer Learning

Orion Weller, Kevin Seppi, and Matt Gardner

In Association of Computational Linguistics (ACL) 2022

PDF Code
End-to-End Speech Translation for Code Switched Speech

Orion Weller, Matthias Sperber, Telmo Pires, Hendra Setiawan, Christian Gollan, Dominic Telaar, and Matthias Paulik

In Findings of the Association of Computational Linguistics (ACL) 2022

PDF Code

2021

Exploring the Relationship Between Algorithm Performance, Vocabulary, and Run-Time in Text Classification

Wilson Fearn, Orion Weller, and Kevin Seppi

In North American Chapter of the Association for Computational Linguistics (NAACL) 2021

PDF Code
Streaming Joint Speech Translation and Transcription

Orion Weller, Matthias Sperber, Christian Gollan, and Joris Kluivers

In European Chapter of the Association for Computational Linguistics (EACL) 2021

PDF
Predicting Mental Health and Suicidal Ideation Among Adolescents Using the Risk and Protective Factor Framework: A Large Scale Machine Learning Approach

Orion Weller, Luke Sagers, Carl Hanson, Quinn Snell, Michael Barnes, and Shannon Tass

PLoS One 2021

2020

Learning from Task Descriptions

Orion Weller, Nicholas Lourie, Matt Gardner, and Matthew Peters

Empirical Methods in Natural Language Processing (EMNLP) 2020

PDF Code
You Don’t Have Time to Read This: an Exploration of Document Level Reading Time Prediction

Orion Weller, Jordan Hildebrandt, Ilya Reznik, Christopher Challis, E. Shannon Tass, Quinn Snell, and Kevin Seppi

Association of Computational Linguistics (ACL) 2020

PDF Code
The rJokes Dataset: a Large Scale Humor Collection

Orion Weller, and Kevin Seppi

Language Resources and Evaluation (LREC) 2020

PDF Code
Can Humor Prediction Datasets be used for Humor Generation? Humorous Headline Generation via Style Transfer

Orion Weller, Nancy Fulda, and Kevin Seppi

Second Workshop on Figurative Language Processing @ ACL 2020 2020

PDF Code

2019

Humor Detection: A Transformer gets the Last Laugh

Orion Weller, and Kevin Seppi

Empirical Methods in Natural Language Processing (EMNLP) 2019

PDF Code