Dark-Existed's Blog

2022

Visual Studio Code Remote Tunnel 部署

家庭组网方案

LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

COSFORMER: RETHINKING SOFTMAX IN ATTENTION

移动端开发基础认识（Android & Flutter）

Transformer Quality in Linear Time

DeepNet: Scaling Transformers to 1,000 Layers

2021

Predicting Attention Sparsity in Transformers

R-Drop: Regularized Dropout for Neural Networks

ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

ERNIE 3.0: LARGE-SCALEKNOWLEDGEENHANCEDPRE-TRAINING FORLANGUAGEUNDERSTANDING ANDGENERATION

Parameter-Efficient Transfer Learning for NLP

ERNIE: Enhanced Representation through Knowledge Integration

How Can We Know What Language Models Know?

FNet: Mixing Tokens with Fourier Transforms

On Layer Normalization in the Transformer Architecture

Understanding the Difficulty of Training Transformers

2018

Hello Gridea