2024 허깅 페이스(Hugging Face, Inc.) 이해

허깅페이스(Hugging Face, Inc.)는 기계 학습 모델을 구축, 배포 및 교육하기 위한 도구와 리소스 개발하는 오픈 소스 커뮤니티입니다. 허깅페이스는 자연어 처리 라이브러리와 협업을 중시하며 이 플랫폼 사용자들은 기계 학습 모델과 데이터 세트를 공유, 자신의 작업을 선보일 수 있습니다.

2024 허깅 페이스(Hugging Face, Inc.) 이해

2024 허깅 페이스(Hugging Face, Inc.) 정의. 주요 서비스 및 역사

허깅 페이스 정의. 주요 서비스 및 역사

허깅 페이스는 브루클린과 파리에 오피스를 두고 있으며, 완전 재택근무를 허용하고 있습니다. 공동창업자 중 한 명인 토마스 울프는 오픈소스를 통한 인공지능 지식 확산을 강조하고 있습니다.
- 허깅 페이스(Hugging Face, Inc.)는 자연어 처리(NLP)와 머신러닝(ML) 모델을 개발하고 배포하는 선도적인 AI 기업입니다. 이 회사는 특히 오픈 소스 커뮤니티에 기여하며, 누구나 쉽게 접근하고 사용할 수 있는 AI 도구와 라이브러리를 제공합니다.
  - 허깅 페이스 (Hugging Face) 정의
    - 트랜스포머(Transformer)¹ 기반의 다양한 모델들과 학습 스크립트를 구현해 놓은 일종의 모듈입니다. 다른 누군가가 이미 학습한 모델을 가져다 쓸 수도 있다는 것입니다.
    - 즉, 따로 구현 하지 않고 Arguments를 줌으로써 편하게 사용 가능합니다.
  - 주요 서비스
    - 트랜스포머 라이브러리 : 파이썬으로 만든 오픈소스 패키지로, 인공지능의 핵심인 칩 레이어 2단에 위치하며 연산 처리를 지원합니다. 허깅페이스의 주력 제품 중 하나로, 자연어 처리에 널리 사용됩니다.
    - 허깅 페이스 허브 : Git 기반 플랫폼으로, 깃허브와 비슷한 기능을 제공합니다. 소규모 웹앱, 데이터셋 관리 등을 할 수 있습니다.
    - 데이터셋 : 빅 데이터 처리를 위한 라이브러리로, 다양한 데이터셋 관리와 처리를 지원합니다.
    - 인터페이스 API : 모델 처리를 간단하고 직접적으로 지원하여 사용자 편의성을 높입니다.
    - 오토트레인 : 모델의 자동학습과 평가 기능을 제공하여 모델 학습을 간편화합니다.
    - 데일리페이퍼 : 주목할 만한 논문들을 소개하여 사용자에게 최신 연구 동향을 알려줍니다.
    - 스페이스 : 다양한 모델 체험을 할 수 있는 플랫폼으로, 스테이블 디퓨전, DALL-E 등의 모델을 체험할 수 있습니다.
    - Diffusers : 새로운 diffusion 모델을 위한 프레임워크로, 스테이블 디퓨전 모델의 finetuning을 쉽게 할 수 있습니다.
  - 역사
    - 허깅 페이스는 2016년 프랑스 기업가인 클레망 들랑그, 줄리앙 쇼몽, 토마스 울프가 뉴욕에서 설립했습니다.
    - 허깅 페이스는 처음에는 감정 분석을 위한 챗봇을 개발했습니다. 이후 다양한 NLP 도구와 라이브러리를 개발하여 NLP 커뮤니티에서 큰 인기를 얻었습니다.
    - 2021년 3월, 허깅 페이스는 시리즈 B 자금 조달 라운드에서 4천만 달러를 모금했습니다.
    - 2021년 4월 28일, 회사는 다른 여러 연구 그룹과 협력하여 개방형 대형 언어 모델을 출시하기 위한 빅사이언스 리서치 워크숍을 시작했습니다. 이 워크숍은 2022년 BLOOM이라는 1,760억 개의 매개변수를 갖춘 다국어 대형 언어 모델을 발표하는 것으로 마무리되었습니다.
    - 2021년 12월 21일, 허깅 페이스는 Gradio라는 소프트웨어 라이브러리를 인수하여 기계 학습 모델의 대화형 브라우저 데모를 만들기 시작했습니다.
    - 2022년 5월 5일, 회사는 Coatue와 Sequoia가 주도하는 시리즈 C 자금 조달 라운드를 발표했으며, 회사의 가치는 20억 달러로 평가되었습니다.
    - 2022년 5월 13일, 허깅 페이스는 학생 대사 프로그램을 도입하여 2023년까지 500만 명에게 기계 학습을 가르치기로 했습니다.
    - 2022년 5월 26일, 회사는 Graphcore와의 파트너십을 통해 Graphcore IPU용 Transformers 라이브러리를 최적화하기로 했습니다.
    - 2022년 8월 3일, 허깅 페이스는 Private Hub라는 엔터프라이즈 버전을 발표하여 SaaS 또는 온프레미스 배포를 지원하기 시작했습니다.
    - 2023년 2월, 회사는 AWS와의 파트너십을 발표하여 AWS 고객이 허깅 페이스의 제품을 사용자 지정 애플리케이션의 구성 요소로 사용할 수 있도록 했으며, 차세대 BLOOM이 AWS가 개발한 Trainium에서 실행될 것이라고 밝혔습니다.
    - 2023년 8월, 허깅 페이스는 시리즈 D 자금 조달에서 45억 달러 가치로 2억 3,500만 달러를 조달했습니다. 이 자금 조달은 세일즈포스를 주도로 구글, 아마존, 엔비디아, AMD, 인텔, IBM 및 퀄컴 등의 주목할만한 참여가 이루어졌습니다.
    - 최근 소식
      - 허깅 페이스는 최근에 시리즈D 펀딩으로 총 2억3500만 달러(약 3100억원)를 모아 45억 달러(약 6조원)의 기업 가치로 평가받았습니다.
      - 지난해 5월 기업 가치가 20억 달러(약 2조6000억원) 수준이었던 것과 비교해 1년 만에 기업 가치가 125% 상승한 것입니다.
      - 세콰이어 캐피털, 써티파이브 벤처스 같은 벤처캐피털들은 단 한 해 만에 상당한 이익을 얻었으며 투자자들은 이미 기업 가치가 2배 이상 상승한 상황임에도 불구하고 계속해서 투자를 이어갔습니다.
      - 엔비디아, 구글, 아마존, 세일즈포스 등 AI 붐의 주요 기업들이 투자에 참여합니다.
      - 허깅 페이스는 요즘 IT 업계에서 가장 주목받는 기업 중 하나로 손꼽힙니다. 최근에는 구글과 엔비디아를 포함한 다수의 대형 기업으로부터 러브콜을 받고 있습니다.
      - 엔비디아가 최근에 세계 최대 컴퓨터 그래픽 컨퍼런스에서 경쟁자들을 제쳐두겠다는 선언을 하면서 허깅 페이스와의 파트너십을 발표했습니다.
      - 허깅 페이스의 커뮤니티 개발자들은 엔비디아의 DGX 플랫폼을 활용하여 AI 모델을 훈련하고 파인튜닝할 수 있게 되었습니다.
      - 허깅 페이스는 오픈 소스 AI 모델과 학습용 데이터셋을 제공하고 있어 이미 25만 개 이상의 AI 모델과 5만 개 이상의 데이터셋을 보유하고 있습니다. 이로 인해 허깅 페이스는 생성형 AI 분야에서 모든 개발자들이 모이는 중심지로 자리잡았습니다.
      - 현재 참여 기업과 기관은 5만 곳 이상이라고 합니다.
  - 주요 서비스
    - Transformers 라이브러리: 다양한 사전 학습된 모델을 제공하는 오픈 소스 라이브러리
    - Datasets 라이브러리: 머신러닝 연구에 필요한 다양한 데이터셋을 쉽게 접근할 수 있게 제공
    - Hugging Face Hub: 모델과 데이터셋을 공유하고 관리할 수 있는 플랫폼

2024 허깅 페이스(Hugging Face, Inc.) 운영 오픈 LLM 리더보드

허깅페이스 운영 오픈 LLM 리더보드란?
- 허깅페이스는 전 세계 3600개 이상의 오픈소스 LLM을 평가하는 플랫폼입니다.
- 평가는 수학, 과학, 상식, 추론 등 여섯 가지 과목으로 이루어집니다.
- AI 스타트업 업스테이지는 허깅페이스를 LLM 기술의 우수성을 증명하는 바로미터로 활용하고 있습니다.
- 허깅페이스는 LLM 기술의 발전과 AI 생태계 활성화에 중요한 역할을 하고 있습니다.
- 허깅페이스 공식 주소
허깅 페이스는 다양한 대형 언어 모델(LLM)의 성능을 비교할 수 있는 오픈 LLM 리더보드를 운영하고 있습니다. 이 리더보드는 모델의 성능을 다양한 기준으로 평가하며, 연구자와 개발자들이 최적의 모델을 선택하는 데 도움을 줍니다.
허깅페이스 오픈 LLM 리더보드 순위. 브랜드 모델. 점수 [아래 도표 참조]
- 1위 : 오픈AI
- 2위 : 모레
- 3위 : 카카오뱅크
- 4위 : 업스테이지
- 5위 : 뤼이드

2024 허깅 페이스(Hugging Face, Inc.) 사용하기

2024 허깅 페이스(Hugging Face, Inc.) 사용하기
허깅 페이스의 도구와 서비스를 사용하는 방법은 다음과 같습니다:
- 계정 생성: Hugging Face Hub에서 계정을 생성합니다.
- 모델 검색: 필요한 NLP 모델을 검색하고 선택합니다.
- 모델 다운로드: Transformers 라이브러리를 통해 선택한 모델을 다운로드합니다.
- from transformers import AutoTokenizer, AutoModelForSequenceClassification
- tokenizer = AutoTokenizer.from_pretrained(“bert-base-uncased”)
- model = AutoModelForSequenceClassification.from_pretrained(“bert-base-uncased”)
- 모델 사용: 다운로드한 모델을 자신의 프로젝트에 통합하여 사용합니다.
허깅 페이지 모델 찾기. 데이터 찾기 [상단 그림 참조]
- 모델 찾기
  - 웹페이지에 접속 후 여러 메뉴중에서 적색 박스 model 누릅니다.
  - 모델을 눌러주시면 굉장히 많은게 나타납니다.
  - 좌측 메뉴에는 많은 Task들이 있고, 우측에는 실제로 올라와 있는 모델들입니다. 일단 사례로 한국어 모델을 찾아봅니다.
  - 좌측 Tasks에서 Text Classification 클릭, language에서 korean을 선택합니다.
  - 여기서 30개의 한국어 분류 모델을 검색할 수 있고, 원하는 모델을 선채택 사용하시면 됩니다.
  - 혹은 원하는 한국어 지원이 되지 않는 모델을 받아서 직접 학습하여 사용할 수도 있습니다.
- 데이터 찾기
  - 아래그림 상단 적색 박스 표시 Datasets을 누르시면 많은 데이터들이 검색됩니다.
  - 모델과 동일하게 원하는 데이터셋을 선택하시고 사용하시면 됩니다.

2024년에 주목할 최고의 오픈 소스 LLM 5가지

주목해야 할 최고의 오픈 소스 대형 언어 모델(LLM)
- GPT-4: OpenAI의 최신 모델로, 높은 성능과 다양한 기능을 자랑합니다.
- BERT(Gemini): Google이 개발한 모델로, 문맥 이해와 자연어 처리에 강점을 가집니다.
- RoBERTa: BERT를 기반으로 성능을 개선한 모델로, Facebook AI가 개발했습니다.
- T5: Google의 텍스트-텍스트 프레임워크 모델로, 다양한 NLP 작업에 사용될 수 있습니다.
- DistilBERT: BERT의 경량 버전으로, 빠른 속도와 적은 자원 사용을 목표로 합니다.
Llama 2 : 종합적으로 뛰어난 LLM 모델
지난 7월, Meta와 Microsoft는 2조 개의 토큰으로 학습된 사전 학습된 생성형 AI 모델인 라마 2의 출시를 발표했으며, 70억~700억 개의 매개변수를 지원합니다.
. 자연어 생성
. 채팅 사용 사례에 맞게 미세 조정
. 비슷한 규모의 LLM보다 적은 컴퓨팅 리소스 사용
- 장점
  - Meta와 Microsoft는 2조 개의 토큰으로 학습된 사전 학습된 생성형 AI 모델인 라마 2 출시. 70억~700억 개 매개변수 지원
  - 자연어 생성
  - 채팅 사용 사례에 맞게 미세 조정
  - 비슷한 규모의 LLM보다 적은 컴퓨팅 리소스 사용
- 단점
  - GPT 3.5와 같은 모델만큼 창의적이지 않음
  - 영어 이외의 언어 지원 제한

2. Falcon 180B: 가장 강력한 오픈 엑세스 모델

아랍에미리트 기술 혁신 연구소(TII)의 언어 모델은 최대 1,800억 개의 파라미터를 지원하는 RefinedWeb 데이터 세트에서 가져온 3조 5,000억 개의 토큰으로 학습되었습니다.

장점
- GPT 3.5 및 Llama 2와 같은 인기 도구보다 강력
- 텍스트 생성
- 코드 작성 및 디버그 추론에 최적화
단점
- 오픈 소스가 아닌 오픈 액세스 상업적 사용 제한
- 실행하려면 강력한 하드웨어 필요

3. Mistral: 최고의 7B 사전 학습 모델

2023년 9월, 미스트랄 AI는 70억 개의 파라미터를 갖춘 작지만 고성능 오픈 소스 LLM인 미스트랄 7B의 출시를 발표했습니다. 미스트랄 7B는 그룹화된 쿼리 주의와 같은 기술을 사용하여 더 빠른 추론을 수행하고, 슬라이딩 윈도우 주의(SWA)를 통해 더 긴 시퀀스를 더 낮은 비용으로 처리합니다.

장점
- 자연어 및 코드 생성
- 채팅 사용 사례에 사용할 수 있는 미세 조정된 모델 버전(Mistral 7B Instruct)
단점
- 미세 조정 없이는 코딩 성능이 GPT-4보다 뒤처짐
- 제한된 매개변수

4. Vicuna: 최고의 크기-출력 품질 LLM 모델

비쿠나 13B는 UC 버클리의 학생과 교수진이 2023년 3월에 오픈 연구 조직인 대형 모델 시스템 조직(LMSYS Org)에서 운영하는 오픈 소스 챗봇입니다. 비쿠나는 90%의 시나리오에서 라마와 스탠포드 알파카의 성능을 능가하면서 ChatGPT와 바드의 90%의 품질을 달성했습니다.

장점
- 상세한 자연어 출력 생성 경량
단점
- 추론 및 수학과 관련된 작업 수행 제한
- 환각

5. Giraffe: 최상의 스케일-컨텍스트 길이 모델

2023년 9월, Abacus.AI는 모델의 컨텍스트 길이를 4,096개에서 32,000개로 확장하여 Llama 2를 기반으로 미세 조정된 AI 모델 제품군인 Giraffe의 70B 버전을 출시했습니다.

70B 모델은 문서 QA 작업의 가장 긴 컨텍스트 창(32k)에서 13B 모델에 비해 크게 개선되어, AltQA 데이터 세트에서 61%의 정확도를 기록하였습니다. 또한 모든 컨텍스트 길이에서 비교 대상인 LongChat-32k 모델보다 성능이 뛰어나며, 가장 긴 컨텍스트 길이에서 61% 대 35%의 정확도를 기록했습니다.

장점
- 자연어 텍스트 이해 및 생성
- 6 모델은 최대 16K 컨텍스트 길이의 작업에서 우수한 성능 발휘
- 큰 컨텍스트 창은 더 큰 입력과 더 긴 대화를 지원함
- 비쿠나 인스트럭션의 미세 조정된 모델 버전 사용 가능
단점
- 상당한 연산 능력 필요
- 검색 정확도 미세 조정 필요
- 환각이 발생하기 쉬움

2024 허깅 페이스(Hugging Face, Inc.) 결론 및 주요 시사점

허깅페이스 오픈 LLM 리더보드는 전 세계 3600개 이상의 오픈소스 LLM을 평가하는 플랫폼입니다. 허깅페이스 탐구하기 click here
평가는 수학, 과학, 상식, 추론 등 6개 과목으로 이루어지며, 각 과목별로 수천 개의 문제를 풀어 평균 점수를 낸 후 순위를 집계합니다.
AI 스타트업 업스테이지는 허깅페이스를 LLM 기술의 우수성을 증명하고 모델의 우수성을 알리기 위해 활용하고 있습니다.
한편 스테이지와 한국지능정보사회진흥원(NIA)은 지난해 9월 ‘오픈 Ko-LLM 리더보드’를 내놨습니다. 허깅 페이스 평가모델을 기초로 한국어 특성과 문화를 반영했습니다. 현재 1천개 가까운 모델이 올라와 경쟁하고 있다고합니다.
허깅 페이스는 AI와 NLP 커뮤니티에 막대한 영향을 미치고 있으며, 그들의 오픈 소스 프로젝트는 전 세계 연구자와 개발자에게 큰 도움을 주고 있습니다. 2024년에도 허깅 페이스는 계속해서 혁신적인 도구와 모델을 제공하여 AI 기술의 발전에 기여할 것입니다. 이를 통해 더 많은 사람들이 AI를 쉽게 접근하고 활용할 수 있을 것으로 기대됩니다.

이 밖에 추가 정의가 필요하신 분이 계시다면 밑줄 아래 누르시면 연결됩니다.

트랜스포머(Transformer) : 2017년, 구글이 발표한 트랜스포머는 자연어처리 분야에서 혁신을 이끄는 모델로 등장했습니다. 이 모델은 기존의 순환 신경망(RNN)이나 장단기 메모리(LSTM)와는 달리, 어텐션 메커니즘을 기반으로 한 셀프 어텐션을 도입하여 긴 문장의 의존 관계를 효과적으로 학습할 수 있습니다.

트랜스포머를 기반으로 한 언어모델은 구글, 페이스북 등 여러 회사에서 개발되고 있습니다. 구글의 BERT나 GPT 시리즈, 페이스북의 RoBERTa와 같은 모델들은 트랜스포머의 아키텍처를 기반입니다. ↩︎

2024 허깅 페이스(Hugging Face, Inc.) 이해

2024 허깅 페이스(Hugging Face, Inc.) 이해

2024 허깅 페이스(Hugging Face, Inc.) 정의. 주요 서비스 및 역사

2024 허깅 페이스(Hugging Face, Inc.) 운영 오픈 LLM 리더보드

2024 허깅 페이스(Hugging Face, Inc.) 사용하기

2024년에 주목할 최고의 오픈 소스 LLM 5가지

2024 허깅 페이스(Hugging Face, Inc.) 결론 및 주요 시사점

이것이 좋아요:

3 thoughts on “2024 허깅 페이스(Hugging Face, Inc.) 이해”

Leave a Comment 응답 취소

2024 허깅 페이스(Hugging Face, Inc.) 이해

2024 허깅 페이스(Hugging Face, Inc.) 정의. 주요 서비스 및 역사

2024 허깅 페이스(Hugging Face, Inc.) 운영 오픈 LLM 리더보드

2024 허깅 페이스(Hugging Face, Inc.) 사용하기

2024년에 주목할 최고의 오픈 소스 LLM 5가지

2024 허깅 페이스(Hugging Face, Inc.) 결론 및 주요 시사점

이 글 공유하기:

이것이 좋아요:

3 thoughts on “2024 허깅 페이스(Hugging Face, Inc.) 이해”

Leave a Comment 응답 취소