[카테고리:] Uncategorized
의 게시글의 업그레이드 버전이라고 생각해주면 편하다. 아래의 링크를 참고했다. https://github.com/OpenBMB/MiniCPM-o 일단 다음과 같이 flash-attn을 설치해주고 코드를 다음과 같이 변경한다. 전에 사용했던 MiniCPM-V 2.6 모델을 18gb에 달하여 매우 무거웠다. 추론 자체도 매우 버거웠고… 코드를 실행하면 다음과…
우선 해당 링크 참고 해서 llama.cpp를 빌드합니다. 을 통해 모델을 가져옵니다. 다운 받가다 중간에 파일이 누락되거나 한다면 다음 명령어를 사용하여 누락한 부분을 채웁니다. 기가랜으로 바꾸고 싶다… 다음과 같이 *.safetensors 파일들을 *.gguf의 파일 포맷으로 변환해주고 있습니다.…
위의 코드를 실행하면 모델 다운로드가 시작됨. 40GB에 달하는 매우 무거운 모델이 다운로드 되고 있음을 알 수 있다. 다음과 같은 UI가 나온다. 모델을 generate를 누르면 모델이 다운로드 된며 실행된다. 모델의 용량이 메우 크기 때문에 다음과 같이…
리눅스에서 소켓은 파일 조작과 동일하게 간주되기 때문에 파일에 대해서 자세히 알 필요가 있다. 리눅스는 소켓을 파일의 일종으로 구분한다. 따라서 파일 입출력 함수를 소켓 입출력에, 다시 말해서 네트워크 상에서의 데이터 송수신에 사용할 수 있다. 참고로 윈도우는…
로 설치에 성공했다. 를 사용하여 돌려보니 일단 알아들을 수 있긴한다. 일단 한국어 모델을 찾아봐야 겠다.
로 이동합니다. 다음과 같은 UI가 뜨게 되는데요 다음과 같이 말의 shape를 사진만으로 만들어 냅니다. 요즘 gaussian 3d splatting기술이 매우 훌륭하군요!
GPT OSS라는 OpenAI사의 오픈소스 모델이 공개 되었다고 한다. https://huggingface.co/blog/welcome-openai-gpt-oss#flash-attention-3 하기의 링크에서 확인할 수 있다. llama.cpp에서 inference할 수 있다고 하는데 나중에 시도해봐야 겠다. 20b모델은 16gb 짜리 vram에서도 구동이 되는 모양이다.
ConverstaionBufferMemory는 사람과 LLM간의 대화를 pair(쌍으로)하게 저장한다. 즉, 사람과 AI의 대화(티키타카)를 저장하는 것으로 볼 수 있다. 다음과 같이 인스턴스를 생성 inputs는 사람의 질문이 들어간다. 대화내용은 history라는 디폴트 키에 들어간 것을 볼 수 있다. 은행에서 비대면으로 계좌를…
안녕하세요 저의 블로그에 찾아주셔서 감사합니다. 우선 저의 블로그에 포스팅된 내용에는 대부분 cuda-toolkit을 활용하도록 되어진 프로그램을 빌드하거나 활용하는 내용이 많은 것 같습니다. 그래서 이번 포스팅에서는 기본적인 개발 환경 세팅을 알려드리고자 합니다. 우선 저의 개발환경은 주로 conda,…
requirements.txt의 내용을 다음과 같이 바꿉니다. 다음과 같이 하여 설치와 모델 다운로드를 완료합니다. 다음과 같이 비디오 생성을 시작합니다.(되게 오래 걸립니다…) 그리고 기다린 끋에 완성되었습니다.