File: readme.md

Recommend this page to a friend!

readme.md

File:	`readme.md`
Role:	Documentation
Content type:	`text/markdown`
Description:	Documentation
Class:	Modelo LLM PHP Large language model to implement a chat bot
Author:	By Rodrigo Faustino
Last change:
Date:	6 months ago
Size:	`12,453 bytes`

Download

LLM-PHP

Bem-vindo ao projeto Modelo de Linguagem B�sico com PHP! Este reposit�rio oferece uma abordagem fundamental para a constru��o de um Modelo de Linguagem (LLM) simples utilizando PHP. Embora n�o seja t�o avan�ado quanto modelos contempor�neos como o ChatGPT, este projeto serve como um excelente ponto de partida para entender os conceitos essenciais por tr�s do processamento de linguagem natural e do desenvolvimento de chatbots.

Pois o proposito desse reposit�rio � apenas para estudo de como um LLM funciona por baixo dos panos, aqui existem muitas limita��es de uso, uma delas foram os dados utilizados, baixei uma base (dataset) sobre fake news do site https://www.kaggle.com/. Mas fake news? � pelo motivo de uma pequisa que estou realizando para outra implementa��o usando python, e resolvi fazer em php por ser minha linguagem principal e pelo motivo da linguagem python esconder muitas coisas que eu queria ver acontecendo.

ouseja caso queira usar a propria fonte de dados precisa alterar o arquivo fakenews.csv para seu proprio dataset e executar na ordem, olhe dentro do csv e no json dados processados para ver sua estrutura:

php runClearData.php

php runNGramProcessor.php

php runTrainModel.php

Caracter�sticas

Extra��o de Dados: M�todos para coletar e compilar dados para treinamento, no caso desse projeto houve a extra��o de uma dataset pronto.
Limpeza de Dados: T�cnicas para pr�-processar e sanitizar o dataset, os dados que vieram no data set possuem titulos e links e outros caracteres que precisavam de uma transforma��o.
Cria��o de N-Grams: Constru��o de n-grams para entender sequ�ncias de palavras, aqui � contado a quantidade de palavras que aparecem no texto.
Vetoriza��o: Transforma��o de dados textuais em vetores num�ricos para treinamento do modelo.
Treinamento do Modelo: Treinamento de um classificador Naive Bayes para previs�o de palavras.
Testes de Previs�o: Valida��o da precis�o do modelo na previs�o da pr�xima palavra.
Implementa��o do Chatbot: Interface b�sica de chatbot com limita��es inerentes.

Pr�-requisitos

Antes de come�ar, certifique-se de ter atendido aos seguintes requisitos:

PHP 7.4 ou superior
Composer para gerenciamento de depend�ncias
Servidor Web: Apache, Nginx ou qualquer servidor capaz de executar scripts PHP
Conhecimentos B�sicos de PHP e Conceitos de Aprendizado de M�quina
computador com pelo menos 16gb de RAM

Instala��o

Clone o Reposit�rio:

git clone https://github.com/faustinopsy/modelo-llm-php.git
cd modelo-llm-php

Instale as Depend�ncias:

Assegure-se de ter o Composer instalado. Em seguida, execute:
```
composer install
```
Configure o Servidor Web:

na raiz do projeto pode iniciar o servidor.
```
php -S localhost:8080
```

Estrutura do Projeto

/new_Chat
?backend
? ??? /model (a pasta ir� vazia, precisa executar os passos acima, pois o arquivo naive_bayes_model tem 800mb)
? ???--- naive_bayes_model.phpml 
? ???--- vectorizer.phpml 
? ???--- feature_selector.phpml 
? ??? /utils 
? ???---- ClearData.php 
? ???---- NextWordPredictor.php 
? ???---- NGramProcessor.php 
? ??? vendor/
? ??? composer.json 
? ??? fakes.csv
? ??? ngrams.json
? ??? runClearData.php
? ??? runNGramProcessor.php
? ??? runPredict.php
? ??? runTrainModel.php
? ??? composer.json 
??? index.html

Pontos importantes sobre o aprendizado de m�quina

Limpeza dos Dados Objetivo: Pr�-processar o dataset para remover ru�dos e informa��es irrelevantes.

Passos:

Convers�o para Min�sculas: Converta todo o texto para min�sculas para manter a consist�ncia. Remo��o de Pontua��o: Elimine marcas de pontua��o que n�o contribuem para a previs�o de palavras. Remo��o de Stop Words: Opcionalmente, remova palavras comuns (ex.: "o", "e", "�") para focar em palavras significativas. (altamente recomendado quando esta criando o pr�prio modelo) Tokeniza��o: Divida o texto em palavras ou tokens individuais.

Cria��o de N-Grams Objetivo: Analisar sequ�ncias de palavras para entender o contexto e prever palavras subsequentes.

O que � um N-Gram? Um n-gram � uma sequ�ncia cont�nua de 'n' itens (geralmente palavras) de uma amostra de texto. No processamento de linguagem natural, n-grams s�o usados para prever a probabilidade de uma palavra com base nas (n-1) palavras precedentes.

Unigram: Uma �nica palavra (n=1) Bigram: Duas palavras consecutivas (n=2) Trigram: Tr�s palavras consecutivas (n=3) (o modelo atual esta aqui, pois o tamanho do modelo fica menor)

Exemplo:

Para a frase "Eu amo programar em PHP", os bigrams s�o:

"Eu amo" "amo programar" "programar em" "em PHP"

Embeddings e N-Grams Embeddings e n-grams s�o duas abordagens distintas para representar e analisar dados textuais em processamento de linguagem natural.

Embeddings Defini��o: Representa��es vetoriais densas de palavras que capturam rela��es sem�nticas e sint�ticas. Utiliza��o: Cada palavra � representada por um vetor de n�meros cont�nuos, permitindo c�lculos de similaridade e outras opera��es matem�ticas. Vantagens: Capturam rela��es sem�nticas complexas entre palavras (ex.: similaridade, analogias). Desvantagens: Requer mais recursos computacionais para treinamento e armazenamento. Compara��o:

Contexto: N-grams capturam sequ�ncias fixas de palavras, enquanto embeddings capturam rela��es sem�nticas independentes da ordem. Complexidade: N-grams s�o mais simples e menos intensivos em recursos, enquanto embeddings exigem treinamento mais complexo. Aplica��es: N-grams s�o �teis para tarefas como previs�o de palavras e an�lise de frequ�ncia, enquanto embeddings s�o essenciais para tarefas que requerem entendimento sem�ntico, como tradu��o autom�tica e resposta a perguntas. Medidas de Proximidade Medidas de proximidade determinam a similaridade ou dist�ncia entre dois vetores. Medidas comuns incluem:

Vetoriza��o Objetivo: converter dados textuais em vetores num�ricos que modelos de aprendizado de m�quina podem interpretar. Essa transforma��o captura o significado sem�ntico e as rela��es entre as palavras.

Passos:

Tokeniza��o: Dividir o texto em tokens (palavras). Cria��o de Vetores: Atribuir valores num�ricos aos tokens com base na frequ�ncia ou outras m�tricas. Sele��o de Features: Selecionar caracter�sticas relevantes para melhorar o desempenho do modelo.

Treinamento do Modelo Objetivo: Treinar um modelo de aprendizado de m�quina para prever a pr�xima palavra com base no contexto fornecido.

normalmente j� existem os algoritmos especializados para treinamento, cada algoritmo � utilizado para um fim especifico

Alguns. - Classificador NaiveBayes Classificador baseado na aplica��o do teorema de Bayes com fortes suposi��es de independ�ncia (ing�nuas) entre os recursos.

Classificador KNearestNeighbors Classificador que implementa o algoritmo k-vizinhos mais pr�ximos.
Agrupamento de K-means O algoritmo K-Means agrupa dados tentando separar amostras em n grupos de vari�ncia igual, minimizando um crit�rio conhecido como in�rcia ou soma dos quadrados dentro do cluster. Este algoritmo requer que o n�mero de clusters seja especificado.

Testes de Previs�o Objetivo: Validar a precis�o do modelo na previs�o da pr�xima palavra com base em diferentes contextos.

Normalmente testa o modelo criado com parte dos dados da extra��o

Limita��es

Compreens�o B�sica: O chatbot possui entendimento limitado do contexto.
Vocabul�rio Restrito: Limitado ao vocabul�rio presente no dataset.
Sem Mem�ria: N�o ret�m hist�rico de conversas.
Possibilidade de Alucina��es: Pode gerar palavras sem sentido ou irrelevantes.
Comprimento de Resposta Fixado: Limitado a um n�mero pr�-definido de palavras.

Aplica��es:

Previs�o de texto Reconhecimento de fala Tradu��o autom�tica Vetoriza��o A vetoriza��o transforma dados textuais em vetores num�ricos. Este processo � essencial para modelos de aprendizado de m�quina, que requerem entrada num�rica.

T�cnicas:

Bag of Words (BoW): Conta a frequ�ncia de cada palavra em um documento. Term Frequency-Inverse Document Frequency (TF-IDF): Pesa a import�ncia de uma palavra com base em sua frequ�ncia em um documento em rela��o � frequ�ncia em todos os documentos. Word Embeddings: Representa palavras em espa�o vetorial cont�nuo (ex.: Word2Vec, GloVe). Medidas de Proximidade Medidas de proximidade determinam a similaridade ou dist�ncia entre dois vetores. Medidas comuns incluem:

Similaridade Cosseno: Mede o cosseno do �ngulo entre dois vetores. Dist�ncia Euclidiana: Mede a dist�ncia em linha reta entre dois pontos no espa�o. Dist�ncia de Manhattan: Mede a dist�ncia entre dois pontos ao longo dos eixos em �ngulos retos. Aplica��es:

Similaridade de documentos Agrupamento Classifica��o Gera��o de Palavras A gera��o de palavras envolve prever ou criar a pr�xima palavra em uma sequ�ncia com base no contexto fornecido. Este processo � fundamental para modelos de linguagem e chatbots.

Desafios:

Compreens�o de Contexto: Entender o significado por tr�s das palavras. Coer�ncia: Garantir que as palavras geradas formem frases significativas. Evitar Repeti��o: Prevenir que o modelo repita palavras excessivamente. Limita��es Embora este LLM b�sico sirva como um projeto fundamental, possui v�rias limita��es:

Flutua��es e Alucina��es: O modelo pode gerar palavras irrelevantes ou sem sentido devido � limita��o de dados de treinamento e algoritmos simplistas. Falta de Compreens�o Profunda: O chatbot n�o compreende o contexto al�m das sequ�ncias de palavras. Vocabul�rio Fixado: Limitado �s palavras presentes no dataset de treinamento. Problemas de Escalabilidade: N�o otimizado para aplica��es em grande escala ou em tempo real. Por que PHP? A escolha do PHP para este projeto foi motivada por v�rios fatores:

Facilidade de Deploy:

PHP � amplamente suportado em plataformas de hospedagem compartilhada, facilitando a implanta��o e reduzindo custos. - Hospedagem Econ�mica:

Solu��es de hospedagem compartilhada para PHP s�o geralmente mais baratas em compara��o com ambientes necess�rios para linguagens mais complexas como Python. Familiaridade:

Aproveitar o conhecimento existente de PHP permite desenvolvimento e itera��o r�pida. Contribui��o para o Ecossistema PHP:

Objetivo de contribuir de volta para a comunidade PHP, aprimorando as classes PHP e demonstrando a versatilidade do PHP em aplica��es de aprendizado de m�quina. Contribuindo Contribui��es s�o bem-vindas! Seja melhorando a documenta��o, adicionando novas funcionalidades ou corrigindo bugs, sua ajuda � apreciada.

criador do mecanismo de busca especializado WolframAlph a ? resume o ChatGPT:

?O conceito b�sico do ChatGPT �, em algum n�vel, bastante simples. 
Comece com uma amostra enorme de texto criado por humanos da web, livros, etc. 
Ent�o treine uma rede neural para gerar texto que seja ?como este?. 
E, em particular, fa�a com que ela seja capaz de come�ar com um ?prompt? e ent�o continuar com texto que seja ?como o que foi treinado?.

Como vimos, a rede neural real no ChatGPT � composta de elementos muito simples ? embora bilh�es deles. 
E a opera��o b�sica da rede neural tamb�m � muito simples, consistindo essencialmente em passar a entrada derivada do texto que ela gerou at� agora ?uma vez por seus elementos? (sem nenhum loop, etc.) para cada nova palavra (ou parte de uma palavra) que ela gera.

Mas o not�vel ? e inesperado ? � que esse processo pode produzir texto que � com sucesso ?como? o que est� dispon�vel na web, em livros, etc. (...)

A engenharia espec�fica do ChatGPT o tornou bastante atraente. 
Mas, no final das contas (pelo menos at� que possa usar ferramentas externas), o ChatGPT est� ?meramente? extraindo algum ?fio coerente de texto? das ?estat�sticas da sabedoria convencional? que ele acumulou. 
Mas � incr�vel como os resultados s�o semelhantes aos humanos.?